์ ์: Wentao Yuan, Jiafei Duan, Valts Blukis, Wilbert Pumacay, Ranjay Krishna, Adithyavairavan Murali, Arsalan Mousavian, Dieter Fox | ๋ ์ง: 2024-06-15 | URL: https://arxiv.org/abs/2406.10721 📄 PDF
Figure 1: ROBOPOINT is a Vision-Language Model that predicts affordance points based on language
RoboPoint๋ ์ธ์ด ์ง์๋ฅผ ๋ฐ์ ๋ก๋ด์ ์ ํํ ํ๋ ์ง์ (affordance keypoint)์ ์์ธกํ๋ Vision-Language Model๋ก, ์๋ ํฉ์ฑ ๋ฐ์ดํฐ ์์ฑ ํ์ดํ๋ผ์ธ์ ํตํด ์ค์ ๋ฐ์ดํฐ ์์ง ์์ด ํ์ต๋๋ค.
Figure 5: Real-world manipulation evaluation. We created 7 language-conditioned manipulation tasks
Figure 2: Overview of ROBOPOINT pipeline. An RGB image is rendered from a procedurally generated
์ดํ: RoboPoint๋ ์๋ํ๋ ํฉ์ฑ ๋ฐ์ดํฐ ํ์ดํ๋ผ์ธ๊ณผ ์ ๊ธฐ๋ฐ ํ๋ ๊ณต๊ฐ์ ๊ฒฐํฉํ์ฌ ๋๊ท๋ชจ ์ค์ ๋ฐ์ดํฐ ์์ง ์์ด๋ ๋ก๋ด ๊ณต๊ฐ ์ถ๋ก ์ ํฌ๊ฒ ํฅ์์ํจ ํ์ ์ ์ธ ์ ๊ทผ๋ฒ์ด๋ฉฐ, ์กฐ์, ๋ค๋น๊ฒ์ด์ , AR ๋ฑ ๋ค์ํ ์์ฉ ๋ถ์ผ์ ํ์ฅ์ฑ์ด ๋์ง๋ง ์ค์ ๋ก๋ด ์์คํ ์์์ ๊ฒ์ฆ ๊ฐํ๊ฐ ํ์ํ๋ค.