์ ์: Wenlong Huang, Chen Wang, Ruohan Zhang, Yunzhu Li, Jiajun Wu, Li Fei-Fei | ๋ ์ง: 2023-07-12 | URL: https://arxiv.org/abs/2307.05973 📄 PDF
Figure 1: VOXPOSER extracts language-conditioned affordances and constraints from LLMs and grounds
LLM์ affordance ์ถ๋ก ๋ฅ๋ ฅ๊ณผ code-writing ๋ฅ๋ ฅ์ ํ์ฉํ์ฌ 3D value map์ ์์ฑํ๊ณ , ์ด๋ฅผ model-based planning์ผ๋ก ๋ก๋ด trajectory ํฉ์ฑ์ ํ์ฉํ๋ zero-shot ๋ก๋ด ์กฐ์ ๋ฐฉ๋ฒ๋ก .
Figure 3: Visualization of composed 3D value maps and rollouts in real-world environments. The top row
Figure 2: Overview of VOXPOSER. Given the RGB-D observation of the environment and a language in-
์ดํ: VoxPoser๋ LLM์ ๋์ ์์ค ์ถ๋ก ๊ณผ code ์์ฑ ๋ฅ๋ ฅ์ 3D ๋ก๋ด ์กฐ์์ ์ฒ์์ผ๋ก ํจ๊ณผ์ ์ผ๋ก ์ฐ๊ฒฐํ ํ์ ์ ๋ฐฉ๋ฒ์ผ๋ก, zero-shot ์ผ๋ฐํ์ ์ค์ ๋ก๋ด ์ ์ฉ ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์ฃผ๋ ์๋ฏธ ์๋ ๊ธฐ์ฌ์ด๋ค. ๋ค๋ง affordance ์ ํ์ฑ, ์ฅ๊ธฐ ๊ณํ, ๊ณ์ฐ ํจ์จ์ฑ ์ธก๋ฉด์ ๊ฐ์ ์ด ํ์ํ๋ค.