์ ์: Jiafei Duan, Wentao Yuan, Wilbert Pumacay, Yi Ru Wang, Kiana Ehsani, Dieter Fox, Ranjay Krishna | ๋ ์ง: 2024-06-27 | URL: https://arxiv.org/abs/2406.18915 📄 PDF
Figure 2: Manipulate Anything Framework. The process begins by inputting a scene representation
Vision-Language Model์ ํ์ฉํ์ฌ ์ค์ ๋ก๋ด ํ๊ฒฝ์์ ํน๊ถ ์ ๋ณด๋ ์ฌ์ ์ค๊ณ๋ ์คํฌ ์์ด ์๋์ผ๋ก ๋ก๋ด ์กฐ์ ์์ฐ ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๋ Manipulate-Anything ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค.
Figure 5: Action Distribution for Generated Data: We compare the action distribution of data
Figure 2: Manipulate Anything Framework. The process begins by inputting a scene representation
์ดํ: Manipulate-Anything์ VLM์ ์์์ ์ง์์ ์ฒด๊ณ์ ์ผ๋ก ํ์ฉํ์ฌ ์ค์ ๋ก๋ด ํ๊ฒฝ์์ ํ์ฅ ๊ฐ๋ฅํ ์๋ ๋ฐ์ดํฐ ์์ฑ์ ๋ฌ์ฑํ ํ์ ์ ์ธ ํ๋ ์์ํฌ์ด๋ฉฐ, ์์ฑ๋ ๋ฐ์ดํฐ๊ฐ ์ธ๊ฐ ์์ฐ๋ณด๋ค ์ฐ์ํ ์ ์ฑ ์ ํ์ต์ํฌ ์ ์๋ค๋ ๋๋ผ์ด ๊ฒฐ๊ณผ๋ ๋ก๋ด ํ์ต์ ๋ฏธ๋๋ฅผ ํฐ ๋ณํ์ํฌ ์ ์๋ ์ ์ฌ๋ ฅ์ ์์ฌํ๋ค.