์ ์: Qingqing Zhao, Yao Lu, Moo Jin Kim, Zipeng Fu, Zhuoyang Zhang, Yecheng Wu, Zhaoshuo Li, Qianli Ma, Song Han, Chelsea Finn, Ankur Handa, Ming-Yu Liu, Donglai Xiang, Gordon Wetzstein, Tsung-Yi Lin | ๋ ์ง: 2025-03-27 | URL: https://arxiv.org/abs/2503.22020 📄 PDF
Figure 2. Overview of CoT-VLA framework. We build our model on VILA-U [67], a generative multimodal model pretrained on
์ด ๋ ผ๋ฌธ์ Vision-Language-Action(VLA) ๋ชจ๋ธ์ ์๊ฐ์ chain-of-thought ์ถ๋ก ์ ๋์ ํ์ฌ, ๋ก๋ด์ด ์ง์ ํ๋์ ์์ฑํ๊ธฐ ์ ์ ๋ฏธ๋์ ๋ถ๋ถ ๋ชฉํ ์ด๋ฏธ์ง๋ฅผ ์๋ํ๊ท์ ์ผ๋ก ์์ฑํ๋๋ก ํจ์ผ๋ก์จ ๋ก๋ด ์กฐ์ ์ฑ๋ฅ์ ํฅ์์ํจ๋ค.
Figure 4. Franka-Tabletop comparisons. Evaluation across six distinct manipulation tasks, with separate models trained p
Figure 2. Overview of CoT-VLA framework. We build our model on VILA-U [67], a generative multimodal model pretrained on
์ดํ: ์ด ๋ ผ๋ฌธ์ VLA์ visual chain-of-thought ์ถ๋ก ์ ๋์ ํ์ฌ ํด์์ฑ๊ณผ ์ฑ๋ฅ์ ๋์์ ๊ฐ์ ํ ํ์ ์ ์ธ ์์ ์ด๋ฉฐ, ํ๋ ์ฃผ์์ด ์๋ ๋น๋์ค ๋ฐ์ดํฐ ํ์ฉ์ด๋ผ๋ ์ค์ฉ์ ์ด์ ๊ณผ ํจ๊ป ๋ค์ํ ์คํ์ผ๋ก ํจ๊ณผ์ฑ์ ์ถฉ๋ถํ ์ ์ฆํ์๋ค.