์ ์: Ankit Goyal, Hugo Hadfield, Xuning Yang, Valts Blukis, Fabio Ramos | ๋ ์ง: 2025-10-15 | URL: https://arxiv.org/abs/2510.13054 📄 PDF
Fig. 1: Schematic representation of VLA-0. VLA-0 con-
VLA-0๋ Vision-Language Model์ ๊ตฌ์กฐ ๋ณ๊ฒฝ ์์ด ์ก์ ์ ์ง์ ํ ์คํธ๋ก ํํํ์ฌ ๋ก๋ด ์กฐ์์ ์ํ ์ต์ฒจ๋จ Vision-Language-Action ๋ชจ๋ธ์ ๊ตฌ์ถํ๋ค. ์ด ๋จ์ํ ์ค๊ณ๊ฐ ๊ธฐ์กด์ ๋ณต์กํ ๋ฐฉ๋ฒ๋ค๋ณด๋ค ์ฐ์ํ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ค.
Fig. 2: Families of methods for building VLAs. We categorize existing VLAs into three categories: Discrete Token VLAs,
Fig. 3: Our proposed VLA-0. It creates a VLA without making any changes to the underlying VLM. It takes a system
์ดํ: VLA-0๋ ์์์ ๋ค์๊ณ ๊ฐ์ฅ ๋จ์ํ ์ค๊ณ๊ฐ ์ต์ฒจ๋จ ์ฑ๋ฅ์ ๋ฌ์ฑ ๊ฐ๋ฅํจ์ ์ ์ฆํ์ฌ VLA ๋ถ์ผ์ ์ค์ํ ํต์ฐฐ์ ์ ๊ณตํ๋ค. ์ฝ๋์ ๋ชจ๋ธ ๊ณต๊ฐ๋ฅผ ํตํ ์ฌํ์ฑ๊ณผ ์ค์ฉ์ฑ์ด ๋์ผ๋ฉฐ, VLM ๊ธฐ๋ฐ ๋ก๋ด ์ ์ด ์ฐ๊ตฌ์ ์๋ก์ด ๋ฐฉํฅ์ ์ ์ํ๋ค.