์ ์: Yihao Wang, Pengxiang Ding, Lingxiao Li, Can Cui, Zirui Ge, Xinyang Tong, Wenxuan Song, Han Zhao, Wei Zhao, Pengxu Hou, Siteng Huang, Yifan Tang, Wenhui Wang, Ru Zhang, Jianyi Liu, Donglin Wang | ๋ ์ง: 2025-09-11 | URL: https://arxiv.org/abs/2509.09372 📄 PDF
VLA-Adapter๋ ๊ฒฝ๋ ๋ฐฑ๋ณธ(0.5B ํ๋ผ๋ฏธํฐ)์ ์ฌ์ฉํ์ฌ ๋ก๋ด ๋ฐ์ดํฐ ์ฌ์ ํ์ต ์์ด ์ต์ฒจ๋จ Vision-Language-Action ๋ชจ๋ธ์ ํ์ตํ ์ ์๋ ์๋ก์ด ํจ๋ฌ๋ค์์ ์ ์ํ๋ค. Bridge Attention์ ํตํด ๋น์ -์ธ์ด ํํ์ ํ๋ ๊ณต๊ฐ์ ํจ๊ณผ์ ์ผ๋ก ์ฐ๊ฒฐํ๋ค.
Figure 3: The proposed VLA framework. The key components are the effective condition explo-
์ดํ: VLA-Adapter๋ ๊ฒฝ๋ ๋ฐฑ๋ณธ์ผ๋ก๋ ์ต์ฒจ๋จ ์ฑ๋ฅ์ ๋ฌ์ฑํ ์ ์์์ ๋ณด์ฌ์ฃผ๋ฉฐ, VL-A ๋ธ๋ฆฟ์ง์ ๋ณธ์ง์ ๋ํ ์ฒด๊ณ์ ๋ถ์์ ํตํด VLA ์ค๊ณ์ ์ค์ง์ ์ง์นจ์ ์ ๊ณตํ๋ค. ๋น ๋ฅธ ํ์ต ์๊ฐ๊ณผ ๋ฎ์ ๊ณ์ฐ ๋น์ฉ์ผ๋ก ๋ก๋ด ๊ณตํ์ ์ ๊ทผ์ฑ์ ํฌ๊ฒ ๋์ด๋ ์ค์ํ ๊ธฐ์ฌ์ด๋ค.