์ ์: Junhao Cai, Zetao Cai, Jiafei Cao, Yilun Chen, Zeyu He, Lei Jiang, Hang Li, Hengjie Li, Yang Li, Yufei Liu, Yanan Lu, Qi Lv, Haoxiang Ma, Jiangmiao Pang, Yu Qiao, Zherui Qiu, Yanqing Shen, Xu Shi, Yang Tian, Bolun Wang, Hanqing Wang, Jiaheng Wang, Tai Wang, Xueyuan Wei, Chao Wu, Yiman Xie, Boyang Xing, Yuqiang Yang, Yuyin Yang, Qiaojun Yu, Feng Yuan, Jia Zeng, Jingjing Zhang, Shenghan Zhang, Shi Zhang, Zhuoma Zhaxi, Bowen Zhou, Yuanzhen Zhou, Yunsong Zhou, Hongrui Zhu, Yangkun Zhu, Yuchen Zhu | ๋ ์ง: 2026-01-05 | URL: https://arxiv.org/abs/2601.02456 📄 PDF
Figure 1. InternVLA-A1 unifies scene understanding, visual foresight generation, and action execution
InternVLA-A1์ Mixture-of-Transformers ์ํคํ ์ฒ๋ฅผ ํตํด ์๋ฏธ ์ดํด, ์๊ฐ์ ์์ธก, ํ๋ ์คํ์ ํตํฉํ์ฌ ๋ก๋ด ์กฐ์ ์ฑ๋ฅ์ ํฅ์์ํค๋ Vision-Language-Action ๋ชจ๋ธ์ด๋ค. ์ค์ธ๊ณ ๋ก๋ด ๋ฐ์ดํฐ, ํฉ์ฑ ์๋ฎฌ๋ ์ด์ ๋ฐ์ดํฐ, ์ธ๊ฐ ๋น๋์ค๋ฅผ ํฌํจํ 692M ํ๋ ์์ ์ด์ง์ ๋ฐ์ดํฐ๋ก ์ฌ์ ํ์ต๋์ด ๋์ ์กฐ์ ์์ ์์ 26.7% ์ฑ๋ฅ ํฅ์์ ๋ฌ์ฑํ๋ค.
Figure 1. InternVLA-A1 unifies scene understanding, visual foresight generation, and action execution
Figure 2. Framework of InternVLA-A1. The architecture comprises three experts: (1) an under-
์ดํ: InternVLA-A1์ ์๋ฏธ ์ดํด์ ๋์ ์์ธก์ ํตํฉํ๋ ํ์ ์ ์ํคํ ์ฒ์ ์ด์ง์ ๋ฐ์ดํฐ source์ ํจ๊ณผ์ ํ์ฉ์ผ๋ก ๋ก๋ด ์กฐ์์ ์ผ๋ฐํ ๋ฌธ์ ๋ฅผ ํฌ๊ฒ ํฅ์์์ผฐ๋ค. ํนํ ๋์ ํ๊ฒฝ์์์ 26.7% ์ฑ๋ฅ ํฅ์์ ์ค์ธ๊ณ ์์ฉ์ ์ค์ํ ์ง์ ์ ๋ณด์ฌ์ฃผ๋ฉฐ, VLA ๋ถ์ผ์ ์ฃผ์ ๊ธฐ์ฌ์ด๋ค.