์ ์: Jinliang Zheng, Jianxiong Li, Zhihao Wang, Dongxiu Liu, Xirui Kang, Yuchun Feng, Yinan Zheng, Jiayin Zou, Yilun Chen, Jia Zeng, Ya-Qin Zhang, Jiangmiao Pang, Jingjing Liu, Tai Wang, Xianyuan Zhan | ๋ ์ง: 2025-10-11 | URL: https://arxiv.org/abs/2510.10274 📄 PDF
Figure 1 | X-VLA employs distinctive learnable embeddings, referred to as soft prompt, to effectively
X-VLA๋ ์ํํธ ํ๋กฌํํธ(Soft Prompt) ๊ธฐ๋ฒ์ ๋์ ํ์ฌ ์ด์ง์ ์ธ ๋ก๋ด ํ๋ซํผ ๊ฐ cross-embodiment ํ์ต์ ํจ๊ณผ์ ์ผ๋ก ์ฒ๋ฆฌํ๋ scalable Vision-Language-Action ๋ชจ๋ธ์ด๋ค. 0.9B ํ๋ผ๋ฏธํฐ ๊ท๋ชจ๋ก 6๊ฐ ์๋ฎฌ๋ ์ด์ ๋ฒค์น๋งํฌ์ 3๊ฐ ์ค๋ก๋ด์์ SOTA ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ค.
Figure 1 | X-VLA employs distinctive learnable embeddings, referred to as soft prompt, to effectively
Figure 2 | Comparison among four methods in handling heterogeneity in cross-embodiment training.
์ดํ: X-VLA๋ soft prompt๋ฅผ ํตํ ์ฐ์ํ๊ณ ํจ์จ์ ์ธ cross-embodiment ์ฒ๋ฆฌ ๋ฐฉ์์ผ๋ก VLA ๋ถ์ผ์ ์ค์ํ ์ง์ ์ ์ด๋ฃฌ๋ค. ํ๋ผ๋ฏธํฐ ํจ์จ์ฑ๊ณผ ๊ด๋ฒ์ํ ์ค์ฆ ํ๊ฐ๋ฅผ ํตํด ์ค์ ๋ก๋ด ์์ฉ ๋ถ์ผ์์์ ๋์ ์ค์ฉ์ฑ์ ์ ์ฆํ๋ฉฐ, flow-matching ๊ธฐ๋ฐ ์ํคํ ์ฒ์ ์์ ์ฑ๊ณผ ํ์ฅ์ฑ์ ํฅํ generalist ๋ก๋ด ๋ชจ๋ธ ๊ฐ๋ฐ์ ์ฃผ์ ๋ฐฉํฅ์ ์ ์ํ๋ค.