์ ์: Yating Wang, Haoyi Zhu, Mingyu Liu, Jiange Yang, Hao-Shu Fang, Tong He | ๋ ์ง: 2025-07-01 | URL: https://arxiv.org/abs/2507.01016 📄 PDF
Figure 1. The VQ-VLA pipeline, consisting of two main stages: (1) training a general convolutional residual VQ-VAE and (
100๋ฐฐ ์ด์์ ๋๊ท๋ชจ action trajectory ๋ฐ์ดํฐ์ ์ ํ์ฉํ์ฌ vector quantization ๊ธฐ๋ฐ action tokenizer๋ฅผ ํ์ตํ๊ณ , ์ด๋ฅผ Vision-Language-Action ๋ชจ๋ธ์ ํตํฉํ์ฌ ์ถ๋ก ์๋, ๋์ ๋ถ๋๋ฌ์, ์ฅ๊ธฐ ๊ณํ ๋ฅ๋ ฅ์ ํฅ์์ํจ๋ค.
Figure 3. Real-world experimental results: We compare the performance of Baseline, VQO, VQO+L, and VQO+L+M on both short
Figure 1. The VQ-VLA pipeline, consisting of two main stages: (1) training a general convolutional residual VQ-VAE and (
์ดํ: ๋ณธ ๋ ผ๋ฌธ์ action tokenization์ ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ์ผ๋ก ํ์ฅํ๋ ์ค์ฉ์ ์ด๊ณ ํจ๊ณผ์ ์ธ ๋ฐฉ๋ฒ๋ก ์ ์ ์ํ๋ฉฐ, synthetic-real ๋ฐ์ดํฐ ๊ฐ minimal domain gap์ด๋ผ๋ ์ค์ํ ๋ฐ๊ฒฌ์ ํตํด scalable embodied intelligence ์์คํ ๊ตฌํ์ ๊ธธ์ ์ด์๋ค. ์คํ ๊ฒฐ๊ณผ์ ์ด๋ก ์ ๊ทผ๊ฑฐ๊ฐ ์ถฉ๋ถํ๊ณ VLA ๋ชจ๋ธ์ ์ฑ๋ฅ๊ณผ ํจ์จ์ฑ์ ๋์์ ํฅ์์ํค๋ ์ ์์ ๋์ ์ค์ฉ์ฑ๊ณผ ํ์ ์ ๊ฐ์น๋ฅผ ์ง๋๋ค.