์ ์: Yifan Zhong, Fengshuo Bai, Shaofei Cai, Xuchuan Huang, Zhang Chen, Xiaowei Zhang, Yuanfei Wang, Shaoyang Guo, Tianrui Guan, Ka Nam Lui, Zhiquan Qi, Yitao Liang, Yuanpei Chen, Yaodong Yang | ๋ ์ง: 2025-07-02 | URL: https://arxiv.org/abs/2507.01925 📄 PDF
Figure 1 | We present a unified framework of VLA from an action tokenization perspective. Action token refers
๋ณธ ๋ ผ๋ฌธ์ vision-language-action (VLA) ๋ชจ๋ธ๋ค์ action tokenization ๊ด์ ์์ ํตํฉ์ ์ผ๋ก ๋ถ์ํ๋ ํฌ๊ด์ ์ธ ์๋ฒ ์ด์ด๋ค. ํ์ฌ์ ๋ค์ํ VLA ๋ชจ๋ธ๋ค์ ๋จ์ผ ํ๋ ์์ํฌ๋ก ํตํฉํ๊ณ , action token์ language description, code, affordance, trajectory, goal state, latent representation, raw action, reasoning ๋ฑ 8๊ฐ์ง๋ก ๋ถ๋ฅํ์ฌ ์ฒด๊ณ์ ์ผ๋ก ์ ๋ฆฌํ๋ค.
Figure 3 | Evolution timeline of foundation models, VLA models, and data sources. The U-shape reflects how
โข ํตํฉ ํ๋ ์์ํฌ ์ ์: ๋ค์ํ VLA ๋ชจ๋ธ๋ค์ action tokenization ๊ด์ ์์ ํตํฉ์ ์ผ๋ก ๋ถ์ํ๋ ํ๋ ์์ํฌ ์ ์
โข Action Token ๋ถ๋ฅ์ฒด๊ณ: 8๊ฐ์ง action token type (language description, code, affordance, trajectory, goal state, latent representation, raw action, reasoning)์ ํฌ๊ด์ ๋ถ๋ฅ ๋ฐ ์ ์
โข ๊ฐ token type๋ณ ์์ธ ๋ถ์: ๊ฐ token type์ ๋ฐ์ ๊ณผ์ , ์ฃผ์ ๋ฐฉ๋ฒ๋ก , ์ฅ๋จ์ , ์ ์ฉ ๋ถ์ผ์ ๋ํ ์ฌ์ธต ๋ถ์
โข ํฅํ ๊ธฐ์ ํธ๋ ๋ ์๋ณ: Hierarchical architecture, action-based reasoning, reinforcement learning ํตํฉ, VLA agent๋ก์ ์งํ ๋ฑ ๋ฏธ๋ ๋ฐฉํฅ ์ ์
โข ์ค์ฉ์ ๊ฐ์ด๋๋ผ์ธ ์ ๊ณต: Model, data, hardware์ ํ์ง ํ์์ฑ, safety์ alignment์ ์ค์์ฑ ๊ฐ์กฐ
Figure 2 | Visualization of action tokens in a single embodied task. Given the same vision and language
โข 8๊ฐ์ง action token type์ ๋ํด ๋ณ๋์ ์น์ ์ ํ ๋นํ์ฌ ๊ฐ๊ฐ์ evolution timeline, key papers, advantages, limitations ๋ฑ์ ์์ธํ ๋ถ์
โข ์ค์ VLA ๋ชจ๋ธ๋ค (CodeAsPolicies, DriveVLM, VoxPoser, HiRobot, CoT-VLA, GO-1, VILA-U ๋ฑ)์ action token ๋ถ๋ฅ์ ๋ฐ๋ผ ์ฒด๊ณ์ ์ผ๋ก ๋ถ๋ฅ ๋ฐ ์๊ฐํ
โข Executive summary์์ action token trends, architecture trends, emerging research directions ๋ฑ์ ๋ช ํํ๊ฒ ์ ๋ฆฌ
โข Table of contents ๋ฐ ์ ๋ ฌ๋ ์น์ ๊ตฌ์กฐ๋ก ๊ฐ ์ฃผ์ ์ ๋ํ ๋ ผ๋ฆฌ์ ์ ๊ฐ
โข Action tokenization ๊ด์ ์ ์๋ก์ด ๋ถ์ ํ: ๊ธฐ์กด์ ๋ถ์กฑํ๋ action token์ ๋ํ ํตํฉ์ ๊ด์ ์ ์ฒ์์ผ๋ก ์ ์
โข LLM์ language token๊ณผ VLA์ action token ๋์ ๊ด๊ณ ์ค์ : ๋ ๋ถ์ผ์ ๋ณ๋ ฌ ๋ฐ์ ์ ํตํด ์๋ก์ด ์ธ์ฌ์ดํธ ์ ๊ณต
โข Action token taxonomy์ ์ ๋ฆฝ: 8๊ฐ์ง ์ธ๋ถ ๋ถ๋ฅ๋ก ์ฒด๊ณ์ ์ธ ๋ถ๋ฅ์ฒด๊ณ ํ๋ฆฝ
โข Hierarchical architecture ๋ฐ multi-token synergy ๊ฐ๋ ๋์ : ๋จ์ผ token ์ค์ฌ์ด ์๋ ์ ๋ต์ ์กฐํฉ์ ํ์์ฑ ๊ฐ์กฐ
โข ์คํ์ ๊ฒ์ฆ์ ๋ถ์ฌ: ๋ณธ ์๋ฒ ์ด๋ ์ ์ฑ์ ๋ถ์์ ์ค์ ์ ๋๊ณ ์์ผ๋ฉฐ, ๊ฐ action token type๋ค์ ์ฑ๋ฅ์ ์ ๋์ ์ผ๋ก ๋น๊ตํ๋ ๋ฒค์น๋งํฌ ๊ฒฐ๊ณผ๊ฐ ๋ถ์กฑํจ
โข ๋ฐ์ดํฐ ๋ฐ ํ๋์จ์ด ์ ์ฝ์ ๋ ผ์ ๋ถ์กฑ: action tokenization ์ ํ์ด data์ hardware ๊ฐ์ฉ์ฑ์ ๋ฏธ์น๋ ์ํฅ์ ๋ํ ์ฌํ๋ ๋ถ์ ํ์
โข ์ค์๊ฐ ์ฑ๋ฅ ํ๊ฐ ๋ถ์ฌ: ๋ณต์กํ ์ค์ ํ๊ฒฝ์์ ๊ฐ token type์ ์คํ ํจ์จ์ฑ, ์ง์ฐ ์๊ฐ, ์คํจ์จ ๋ฑ์ ๋น๊ตํ ์ค์ฆ์ ํ๊ฐ ํ์
โข ํ์ ์ฐ๊ตฌ: ๊ฐ action token type๋ค ๊ฐ์ ์ฑ๋ฅ ๋ฒค์น๋งํน, ํ์ด๋ธ๋ฆฌ๋ ์ ๊ทผ ๋ฐฉ์์ ์คํ์ ๊ฒ์ฆ, ์์ ์ฑ๊ณผ ์ ๋ ฌ ๋ฌธ์ ์ ๋ํ ๋ ๊น์ด ์๋ ๋ ผ์ ํ์
์ดํ: ๋ณธ ์๋ฒ ์ด๋ VLA ๋ถ์ผ์ ํํฉ์ action tokenization์ด๋ผ๋ ํตํฉ์ ๋ ์ฆ๋ก ๋ถ์ํ์ฌ ์ฒด๊ณ์ ์ด๊ณ ํฌ๊ด์ ์ธ ์ดํด๋ฅผ ์ ๊ณตํ๋ค. 8๊ฐ์ง action token type์ ๋ถ๋ฅ, ๊ฐ๊ฐ์ ์ฅ๋จ์ ๋ถ์, ๊ทธ๋ฆฌ๊ณ ๋ฏธ๋ ๊ธฐ์ ํธ๋ ๋์ ๋ํ ์ธ์ฌ์ดํธ๋ VLA ์ฐ๊ตฌ์ ๋ฐฉํฅ์ ์ ์ํ๋ ๋ฐ ๋งค์ฐ ๊ฐ์น ์๋ค. ๋ค๋ง ์ ๋์ ์ธ ์ฑ๋ฅ ๋น๊ต์ ์ค์ ํ๊ฒฝ์์์ ๊ฒ์ฆ์ด ๋ถ์ฌํ๋ค๋ ํ๊ณ๊ฐ ์์ผ๋ฉฐ, ์ด๋ฅผ ๋ณด์ํ๋ ํ์ ์ฐ๊ตฌ๊ฐ ํ์ํ๋ค.