An Anatomy of Vision-Language-Action Models: From Modules to Milestones and Challenges
์ ์: Chao Xu, Suyu Zhang, Yang Liu, Baigui Sun, Weihong Chen, Bo Xu, Qi Liu, Juncheng Wang, Shujun Wang, Shan Luo, Jan Peters, Athanasios V. Vasilakos, Stefanos Zafeiriou, Jiankang Deng | ๋ ์ง: 2025-12-12 | URL: https://arxiv.org/abs/2512.11362 📄 PDF
Essence
Fig. 1: The structure of this survey in a pyramid format. Section 2 lays
Vision-Language-Action (VLA) ๋ชจ๋ธ์ ๊ตฌ์กฐ์ ๋ฐ์ ์ ์ฒด๊ณ์ ์ผ๋ก ๋ถ์ํ๋ ์ข
ํฉ ์๋ฒ ์ด๋ก, ๊ธฐ๋ณธ ๋ชจ๋๋ถํฐ ์ญ์ฌ์ ๋ง์ผ์คํค์ ๊ฑฐ์ณ 5๊ฐ์ง ํต์ฌ ๊ณผ์ ๊น์ง ๋จ๊ณ์ ์ผ๋ก ์ค๋ช
ํ๋ค.
Motivation
- Known: VLA ๋ชจ๋ธ์ ๋ก๋ด์ ์ง๋ฅํ๋ฅผ ์ํด ์๊ฐ, ์ธ์ด, ํ๋์ ํตํฉํ๋ ๊ธฐ์ด ๋ชจ๋ธ๋ก ๋น ๋ฅด๊ฒ ๋ฐ์ ์ค์ด๋ฉฐ, ๊ธฐ์กด ์๋ฒ ์ด๋ค์ ํน์ ๊ธฐ์ ์์ญ์ด๋ ๋ชจ๋ธ ์ํคํ
์ฒ ์ค์ฌ์ผ๋ก ๋จํธ์ ์ ๋ณด๋ฅผ ์ ๊ณตํ๊ณ ์๋ค.
- Gap: ๊ธฐ์กด ์๋ฒ ์ด๋ ์ฐ๊ตฌ ๊ณผ์ ๋ฅผ ๋ถ์์ ์ธ ๊ฒฐ๋ก ์น์
์ผ๋ก๋ง ๋ค๋ฃจ๊ณ , ์ด๋ณด ์ฐ๊ตฌ์๋ฅผ ์ํ ํต์ผ๋ ํ์ต ๊ฒฝ๋ก ์์ด ๋จ์ ๋ถ๋ฅ ๋ฐฉ์์ผ๋ก ์ ๋ณด๋ฅผ ๋์ดํ์ฌ ํ๋ ๊ฐ ํตํฉ์ ์ดํด๊ฐ ๋ถ์กฑํ๋ค.
- Why: VLA ๋ถ์ผ๊ฐ ๊ธ์๋๋ก ํ์ฅํ๊ณ ์๋ก์ด ๋ชจ๋ธ๊ณผ ๋ฐ์ดํฐ์
์ด ์ง์์ ์ผ๋ก ๋ฑ์ฅํ๋ฏ๋ก, ์ฒด๊ณ์ ์ด๊ณ ์งํ ๋จ๊ณ์ ์ธ ํ์ต ๊ฐ์ด๋์ ์ฌ์ธต์ ์ธ ๋ฌธ์ ๋ถ์์ด ํ์์ ์ด๋ค.
- Approach: ๊ธฐ์ด ๋ชจ๋(Perception, Brain, Action), ์ญ์ฌ์ ๋ฐ์ (Milestones), 5๊ฐ์ง ํต์ฌ ๊ณผ์ (Representation, Execution, Generalization, Safety, Dataset)์ 3๋จ๊ณ ํผ๋ผ๋ฏธ๋ ๊ตฌ์กฐ๋ก ์ค๊ณํ์ฌ ์ด๋ณด์๋ถํฐ ๊ฒฝํ์๊น์ง ์ฒด๊ณ์ ์ธ ํ์ต ๊ฒฝ๋ก๋ฅผ ์ ๊ณตํ๋ค.
Achievement
Fig. 1: The structure of this survey in a pyramid format. Section 2 lays
- ๊ตฌ์กฐํ๋ ํ์ต ๊ฒฝ๋ก: ๊ธฐ๋ณธ ๋ชจ๋ ๋ถํด โ ์ญ์ฌ์ ์งํ โ ์ฌ์ธต ๊ณผ์ ๋ถ์์ ๋จ๊ณ์ ๊ตฌ์กฐ๋ก ์ฐ๊ตฌ์์ ์์ฐ์ค๋ฌ์ด ํ์ต ๊ถค์ ์ง์
- ์ฌ์ธต ๊ณผ์ ๋ถ์: ๊ธฐ์กด์ ๊ฐ๊ด์ ๋ฌธ์ ๋์ด์ ๋์ด (1) Multi-Modal Alignment and Physical World Modeling, (2) Instruction Following, Planning, and Robust Real-Time Execution, (3) Generalization to Continuous Adaptation, (4) Safety, Interpretability, and Reliable Interaction, (5) Data Construction and Benchmarking Standards์ 5๋ ๊ณผ์ ์ฌ์ธต ๋ถ์
- ์ํคํ
์ฒ ์งํ ํธ๋ ๋: Perception์ Language-Aligned Transformers (SigLIP) ๋ฐ DINOv2๋ก์ ์งํ, Brain์ pre-trained VLM ์๋ ด, Action์ discrete tokenization์์ continuous generative modeling (Diffusion)์ผ๋ก์ ์ ํ ์ถ์
- ์ค์๊ฐ ์
๋ฐ์ดํธ ํ๋ซํผ: ํ๋ก์ ํธ ํ์ด์ง๋ฅผ ํตํ ์ง์์ ์
๋ฐ์ดํธ๋ก ๋น ๋ฅด๊ฒ ๋ณํํ๋ ์ฐ๊ตฌ ์ต์ ์ ๋ฐ์
How
Fig. 1: The structure of this survey in a pyramid format. Section 2 lays
- ๊ธฐ๋ณธ ๋ชจ๋ ์น์
(Section 2)์์ Vision Encoder (CNN, ViT, Language-Supervised/Self-Supervised variants), Robot Brain, Action ๋ชจ๋์ ์ต์ ๋ํฅ ์ ๋ฆฌ
- ์ญ์ฌ์ ๋ง์ผ์คํค(Section 3)์ ํตํด VLA ๋ชจ๋ธ, ๋ฐ์ดํฐ์
, ํ๊ฐ ๋ฒค์น๋งํฌ์ ์๊ฐ๋ณ ์งํ ๊ณผ์ ์ ์
- 5๊ฐ์ง ํต์ฌ ๊ณผ์ ๊ฐ๊ฐ์ ๋ํด (1) ๋ฌธ์ ์ ์, (2) ๊ธฐ์กด ํด๊ฒฐ์ฑ
๋น๊ต, (3) ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ ์ ์์ 3๋จ๊ณ ์ฌ์ธต ๋ถ์
- ๋ฉํฐ๋ชจ๋ฌ ์ผ๋ผ์ธ๋จผํธ๋ถํฐ ์์ ์ฑ, ๋ฐ์ดํฐ ๊ตฌ์ถ๊น์ง VLA ์์ด์ ํธ์ ๊ฐ๋ฐ ๋ก๋๋งต์ ๋ฐ์ํ ๊ณผ์ ์์ ์ค์
Originality
- ๋ฌธ์ ์ค์ฌ ์ค๊ณ: ๊ธฐ์กด ์๋ฒ ์ด์ ๋ฐฉ๋ฒ๋ก ์ค์ฌ์์ ๋ฒ์ด๋ ํต์ฌ ๊ณผ์ ๋ฅผ ์กฐ์ฌ์ ์ค์ฌ์ถ์ผ๋ก ์ฌ๋ฐฐ์นํ์ฌ ๋ฏธํด๊ฒฐ ๋ฌธ์ ์ ๋ํ ์ฒด๊ณ์ ๋ถ์ ์ ๊ณต
- ํ์ต ๊ฒฝ๋ก ์ค๊ณ: ์ฐ๊ตฌ์์ ์ฌ๋ฆฌ์ ํ์ต ๋จ๊ณ๋ฅผ ๋ฐ์ํ ํผ๋ผ๋ฏธ๋ ๊ตฌ์กฐ(Modules โ Milestones โ Challenges)๋ก ์๋ก์ด ์๋ฒ ์ด ํฌ๋งท ์ ์
- ์ข
ํฉ์ ๊ณผ์ ํ๋ ์์ํฌ: ๋จ์ ๊ธฐ์ ๋ถ๋ฅ๋ฅผ ๋์ด ์ง๊ฐ-๋-ํ๋์ ํตํฉ ๊ด์ ์์ ์์ฑ ์์ด์ ํธ ๊ฐ๋ฐ์ ์ ์ฒด ์๋ช
์ฃผ๊ธฐ ํฌ๊ด
- ๋์ ์๋ฃ: ์ ํต ๋
ผ๋ฌธ ํ์์ ๋์ด ์ง์์ ์ผ๋ก ์
๋ฐ์ดํธ๋๋ ํ๋ก์ ํธ ํ์ด์ง๋ฅผ ํตํด ๋น ๋ฅด๊ฒ ๋ณํํ๋ ํ๋์ ๋์
Limitation & Further Study
- ์ ํ๋ ์ฌ์ธต์ฑ: ์คํ์ด์ค ์ ์ฝ์ผ๋ก ์ธํด ๊ธฐ๋ณธ ๋ชจ๋ ์น์
์ streamlined overview๋ก ์ถ์ฝํ์ฌ ์ํคํ
์ฒ ์์ธ ๋ถ์ ๋ถ์กฑ (์ ์๋ค์ด ์ ๋ฌธ ์๋ฒ ์ด ์ถ์ฒ)
- ํ๊ฐ ํ๋ ์์ํฌ ๋ฏธํก: ๊ณผ์ ๋ณ ํด๊ฒฐ์ฑ
์ ์ ๋์ ๋น๊ต ์ฒด๊ณ๊ฐ ๋ช
ํํ์ง ์์ ์ด๋ ์ ๊ทผ๋ฒ์ด ๋ ์ฐ์ํ์ง ํ๋จ ์ด๋ ค์
- ์ค์ ๊ตฌํ ๊ฑฐ๋ฆฌ: ๋ฌธ์ ์ ์์ ๋ถ์์ ๋นํด ์ค์ ๊ตฌํ ๊ฐ๋ฅํ ์๋ฃจ์
์ ์์ ๊น์ด๊ฐ ์๋์ ์ผ๋ก ๋ถ์กฑํ ์ ์์
- ํ์ ์ฐ๊ตฌ: (1) ๊ฐ ๊ณผ์ ๋ณ ๋ฒค์น๋งํฌ ์ฑ๋ฅ ๋ฉํ๋ถ์ ์ถ๊ฐ, (2) ์๋ก ๋ค๋ฅธ ๊ณผ์ ๊ฐ ์์ถฉ๊ด๊ณ(trade-off) ๋ถ์, (3) ์ฐ์
์ ์ฉ ์ฌ๋ก ๊ธฐ๋ฐ ์ฐ์ ์์ ํ๊ฐ ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ์ด ์๋ฒ ์ด๋ ๋น ๋ฅด๊ฒ ์ฑ์ฅํ๋ VLA ๋ถ์ผ์์ ๊ธฐ์กด ๋จํธ์ ๊ฐ์ด๋์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ณ , ์ด๋ณด์๋ถํฐ ์ ๋ฌธ๊ฐ๊น์ง ํฌ์ฉํ ์ ์๋ ์ฒด๊ณ์ ํ์ต ๊ฒฝ๋ก์ ์ฌ์ธต์ ๋ฌธ์ ๋ถ์์ ์ ๊ณตํ์ฌ ํ๋์ ๋ฆฌ๋๋งต ์ญํ ์ ํ ์ ์๋ ๊ฐ์น ์๋ ์๋ฃ์ด๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์