Pure Vision Language Action (VLA) Models: A Comprehensive Survey
์ ์: Dapeng Zhang, Jing Sun, Chenghui Hu, Xiaoyan Wu, Zhenlong Yuan, Rui Zhou, Fei Shen, Qingguo Zhou | ๋ ์ง: 2025-09-23 | URL: https://arxiv.org/abs/2509.19012 📄 PDF
Essence
Fig. 3: Vision-Language-Action Taxonomy: From Autoregression-based, Diffusion-based, to Reinforcement-based and
๋ณธ ๋
ผ๋ฌธ์ Vision Language Action (VLA) ๋ชจ๋ธ์ ์ฒด๊ณ์ ์ผ๋ก ๋ถ๋ฅํ๊ณ ๋ถ์ํ๋ ํฌ๊ด์ ์๋ฒ ์ด๋ก, autoregression-based, diffusion-based, reinforcement-based, hybrid, specialized methods๋ก VLA ์ ๊ทผ๋ฒ์ ๋ถ๋ฅํ์ฌ 300๊ฐ ์ด์์ ์ต๊ทผ ์ฐ๊ตฌ๋ฅผ ์ข
ํฉํ๋ค.
Motivation
- Known: Vision Language Model (VLM)๊ณผ Large Language Model (LLM)์ ๋ฐ์ ์ผ๋ก ๋ก๋ด์ ์ง๊ฐ, ์ดํด, ํ๋ ๋ฅ๋ ฅ์ด ํฅ์๋์์ผ๋, ์ด๋ค ๋ฅ๋ ฅ์ ํตํฉํ VLA ์์คํ
์ ์ฒด๊ณ์ ๋ถ๋ฅ์ ๋ถ์์ด ๋ถ์กฑํ๋ค.
- Gap: ๊ธฐ์กด ์๋ฒ ์ด๋ VLM ๊ธฐ์ด ๋ชจ๋ธ์ด๋ ๋ก๋ด ์กฐ์์ ์ ๋ฐ์ ๊ฐ์์๋ง ์ด์ ์ ๋ง์ถ์์ผ๋ฉฐ, pure VLA ๋ฐฉ๋ฒ๋ก ์ ์ ๋ฆฝ๋ ๋ถ๋ฅ์ฒด๊ณ์ ํฌ๊ด์ ๋ถ์์ด ๋ถ์ฌํ๋ค.
- Why: VLA๋ ์ ํต์ ์ ์ฑ
๊ธฐ๋ฐ ์ ์ด์์ ์ผ๋ฐํ๋ ๋ก๋ด๊ณตํ์ผ๋ก์ ํจ๋ฌ๋ค์ ์ ํ์ ๋ํํ๋ฉฐ, ๋ณต์กํ ๋์ ํ๊ฒฝ์์ ๋ก๋ด ์กฐ์๊ณผ ์์ฌ๊ฒฐ์ ์ ์ค์ฉํ๋ฅผ ์ํด ์ฒด๊ณ์ ์ดํด๊ฐ ํ์์ ์ด๋ค.
- Approach: VLA ๋ชจ๋ธ์ ํ๋ ์์ฑ ์ ๋ต(action-generation strategy)์ ๊ธฐ์ค์ผ๋ก autoregression-based, diffusion-based, reinforcement-based, hybrid, specialized methods์ 5๊ฐ์ง ํจ๋ฌ๋ค์์ผ๋ก ๋ถ๋ฅํ๊ณ , ๊ฐ ๋ฐฉ๋ฒ์ ๋๊ธฐ, ํต์ฌ ์ ๋ต, ๊ตฌํ์ ์์ธ ๋ถ์ํ๋ค.
Achievement
Fig. 1: Organization and Structure of the VLA Survey.
- VLA ๋ฐฉ๋ฒ๋ก ์ ์ฒด๊ณ์ ๋ถ๋ฅ: pure VLA ๋ฐฉ๋ฒ์ ๋ํ ๋ช
ํํ ๋ถ๋ฅ์ฒด๊ณ๋ฅผ ์ ์ํ์ฌ ํ๋ ์์ฑ ์ ๋ต์ ๋ฐ๋ฅธ ์ ๊ทผ๋ฒ์ ์ฐจ๋ณํ๋ ํน์ฑ์ ํ์
๊ฐ๋ฅํ๊ฒ ํจ
- ํฌ๊ด์ ๋ฆฌ์์ค ๊ฐ์: VLA ๋ชจ๋ธ ํ์ต ๋ฐ ํ๊ฐ์ ํ์์ ์ธ ๋ฐ์ดํฐ์
, ๋ฒค์น๋งํฌ, simulation platform์ ๋ํ ์ข
ํฉ์ ๊ฐ์ ์ ๊ณต
- ์์ฉ ๋๋ฉ์ธ ๋ถ์: robotic arm, quadruped robot, humanoid, wheeled robot ๋ฑ ๋ค์ํ ๋ก๋ด ํ๋ซํผ์์์ VLA ๋ฐฐํฌ ํํฉ ํ๊ฐ
- ํฅํ ๋ฐฉํฅ ์ ์: ๋ฐ์ดํฐ ์ ์ฝ, ์ถ๋ก ์๋, ์์ ์ฑ ๋ฑ ํต์ฌ ๊ณผ์ ๋ฅผ ์๋ณํ๊ณ ํ์ฅ ๊ฐ๋ฅํ ๋ฒ์ฉ VLA ๋ฐฉ๋ฒ ๊ฐ๋ฐ์ ์ํ ๋ฏธ๋ ์ฐ๊ตฌ ๋ฐฉํฅ ์ ์
How
Fig. 2: Illustration of various VLA skeleton.
- Vision-Language-Action taxonomy ๊ฐ๋ฐ: autoregression-based, diffusion-based, reinforcement-based, hybrid, specialized methods๋ก ๋ถ๋ฅํ๊ณ ์๊ฐ ์ถ์ ๋ฐ๋ผ ๋ฐ์ ์ถ์ด ์๊ฐํ
- ๊ฐ ํจ๋ฌ๋ค์๋ณ ์ฌ์ธต ๋ถ์: ๋๊ธฐ(motivation), ํต์ฌ ์ ๋ต(core strategy), ๊ตฌํ ๋ฉ์ปค๋์ฆ(implementation mechanism)์ ์์ธํ ๊ฒํ
- ์์ฉ ์๋๋ฆฌ์ค ๋งคํ: ๋ก๋ด ํ, ์ฌ์กฑ ๋ก๋ด, ํด๋จธ๋
ธ์ด๋, ์์จ์ฃผํ ๋ฑ ๋ค์ํ ๋ก๋ด ์ ํ๋ณ VLA ํ์ฉ ์ฌ๋ก ์ฒด๊ณํ
- ๋ฆฌ์์ค ์ธ๋ฒคํ ๋ฆฌ ๊ตฌ์ถ: ์ฃผ์ ๋ฐ์ดํฐ์
, ๋ฒค์น๋งํฌ, simulation platform์ ์กฐ์ฌํ์ฌ VLA ๊ฐ๋ฐ ์ํ๊ณ ํ์
- ๋ฌธํ ๋ฉํ๋ถ์: 300๊ฐ ์ด์์ ์ต๊ทผ ์ฐ๊ตฌ๋ฅผ ์ข
ํฉํ์ฌ ํํฉ ํ์
๋ฐ ํธ๋ ๋ ๋ถ์
Originality
- Pure VLA ๋ฐฉ๋ฒ๋ก ์ ํนํ๋ ์ต์ด์ ํฌ๊ด์ ์๋ฒ ์ด: ๊ธฐ์กด VLM ์ค์ฌ์ด๋ ๋ก๋ด๊ณตํ ์ ์ฒด ์ญ์ฌ ์ค์ฌ ์๋ฒ ์ด์ ๋ฌ๋ฆฌ VLA์ ํ๋ ์์ฑ ์ ๋ต์ ์ค์ฌ์ผ๋ก ๋ถ๋ฅ
- 5๊ฐ์ง ํจ๋ฌ๋ค์ ๋ถ๋ฅ์ฒด๊ณ์ ์ ์: autoregression, diffusion, reinforcement learning, hybrid, specialized methods์ ์ํธ ์ฐ๊ด์ฑ๊ณผ ์ฐจ๋ณ์ฑ์ ๋ช
ํํ ํจ
- ๋ฉํฐ๋ชจ๋ฌ-ํ๋ ํตํฉ ํ๋ ์์ํฌ ๋ถ์: ์๊ฐ, ์ธ์ด, ํ๋์ ํตํฉ ์ํ์ค ๋ชจ๋ธ๋ง ๊ด์ ์์ VLA์ ๊ณ ์ ํ ํน์ฑ ํด์
Limitation & Further Study
- ์๋ฒ ์ด์ ์๊ฐ ์ ์ฝ์ฑ: 300๊ฐ ์ฐ๊ตฌ ์์ง ์ดํ ์ ์ํ ๋ฐ์ ํ๋ VLA ๋ถ์ผ์ ์ต์ ๋ฐฉ๋ฒ๋ก ์ ์์ ํ ํฌ๊ดํ์ง ๋ชปํ ๊ฐ๋ฅ์ฑ
- VLA ํ๊ฐ ๋ฉํธ๋ฆญ ํ์คํ ๋ถ์ฌ: ๋ค์ํ ๋๋ฉ์ธ๊ณผ ๋ฐ์ดํฐ์
์ ๋ฒค์น๋งํฌ๊ฐ ์ด์ง์ ์ด์ด์ ๋ฐฉ๋ฒ๋ก ๊ฐ ์ง์ ๋น๊ต์ ์ด๋ ค์
- ํ์ค-์๋ฎฌ๋ ์ด์
๊ฐญ: ๋๋ถ๋ถ ์ฐ๊ตฌ๊ฐ ์๋ฎฌ๋ ์ด์
ํ๊ฒฝ์์ ๊ฒ์ฆ๋๋ฉฐ ์ค์ ๋ก๋ด ๋ฐฐํฌ์ ์ผ๋ฐํ ์ฑ๋ฅ์ ๋ํ ํ๊ฐ ๋ถ์กฑ
- ํ์ ์ฐ๊ตฌ ๋ฐฉํฅ: (1) ๋ฐ์ดํฐ ํจ์จ์ฑ ์ฆ๋๋ฅผ ์ํ few-shot, zero-shot VLA ๋ฐฉ๋ฒ ๊ฐ๋ฐ, (2) ์ค์๊ฐ ์ถ๋ก ์ ์ํ ๊ฒฝ๋ VLA ๋ชจ๋ธ ์ฐ๊ตฌ, (3) ์์ ์ฑ ๋ณด์ฆ ๋ฉ์ปค๋์ฆ ํตํฉ, (4) ํฌ๋ก์ค ๋๋ฉ์ธ ์ผ๋ฐํ ๋ฅ๋ ฅ ๊ฐํ
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ๋ณธ ์๋ฒ ์ด๋ VLA ๋ถ์ผ์ ๊ธ์ํ ๋ฐ์ ์์์ ์ฒ์์ผ๋ก ์ฒด๊ณ์ ์ธ ๋ถ๋ฅ์ฒด๊ณ๋ฅผ ์ ์ํ๊ณ 300๊ฐ ์ด์์ ์ฐ๊ตฌ๋ฅผ ์ข
ํฉํ์ฌ ํํฉ ๋งตํ์ ์ ๊ณตํจ์ผ๋ก์จ, VLA ์ฐ๊ตฌ์์ ๋ก๋ด๊ณตํ์๋ค์๊ฒ ๋์ ํ์ ์ ๊ฐ์น๋ฅผ ์ ๊ณตํ๋ค. ๋ค๋ง ์๋ฎฌ๋ ์ด์
-ํ์ค ๊ฐญ, ํ๊ฐ ๋ฉํธ๋ฆญ ํ์คํ, ์ต์ ๋ฐฉ๋ฒ๋ก ์์ฉ ์ธก๋ฉด์ ๊ฐ์ ์ด ํฅํ ํ์ํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์