DualVLA: Building a Generalizable Embodied Agent via Partial Decoupling of Reasoning and Action
์ ์: Zhen Fang, Zhuoyang Liu, Jiaming Liu, Hao Chen, Yu Zeng, Shiting Huang, Zehui Chen, Lin Chen, Shanghang Zhang, Feng Zhao | ๋ ์ง: 2025-11-27 | URL: https://arxiv.org/abs/2511.22134 📄 PDF
Essence
Figure 1. DUALVLA first constructs a sparse, information-dense embodied reasoning dataset by combining video event predi
DualVLA๋ Vision-Language-Action ๋ชจ๋ธ์์ ์ถ๋ก ๋ฅ๋ ฅ์ ์ถ๊ฐํ ๋ ๋ฐ์ํ๋ ํ๋ ์ฑ๋ฅ ์ ํ(action degeneration)๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, ์ด์ค์ธต ๋ฐ์ดํฐ ํ๋ฃจ๋๊ณผ ์ด์ค ๊ต์ฌ ์ ์ํ ์ฆ๋ฅ ์ ๋ต์ ํตํด ์ถ๋ก ๊ณผ ํ๋์ ๋ถ๋ถ์ ์ผ๋ก ๋ถ๋ฆฌํ๋ ์ ๊ทผ๋ฒ์ ์ ์ํ๋ค.
Motivation
- Known: Vision-Language-Action(VLA) ๋ชจ๋ธ์ ๋ก๋ด ์กฐ์ ๋ฐ์ดํฐ์
์์ ๋ฏธ์ธ ์กฐ์ ์ ํตํด ๊ฐํ ์กฐ์ ์ฑ๋ฅ์ ๋ฌ์ฑํ ์ ์์ผ๋ฉฐ, ์ต๊ทผ ์ฐ๊ตฌ๋ค์ ๋ก๋ด ๊ถค์ ์ ์ถ๋ก ์ฃผ์์ ์ถ๊ฐํ์ฌ ์ผ๋ฐํ๋ VLA๋ฅผ ๊ตฌ์ถํ๋ ค๊ณ ์๋ํ๊ณ ์๋ค.
- Gap: specialist VLA์ ์ถ๋ก ๋ฅ๋ ฅ์ ์ถ๊ฐํ๊ธฐ ์ํด multimodal ๋ฐ์ดํฐ๋ฅผ ํผํฉํ์ฌ ๋ฏธ์ธ ์กฐ์ ํ ๋, ์กฐ์ ์ฑ๋ฅ์ด ์คํ๋ ค ์ ํ๋๋ ํ์์ด ๋ฐ์ํ๋ฉฐ, ์ด๋ฅผ ๋ช
ํํ ๋ถ์ํ๊ณ ํด๊ฒฐํ๋ ๋ฐฉ๋ฒ์ด ๋ถ์กฑํ๋ค.
- Why: ์ง์ ํ embodied agent๋ ์ ํํ ํ๋ ์คํ ๋ฅ๋ ฅ๊ณผ ๋ณต์กํ ์ํฉ์ ์ดํดํ๋ ์ถ๋ก ๋ฅ๋ ฅ์ ๋์์ ๊ฐ์ ธ์ผ ํ๋ฏ๋ก, ์ด ๋ ๋ฅ๋ ฅ ๊ฐ์ ์ฑ๋ฅ ํธ๋ ์ด๋์คํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ๊ฒ์ด ์ค์ํ๋ค.
- Approach: DualVLA๋ ๋ ๊ฐ์ง ์ฃผ์ ๊ธฐ๋ฒ์ ํ์ฉํ๋ค: (1) video event prediction๊ณผ kinematic cues๋ฅผ ๊ฒฐํฉํ์ฌ ์ค๋ณต์ ์ธ embodied reasoning์ ์ ๊ฑฐํ๋ ์ด์ค์ธต ๋ฐ์ดํฐ ํ๋ฃจ๋, (2) specialist VLA๋ฅผ action teacher๋ก, ์ถ๋ก ๋ฅ๋ ฅ ์ ์ง๋ฅผ ์ํ reasoning teacher๋ฅผ ํ์ฉํ๋ ์ด์ค ๊ต์ฌ ์ ์ํ ์ฆ๋ฅ ์ ๋ต.
Achievement
Figure 2. VLMs possess strong reasoning ability but lack action
- ํ๋ ์ฑ๋ฅ ๊ฐ์ : SimplerEnv์์ ํ๊ท 61.0์ ์ฑ๊ณต๋ฅ ๋ฌ์ฑํ์ฌ specialist VLA ๋๋น ํ๋ ์ฑ๋ฅ ์ ํ ํ์ ์ํ
- ๋ค์ค ๋ชจ๋ฌ ์ฑ๋ฅ: 8๊ฐ์ ๊ฒฝ์ ๋ฒค์น๋งํฌ์์ ํ๊ท 65.4์ ๋ฌ์ฑ์ผ๋ก ์ถ๋ก ๋ฅ๋ ฅ๊ณผ ํ๋ ๋ฅ๋ ฅ์ ๊ท ํ ์
์ฆ
- ํ๊ฐ ํ๋ ์์ํฌ ์ ์: VLA Score๋ฅผ ํตํด reasoning, intention, action, alignment 4๊ฐ ์ฐจ์์ผ๋ก VLA ์ฑ๋ฅ์ ์ธ๋ฐํ๊ฒ ํ๊ฐํ๋ ์ต์ด์ ํ๊ฐ ์ฒด๊ณ ์ ๊ณต
- ์ค์ ๋ก๋ด ์คํ: ์๋ฎฌ๋ ์ด์
๊ณผ ์ค์ ๋ก๋ด ํ๊ฒฝ ๋ชจ๋์์ ์ผ๊ด๋ ์ฑ๋ฅ ๊ฐ์ ์
์ฆ
How
Figure 1. DUALVLA first constructs a sparse, information-dense embodied reasoning dataset by combining video event predi
- ์ด์ค์ธต ๋ฐ์ดํฐ ํ๋ฃจ๋: embodiment ์ ํธ์ scene-level event ๋ณํ๋ฅผ ๋ชจ๋ ํ์ฉํ์ฌ ์ค๋ณต์ ์ธ embodied reasoning์ ์๋ณํ๊ณ ์ ๊ฑฐํ๋, ํ๋-critical ์ฝํ
์ธ ๋ ์ ์ง
- ์ด์ค ๊ต์ฌ ์ ์ํ ์ฆ๋ฅ: specialist VLA๋ฅผ action teacher๋ก ํ์ฉํ์ฌ ๋ก๋ด ๋ฐ์ดํฐ์ ๋ํ fine-grained supervision ์ ๊ณต, ๋์์ reasoning teacher๋ฅผ ํตํด multimodal ์ถ๋ก ๋ฅ๋ ฅ ๋ณด์กด
- ํผํฉ ํ๋ จ: ๋ก๋ด ๋ฐ์ดํฐ์ multimodal reasoning ๋ฐ์ดํฐ์ ์๋ก ๋ค๋ฅธ soft-label supervision ํ ๋นํ์ฌ ๊ท ํ์กํ ํ์ต ์ ๋
- VLA Score ํ๊ฐ: MLLM-as-a-Judge ํจ๋ฌ๋ค์์ ๋์
ํ์ฌ action, reasoning, intention, ๊ทธ๋ฆฌ๊ณ reasoning-action alignment๋ฅผ ๋
๋ฆฝ์ ์ผ๋ก ํ๊ฐ
Originality
- Action degeneration ๋ฌธ์ ์ ๋ช
์์ ์ ์: ๊ธฐ์กด ์ฐ๊ตฌ์์ ๊ฐ๊ณผํ๋ specialist VLA์์ reasoning VLA๋ก์ ์ ํ ๊ณผ์ ์์์ ์ฑ๋ฅ ์ ํ ํ์์ ๊ตฌ์ฒดํํ๊ณ ์ ์ํ
- ๋ถ๋ถ์ ๋ถ๋ฆฌ ์ ๋ต: reasoning๊ณผ action์ ์์ ํ ๋ถ๋ฆฌํ์ง ์์ผ๋ฉด์๋ ๋ฐ์ดํฐ์ ์์ค ํจ์ ์์ค์์ ๋ถ๋ถ์ ์ผ๋ก ๋ถ๋ฆฌํ๋ ์๋ก์ด ์ ๊ทผ
- ์ด์ค์ธต ํ๋ฃจ๋ ๋ฉ์ปค๋์ฆ: embodied reasoning์ ์ค๋ณต์ฑ์ ํ์งํ๊ธฐ ์ํด kinematic cues์ scene-level ๋ณํ๋ฅผ ๋์์ ํ์ฉํ๋ ์ฐฝ์์ ์ธ ์ ๋ต
- VLA ์ ์ฉ ํ๊ฐ ์ฒด๊ณ: ๊ธฐ์กด์ task success rate ์ค์ฌ ํ๊ฐ๋ฅผ ๋์ด MLLM์ ํ๊ฐ์๋ก ํ์ฉํ๋ ๋ค์ฐจ์์ ํ๊ฐ ํ๋ ์์ํฌ ์ต์ด ์ ์
Limitation & Further Study
- ๋ฐ์ดํฐ ํ๋ฃจ๋์ ํด๋ฆฌ์คํฑ ์์กด์ฑ: video event prediction๊ณผ kinematic cues ๊ธฐ๋ฐ์ ํ๋ฃจ๋์ด ๋ค์ํ ๋ก๋ด ์์
์ ํ์ ์ผ๊ด์ฑ ์๊ฒ ์ ์ฉ๋๋์ง์ ๋ํ ๊ฒ์ฆ์ด ์ ํ์
- VLA Score์ ํ๊ฐ์ ์ ๋ขฐ์ฑ: MLLM evaluator์ ์ฃผ๊ด์ฑ๊ณผ ์ผ๊ด์ฑ์ ๋ํ ์์ธํ ๋ถ์ ๋ถ์กฑ ๋ฐ ์ธ๊ฐ ํ๊ฐ์์ ์๊ด์ฑ ๊ฒ์ฆ ํ์
- ํ์ฅ์ฑ ๊ฒ์ฆ: ์ฃผ๋ก manipulation ์ค์ฌ์ ๋ก๋ด ์์
์์ ํ๊ฐ๋์์ผ๋ฉฐ, ๋ค๋ฅธ embodied agent ๋๋ฉ์ธ(navigation, ์ฌ๋-๋ก๋ด ์ํธ์์ฉ ๋ฑ)์ผ๋ก์ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ ๋ฏธํ์ธ
- ํ์ ์ฐ๊ตฌ: (1) ๋ ์ ๊ตํ ๋ฐ์ดํฐ ํ๋ฃจ๋ ๋ฉ์ปค๋์ฆ ๊ฐ๋ฐ, (2) VLA Score์ robustness ๋ฐ reliability ํฅ์, (3) ๋ค์ํ embodied task์์์ ๊ฒ์ฆ
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ Vision-Language-Action ๋ชจ๋ธ์ ์ค์ง์ ์ธ ๋ฌธ์ ์ธ action degeneration์ ๋ช
ํํ ์ ์ํ๊ณ , ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ์ด์ค์ธต ํ๋ฃจ๋๊ณผ ์ด์ค ๊ต์ฌ ์ฆ๋ฅ ์ ๋ต์ ์ ์ํจ์ผ๋ก์จ ์ถ๋ก ๋ฅ๋ ฅ๊ณผ ์กฐ์ ๋ฅ๋ ฅ์ ๊ท ํ์ ํจ๊ณผ์ ์ผ๋ก ๋ฌ์ฑํ์๋ค. ํนํ VLA ํ๊ฐ๋ฅผ ์ํ ๋ค์ฐจ์์ ํ๋ ์์ํฌ ์ ์๋ ํฅํ embodied AI ์ฐ๊ตฌ์ ํ๊ฐ ํ์ค์ผ๋ก์ ์ค์ํ ๊ธฐ์ฌ๋ฅผ ํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์