OneTwoVLA: A Unified Vision-Language-Action Model with Adaptive Reasoning
์ ์: Fanqi Lin, Ruiqian Nai, Yingdong Hu, Jiacheng You, Junming Zhao, Yang Gao | ๋ ์ง: 2025-05-17 | URL: https://arxiv.org/abs/2505.11917 📄 PDF
Essence
Figure 1: Overview. OneTwoVLA is a single unified vision-language-action model capable of both reasoning
OneTwoVLA๋ ๋จ์ผ ํตํฉ vision-language-action ๋ชจ๋ธ๋ก์ reasoning๊ณผ acting์ ๋ชจ๋ ์ํํ๋ฉฐ, ์์
์คํ ์ค critical moment์์๋ explicit reasoning์, ๊ทธ ์ธ์๋ reasoning ๊ธฐ๋ฐ action generation์ผ๋ก adaptively switchํ๋ค.
Motivation
- Known: ์ต๊ทผ dual-system ์ ๊ทผ๋ฒ์ VLM์ System Two(high-level reasoning)๋ก, VLA๋ฅผ System One(low-level acting)์ผ๋ก ๋ถ๋ฆฌํ์ฌ ์ฌ์ฉํ๋ค. ํ์ง๋ง ๋ ์์คํ
๊ฐ ์ํธ ์ดํด ๋ถ์กฑ๊ณผ latency ๋ฌธ์ ๊ฐ ์กด์ฌํ๋ค.
- Gap: ๊ธฐ์กด dual-system ๋ฐฉ์์ ๋ ์์คํ
์ด ๊ฐ๊ฐ์ capabilities๋ฅผ ์ธ์ํ์ง ๋ชปํ๊ณ , System Two์ ์ง์ฐ ์๋ต์ผ๋ก ์ธํด outdated guidance๋ฅผ ์ ๊ณตํ ์ ์๋ค. ๋ํ ์ผ๋ถ unified model์ reasoning์ ํจ์จ์ ์ผ๋ก ์ํํ์ง ๋ชปํ๊ฑฐ๋ reasoning ์์ด ์๋ํ์ฌ ์ฑ๋ฅ์ด ์ ํ๋๋ค.
- Why: ๋ก๋ด์ด long-horizon task planning, error detection and recovery, natural human-robot interaction์ ์ํํ๋ ค๋ฉด reasoning๊ณผ acting์ synergistic ๊ด๊ณ๊ฐ ํ์์ ์ด๋ฉฐ, ๋จ์ผ ํตํฉ ๋ชจ๋ธ์ด ์ด๋ฅผ ํจ๊ณผ์ ์ผ๋ก ๊ตฌํํ ์ ์๋ค.
- Approach: OneTwoVLA๋ decision token([BOR]/[BOA])์ ํตํด reasoning vs acting์ adaptiveํ๊ฒ ๊ฒฐ์ ํ๋ unified model์ ์ ์ํ๋ค. ๋ํ embodied reasoning-centric vision-language data ํฉ์ฑ pipeline์ ์ค๊ณํ์ฌ robot data์ co-trainingํ๋ค.
Achievement
Figure 2: Task completion times on Tomato-Egg.
- Long-horizon task planning: flat VLA ๋๋น 30%, dual-system VLA ๋๋น 24% ์ฑ๋ฅ ํฅ์์ ๋ฌ์ฑํ๋ฉฐ, novel task instruction์ ๋ํ generalization ๊ฐ๋ฅ
- Error detection and recovery: real-time ์ค๋ฅ ๊ฐ์ง ๋ฐ correction strategy ์ถ๋ก ์ผ๋ก agile recovery action ์ํ
- Natural human-robot interaction: human intervention ์ฆ์ ๋ฐ์ ๋ฐ ambiguity ์ํฉ์์ proactive clarification ์ถ๊ตฌ
- Generalizable visual grounding: spatial relationships, object attributes, semantic features์ ๋ํ superior understanding์ผ๋ก robot training data ์ธ object๋ก๋ generalization
How
- Unified model ฯฮธ๊ฐ two modes๋ก ์๋: reasoning mode (I1:n_t, I1:n_ref, โ, R์ ์
๋ ฅ์ผ๋ก textual reasoning หR ์์ฑ), acting mode (์ถ๊ฐ๋ก st๋ฅผ ์
๋ ฅ์ผ๋ก action chunk At ์์ฑ)
- Algorithm 1์ inference pipeline: decide() โ [BOR]์ด๋ฉด reason() ํธ์ถํ์ฌ R ์
๋ฐ์ดํธ, [BOA]์ด๋ฉด act() ํธ์ถํ์ฌ action ์คํ
- Robot data curation: task demonstrations์ scene description, subtask planning, error description, action guidance ๋ฑ์ reasoning content ํฌํจ
- Vision-language data synthesis pipeline: embodied reasoning์ ํฌํจํ high-quality VL data ๋๊ท๋ชจ ์์ฑ์ผ๋ก robot data์ co-training
- Reference images I1:n_ref ํ์ฉ์ผ๋ก observation history ํ๋ณดํ์ฌ ambiguous state ๋ฐฉ์ง
Originality
- Dual-system framework์ ๊ทผ๋ณธ์ ํ๊ณ๋ฅผ identifiedํ๊ณ , unified model์ ํตํ seamless reasoning-acting synergy ๋ฌ์ฑ
- Adaptive decision mechanism ([BOR]/[BOA] tokens)์ผ๋ก reasoning efficiency์ execution efficiency์ balance ์ ์
- Embodied reasoning-centric vision-language data synthesis pipeline์ ํตํ scalable co-training ๋ฐฉ์ ์ ์
- Reference image ๋ฉ์ปค๋์ฆ์ผ๋ก observation history๋ฅผ ๋ช
์์ ์ผ๋ก ํ์ฉํ๋ novel approach
Limitation & Further Study
- Reasoning content์ ๊ตฌ์ฒด์ format (scene description, plan, historical summary, next-step instruction)์ด ๊ณ ์ ์ ์ผ๋ก ์ค๊ณ๋จ์ ๋ฐ๋ฅธ flexibility ์ ์ฝ ๊ฐ๋ฅ์ฑ
- Vision-language data ํฉ์ฑ quality๊ฐ co-training ํจ๊ณผ์ ํฌ๊ฒ ์์กดํ๋๋ฐ, data ํ์ง ๋ณด์ฆ mechanism ์์ธ ๊ธฐ์ ๋ถ์กฑ
- ์ค์ robot hardware์์์ deployment ๊ฒฐ๊ณผ ์ ์ ๋ถ์กฑ (์ฃผ๋ก simulation ๊ธฐ๋ฐ ํ๊ฐ๋ก ๋ณด์)
- Reasoning token ์ ์ฆ๊ฐ์ ๋ฐ๋ฅธ inference latency ์ฆ๊ฐ์ ๋ํ ๋ถ์ ๋ฐ ์ต์ ํ ์ ๋ต ์ ์ ํ์
- Human-robot interaction ํ๊ฐ๊ฐ qualitative example ์์ฃผ๋ก ๋ณด์ด๋ฉฐ, quantitative metrics ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: OneTwoVLA๋ dual-system์ ๊ทผ๋ณธ์ ๋ฌธ์ ๋ฅผ unified model๋ก ํด๊ฒฐํ๋ฉด์ adaptive reasoning-acting mechanism์ ํตํด ํจ์จ์ฑ๊ณผ ์ฑ๋ฅ์ balance๋ฅผ ๋ฌ์ฑํ ํ์ ์ ์ ๊ทผ๋ฒ์ด๋ค. Embodied vision-language co-training strategy์ ํจ๊ป long-horizon robot control์ ์๋ก์ด ํ์ค์ ์ ์ํ๋ฉฐ, ICLR 2026 ๋ฐํ์ significance๋ฅผ ์ถฉ๋ถํ ์
์ฆํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์