Unified Vision-Language-Action Model

Essence

Figure 1: We present UniVLA, a unified vision-language-action model. Unlike prior VLA

UniVLA는 vision, language, action을 discrete token으로 통일하여 autoregressive sequence modeling으로 joint하게 학습하는 unified vision-language-action model이다. World model을 post-training에 통합하여 비디오에서 temporal dynamics를 학습하고 downstream policy learning을 강화한다.

Motivation

Known: 기존 VLA 모델들은 VLM의 semantic comprehension을 활용하여 action signal을 생성하지만, 주로 static image에서 action으로의 late-fusion 전략을 사용한다. RT-2, OpenVLA 등이 pure action prediction 패러다임을 선도하고 있다.
Gap: 기존 접근법들은 heterogeneous modalities를 unified representation으로 모델링하지 못하며, temporal과 causal dependencies를 충분히 포착하지 못한다. 또한 static paradigm으로 인해 대규모 비디오 데이터의 temporal information을 효과적으로 활용하지 못한다.
Why: Unified multimodal modeling은 더 긴밀한 cross-modal integration을 가능하게 하며, world model을 통한 causal dynamics 학습은 특히 long-horizon task와 out-of-distribution 시나리오에서 정책 학습을 크게 향상시킬 수 있다.
Approach: Vision, language, action을 shared vocabulary의 discrete token으로 변환하고 unified autoregressive framework에서 모델링한다. Markov chain 기반의 interleaved observation-action sequence 구조로 causal dependencies를 자연스럽게 통합하고, world model post-training을 통해 대규모 robotic video에서 temporal dynamics를 학습한다.

Achievement

Figure 1: We present UniVLA, a unified vision-language-action model. Unlike prior VLA

State-of-the-art 성능: LIBERO 95.5% (vs π0-FAST 85.5%), CALVIN, SimplerEnv-Bridge 등에서 기존 방법 대비 유의미한 성능 향상 달성
Unified multimodal capability: 단일 architecture로 action prediction, spatial reasoning, video prediction 등 다양한 multimodal tasks 지원
Large-scale video training: Discrete token 기반 설계로 대규모 robotic video 데이터의 효과적인 활용 가능
Broad applicability: Real-world ALOHA manipulation과 autonomous driving 시나리오까지 확장 가능성 실증
World model의 효과: Post-training world model이 downstream policy learning의 data efficiency와 training efficiency를 크게 향상시킴

How

Figure 2: Overview of the UniVLA framework. Our model unifies information from different

Vision, language, action을 tokenizer를 통해 discrete token sequence로 변환하여 unified vocabulary 구성
Shared autoregressive language model backbone을 사용하여 모든 modality를 jointly modeling
Interleaved observation-action sequence 구조로 temporal causal structure 자연스럽게 반영
Post-training 단계에서 world model task (video prediction)을 통해 environment dynamics 학습
Learned dynamics를 downstream policy learning에 knowledge transfer하여 sample efficiency와 generalization 향상
Multiple post-training tasks (text supervision, vision supervision, action supervision) 동시 지원

Originality

Vision-language-action의 세 modality를 처음으로 unified discrete token framework에서 joint하게 모델링
기존 pure action prediction과 visual-guided action prediction 패러다임을 통합한 novel architecture 제시
World model을 post-training stage에 명시적으로 통합하여 policy learning과의 synergy 창출
Autoregressive sequence modeling으로 temporal과 causal structure를 native하게 반영하는 새로운 관점 제안

Limitation & Further Study

Real-world 평가가 ALOHA와 driving으로 제한적이며, 더 다양한 embodied AI 시나리오에서의 검증 필요
Discrete tokenization으로 인한 정보 손실과 token vocabulary size의 적절한 설정에 대한 ablation 분석 부족
World model post-training의 computational cost와 training time에 대한 상세 분석 미흡
Generalization capability에 대한 systematic analysis 필요 (domain gap, task distribution shift 등)
Token-based 접근의 inference latency와 실시간 control 적용성에 대한 평가 필요

Evaluation

Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

총평: UniVLA는 heterogeneous modalities를 unified discrete token 프레임워크로 통합하고 world model post-training으로 temporal dynamics를 학습하는 혁신적인 VLA 모델이다. 다중 벤치마크에서 SOTA 성능을 달성했으며, multimodal capability와 large-scale video training 가능성으로 generalist embodied AI의 새로운 방향을 제시한다.