HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model

Essence

Figure 1: (a) Unlike recent diffusion-based VLA methods [12, 13, 14] that attach a separate diffusion

HybridVLA는 diffusion 기반 action 예측의 연속성과 autoregressive VLM의 추론 능력을 단일 LLM 내에서 통합하는 unified vision-language-action 모델이다. Collaborative training recipe와 adaptive action ensemble mechanism을 통해 두 생성 패러다임의 상호 강화를 실현한다.

Motivation

Known: Autoregressive VLA 방법은 VLM의 common-sense reasoning을 활용하지만 action 연속성을 손상시키고, diffusion 기반 VLA는 연속적 action을 예측하나 VLM의 token-level reasoning을 완전히 활용하지 못한다.
Gap: 기존 diffusion 기반 VLA는 VLM 이후에 독립적인 diffusion head를 추가하여 두 패러다임의 강점을 진정으로 통합하지 못하고 있다.
Why: 로봇 조작은 정밀한 연속 제어와 복잡한 환경에 대한 고-수준 추론을 모두 필요로 하므로, 두 생성 방식의 장점을 통합된 방식으로 결합하는 것이 중요하다.
Approach: 단일 LLM backbone 내에서 diffusion denoising을 next-token prediction 과정에 seamlessly 통합하는 collaborative training recipe를 제안하고, autoregressive action token confidence 기반으로 두 예측을 adaptive하게 fusion하는 collaborative action ensemble mechanism을 설계한다.

Achievement

Figure 1: (a) Unlike recent diffusion-based VLA methods [12, 13, 14] that attach a separate diffusion

통합 아키텍처: Diffusion과 autoregressive action generation을 단일 LLM 내에서 구현하여 두 패러다임이 상호 강화되도록 설계
Collaborative Training Recipe: Token sequence formulation과 specialized marker tokens를 통해 discrete autoregressive tokens와 continuous diffusion latents를 효과적으로 연결
Adaptive Ensemble Mechanism: Autoregressive confidence 기반 weighting으로 task별 최적의 action 선택
성능 개선: 시뮬레이션 14%, 실제 로봇 환경 19% mean success rate 향상 달성
강화된 일반화: 대규모 robot data pretraining (760K trajectories)으로 unseen objects, backgrounds, spatial positions, lighting conditions에 대한 robust 성능 시연
추론 최적화: HybridVLA-dif (7B) variant로 9.4 Hz inference speed 달성

How

Figure 2: HybridVLA Framework. All multimodal inputs are encoded into tokens and subsequently

Internet-scale pretrained VLM (예: LLaVA)을 초기화 백본으로 사용
Token sequence formulation으로 multimodal inputs, diffusion tokens, autoregressive tokens를 marker tokens로 연결
Open X-Embodiment, DROID, ROBOMIND 등 대규모 cross-embodiment robot datasets에서 pretraining 수행
Self-collected simulation 및 실제 로봇 데이터로 fine-tuning
Diffusion path (noise-to-action denoising)와 autoregressive path (token-by-token prediction)를 공유 LLM 내에서 simultaneously 학습
Collaborative action ensemble: argmax(confidence scores)에 따라 diffusion 또는 autoregressive action 선택 또는 weighted fusion
두 가지 model variant 제공: full HybridVLA (ensemble 기반) 및 HybridVLA-dif (diffusion-only inference)

Originality

Diffusion과 autoregressive를 독립적 head가 아닌 shared LLM backbone 내에서 통합하는 새로운 설계 패러다임 제시
Token representation 간 불일치 문제를 체계적인 token sequence formulation과 marker tokens로 해결
Task의 특성에 따라 두 방식의 상대적 강점을 인식하고 이를 adaptive ensemble로 활용하는 통찰력
Collaborative training recipe를 통해 두 생성 패러다임이 단순 concatenation이 아닌 진정한 상호 강화를 달성하도록 설계

Limitation & Further Study

모델 규모 (7B LLM)에서의 성능만 보고되었으며, 더 큰 규모의 VLM에 대한 확장성 검증 필요
Collaborative training의 computational overhead가 상세히 분석되지 않았음
Adaptive ensemble mechanism의 confidence threshold 선택 기준이 명확하지 않음
Real-world 실험이 제한된 수의 task와 환경에서만 수행되었으며, 더 다양한 조작 시나리오에 대한 검증 필요
Diffusion step 수 (t)에 따른 성능 변화 분석이 preliminary level에 머물러 있음
후속 연구: 더 큰 모델 규모에서의 확장성 검증, real-time constraint 환경에서의 적용, 다중 로봇 embodiment 간 transfer learning 효율성 개선

Evaluation

Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

총평: HybridVLA는 diffusion과 autoregressive 기반 action 생성의 근본적 한계를 unified architecture와 collaborative training을 통해 우아하게 해결하며, 광범위한 실험과 state-of-the-art 성과를 통해 로봇 조작 분야에 실질적인 진전을 제시하는 견고한 논문이다.