InternVLA-A1: Unifying Understanding, Generation and Action for Robotic Manipulation

Essence

Figure 1. InternVLA-A1 unifies scene understanding, visual foresight generation, and action execution

InternVLA-A1은 Mixture-of-Transformers 아키텍처를 통해 의미 이해, 시각적 예측, 행동 실행을 통합하여 로봇 조작 성능을 향상시키는 Vision-Language-Action 모델이다. 실세계 로봇 데이터, 합성 시뮬레이션 데이터, 인간 비디오를 포함한 692M 프레임의 이질적 데이터로 사전학습되어 동적 조작 작업에서 26.7% 성능 향상을 달성한다.

Motivation

Known: 기존 MLLM 기반 VLA 모델은 뛰어난 의미 이해 능력을 보유하지만 물리 역학 추론이 부족하고, World Model 기반 접근은 의미 정보 손실과 비디오 예측 오류에 취약하다.
Gap: 현재 VLA 모델들은 의미론적 추론과 동적 예측 능력을 효과적으로 결합하지 못하고 있으며, 동적 환경(예: 컨베이어 벨트)에서의 적응성이 제한적이다.
Why: 로봇의 일반화 능력 향상과 동적 환경에서의 신뢰성 있는 조작을 위해서는 의미 이해와 물리 역학 예측을 통합하는 것이 필수적이며, 이는 실세계 응용의 핵심 과제이다.
Approach: 세 개의 전문가(scene understanding, visual foresight generation, action execution)로 구성된 통합 Mixture-of-Transformers 아키텍처를 설계하고, 실제 로봇 데이터, 합성 시뮬레이션 데이터, 인간 비디오의 이질적 데이터 소스로 joint training을 수행한다.

Achievement

Figure 1. InternVLA-A1 unifies scene understanding, visual foresight generation, and action execution

정적 조작 성능: π0.5 대비 4.4% 성능 향상 달성
동적 조작 성능: π0.5 대비 26.7% 성능 향상으로 동적 환경에서의 뛰어난 우수성 입증
시뮬레이션 벤치마크: RoboTwin 2.0에서 2.6% 향상
모델 규모: 2B, 3B 파라미터 스케일로 효율적 배포 가능
데이터 규모: 692M 프레임의 대규모 이질적 데이터로 사전학습

How

Figure 2. Framework of InternVLA-A1. The architecture comprises three experts: (1) an under-

Mixture-of-Transformers 아키텍처를 통해 세 개의 전문가를 unified masked self-attention 메커니즘으로 조화롭게 연결
InternVL3과 Qwen3-VL을 기반으로 구축하여 강력한 의미 이해 능력 확보
Scene understanding 전문가: MLLM 기반 의미 정보 추출
Generation 전문가: 비디오 예측을 통한 시각적 foresight 생성
Action execution 전문가: 의미론적 지도 하에서 연속 행동 생성
실세계 로봇 데이터, 합성 시뮬레이션 데이터, 인간 비디오의 hybrid training strategy로 sim-to-real gap 최소화
Domain randomization을 활용한 robust 정책 학습

Originality

MLLM의 의미 이해와 World Model의 동적 예측을 처음으로 효과적으로 통합한 unified 아키텍처 제시
의미론적 grounding을 강화한 비디오 예측 방식으로 기존 World Model의 brittleness 해결
세 가지 이질적 데이터 소스(실세계, 시뮬레이션, 인간 비디오)의 joint training 파이프라인을 통한 혁신적 데이터 활용 전략
동적 환경에서 특히 강력한 성능 달성으로 기존 모델의 한계 극복

Limitation & Further Study

12개의 실세계 작업으로 평가하였으나 더 광범위한 다양한 작업에 대한 평가 필요
시뮬레이션과 실세계 간의 완전한 gap 제거 여부는 미확인
모델 규모(2B, 3B)가 상대적으로 작아 더 큰 규모에서의 성능 확장성에 대한 검증 필요
비디오 예측 오류에 대한 구체적인 robustness 분석이 부족
후속 연구에서 더 복잡한 다단계 작업(multi-step manipulation)에 대한 평가와 더 큰 파라미터 규모의 모델 개발 필요

Evaluation

Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

총평: InternVLA-A1은 의미 이해와 동적 예측을 통합하는 혁신적 아키텍처와 이질적 데이터 source의 효과적 활용으로 로봇 조작의 일반화 문제를 크게 향상시켰다. 특히 동적 환경에서의 26.7% 성능 향상은 실세계 응용의 중요한 진전을 보여주며, VLA 분야의 주요 기여이다.