VLA-0: Building State-of-the-Art VLAs with Zero Modification

Essence

Fig. 1: Schematic representation of VLA-0. VLA-0 con-

VLA-0는 Vision-Language Model의 구조 변경 없이 액션을 직접 텍스트로 표현하여 로봇 조작을 위한 최첨단 Vision-Language-Action 모델을 구축한다. 이 단순한 설계가 기존의 복잡한 방법들보다 우수한 성능을 달성한다.

Known: 기존 VLA 방법들은 크게 세 가지로 분류되며, 대부분 VLM의 vocabulary 수정, action head 추가, 또는 맞춤형 아키텍처를 통해 액션을 예측한다. 이들은 각각 액션 해상도 제약, 언어 이해 저하, 복잡성 증가 등의 문제를 가진다.
Gap: 액션을 직접 텍스트로 표현하는 가장 단순한 전략이 거의 탐구되지 않았다. 현존하는 LLARVA와 HAMSTER는 다단계 접근을 사용하여 최적의 설계를 찾지 못했다.
Why: 단순한 설계는 구현이 용이하고 VLM의 사전학습된 능력을 보존하면서도 임의의 액션 해상도를 지원할 수 있어, 실제 로봇 시스템 배포에 중요하다.
Approach: VLA-0는 액션(좌표, 관절각 등)을 space-separated integers의 텍스트로 표현하고, VLM의 네이티브 텍스트 생성 능력을 활용하여 액션을 예측한다. 최첨단 성능을 위해 학습 시 random masking과 테스트 시 prediction ensembling을 적용한다.

Fig. 2: Families of methods for building VLAs. We categorize existing VLAs into three categories: Discrete Token VLAs,

LIBERO 벤치마크 우수성: 동일한 로봇 데이터로 학습한 모든 기존 방법(π0.5-KI, OpenVLA-OFT, SmolVLA)을 능가
대규모 사전학습 데이터 없이 경쟁성: 대규모 로봇 데이터로 학습한 π0.5-KI, π0, GR00T-N1, MolmoAct를 초월
실세계 성능: SmolVLA를 능가하며 실제 로봇 작업에서 우수한 성능 입증
구조 수정 없음: VLM의 vocabulary, 아키텍처, 토크나이저에 어떠한 변경도 필요 없음

Fig. 3: Our proposed VLA-0. It creates a VLA without making any changes to the underlying VLM. It takes a system

VLM을 프롬프트하여 action을 텍스트로 직접 생성하도록 유도 (예: '4 12 98 3 0 0 13 5 ...')", '시스템 프롬프트, 언어 지시사항, 이미지를 입력으로 받아 space-separated integers 형태의 액션 출력
학습 시 action text에 random masking을 적용하여 모델의 견고성 향상
테스트 시 이전 예측값들을 ensemble하여 최종 액션 결정의 안정성 증대
VLM의 cross-entropy loss를 그대로 사용하여 추가 신경망 불필요

Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

총평: VLA-0는 예상을 뒤엎고 가장 단순한 설계가 최첨단 성능을 달성 가능함을 입증하여 VLA 분야에 중요한 통찰을 제공한다. 코드와 모델 공개를 통한 재현성과 실용성이 높으며, VLM 기반 로봇 제어 연구에 새로운 방향을 제시한다.