TinyVLA: Towards Fast, Data-Efficient Vision-Language-Action Models for Robotic Manipulation

Essence

TinyVLA는 경량의 vision-language 모델과 diffusion policy decoder를 결합하여 대규모 로봇 데이터 사전학습 없이도 빠른 추론 속도와 높은 데이터 효율성을 달성하는 로봇 조작용 VLA 모델이다.

Known: RT-2, OpenVLA와 같은 기존 VLA 모델들은 멀티태스크 학습과 일반화 성능이 우수하지만, 70억 개 이상의 매개변수로 인한 느린 추론 속도와 970K 샘플의 OpenX 데이터셋을 필요로 하는 대규모 사전학습이 필요하다는 문제가 있다.
Gap: 기존 VLA 모델들은 빠른 추론 속도와 데이터 효율성을 동시에 달성하지 못했으며, 경량 모델로도 우수한 성능을 낼 수 있는 아키텍처 설계가 부족했다.
Why: 로봇 제어에서 추론 속도는 사용자 경험과 로봇의 즉각적 반응성에 직접적 영향을 미치며, 대규모 로봇 데이터 수집의 어려움과 계산 비용을 고려할 때 데이터 효율성이 실제 배포에 필수적이다.
Approach: 1.4억~14억 개 매개변수의 경량 VLM을 Pythia 언어 모델과 LLaVA 훈련 파이프라인으로 구축하고, LoRA를 이용한 매개변수 효율적 미세조정(5% 매개변수만 학습 가능)과 diffusion policy decoder를 통해 직접 로봇 액션을 출력한다.

추론 속도 향상: TinyVLA-H가 OpenVLA 대비 20배 더 빠른 추론 지연시간 달성
성능 개선: 실제 로봇 환경에서 OpenVLA 대비 25.7% 높은 성공률 달성 (매개변수는 5.5배 적음)
데이터 효율성: OpenX 로봇 데이터셋에 대한 사전학습 없이도 높은 성능 유지
강력한 일반화: 언어 지시 다양성, 신규 객체, 미숙련 위치, 객체 외형 변화, 배경 변화, 환경 변화 등 다양한 차원에서 OpenVLA와 동등하거나 우수한 일반화 성능
이중팔 로봇 작업 우수성: 단일팔 데이터만으로 학습한 OpenVLA와 달리 이중팔 작업에서 OpenVLA를 크게 상회

Fig. 2: Model architecture. The left image illustrates the

경량 VLM 구축: Pythia 언어 모델과 LLaVA 데이터셋을 활용하여 70M~1.4B 매개변수 규모의 컴팩트한 vision-language 모델 학습
LoRA 기반 효율적 미세조정: 사전학습된 VLM의 가중치를 고정하고 LoRA를 통해 전체 매개변수의 5%만 학습 가능하도록 설정
Policy decoder 통합: 사전학습된 multimodal 모델의 출력을 단순 선형 투영을 통해 diffusion policy decoder에 연결
Diffusion 기반 액션 생성: 자동회귀 토큰 예측 대신 diffusion 모델을 이용한 직접 로봇 액션 출력으로 추론 속도 개선

경량 VLM의 성능 한계: 70M 모델은 더 큰 모델 대비 언어 이해 능력이 제한될 수 있음
Diffusion 모델의 추가 계산: Diffusion 디코더는 순회 단계로 인한 추가 계산 비용이 발생할 가능성
실험 범위 제한: 5가지 실제 로봇 작업으로 평가되었으나 더 다양한 조작 작업에 대한 검증 필요
후속 연구: 극도의 경량화(수십 M 매개변수) 모델에 대한 성능 특성 분석, 다양한 로봇 플랫폼과 조작 작업에 대한 확장성 검증, diffusion 단계 수 최적화를 통한 속도 더 개선

Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

총평: TinyVLA는 경량 VLM과 diffusion policy의 창의적 결합을 통해 추론 속도와 데이터 효율성이라는 실제 로봇 배포의 핵심 문제를 효과적으로 해결하며, 광범위한 시뮬레이션 및 실제 로봇 실험을 통해 우수한 성능을 입증한 우수한 연구이다.