BitVLA: 1-bit Vision-Language-Action Models for Robotics Manipulation

Essence

Fig. 1: We introduce BitVLA, the first fully native 1-bit vision-language-action (VLA) model for robotic manipulation, i

로봇 조작을 위한 완전한 1-bit Vision-Language-Action 모델인 BitVLA를 제안하여 11.0배의 메모리 감소와 4.4배의 지연 시간 단축을 달성하면서도 full-precision 기준 모델과 비슷한 성능을 유지한다.

Known: Vision-Language-Action (VLA) 모델은 로봇 조작을 위한 유망한 패러다임이지만, 기존 VLA 모델들은 대규모 full-precision 파라미터로 인해 엣지 로봇 플랫폼에 배포하기 어렵다는 문제가 있다.
Gap: 극도로 낮은 비트의 모델링(1-bit LLM)이 언어 영역에서 성과를 보였으나, 다중모달 인식과 로봇 제어로의 확장은 여전히 미흡한 상태이며, post-hoc 압축만으로는 정확도 손실을 초래한다.
Why: 메모리 제약이 있는 엣지 로봇 플랫폼에서 경쟁력 있는 조작 능력을 실현하기 위해 training-time에 양자화와 학습을 통합한 co-design이 필요하며, 이는 로봇 공학 분야의 실제 배포 가능성을 크게 향상시킬 수 있다.
Approach: BitNet b1.58 2B4T 1-bit LLM 백본과 full-precision vision encoder를 초기에 학습한 후, Quantize-then-Distill이라는 양자화 인식 학습 전략으로 vision encoder를 1.58-bit 가중치로 압축하면서 teacher 모델의 지도로 표현 정렬을 유지하고, 대규모 로봇 궤적에 대한 사전학습을 수행한다.

Fig. 1: We introduce BitVLA, the first fully native 1-bit vision-language-action (VLA) model for robotic manipulation, i

완전한 1-bit VLA 모델: 모든 파라미터가 ternary {-1, 0, 1}인 첫 번째 fully native 1-bit Vision-Language-Action 모델을 구축했다.
극적인 효율성 개선: 모델 메모리를 11.0배 감소(1.4GB)시키고 end-to-end 지연 시간을 4.4배 단축하면서도 성능 저하 최소화
경쟁력 있는 성능 유지: OpenVLA-OFT baseline과 비교하여 LIBERO 벤치마크 및 실제 로봇 실험에서 유사한 조작 성공률 달성
Quantize-then-Distill 전략: Vision encoder를 1.58-bit 가중치로 압축하는 경량 양자화 인식 훈련 방법 제시로 표현 정렬 유지

Fig. 2: Overview of the three-stage training pipeline in BitVLA. We first perform multimodal training with a 1-bit LLM

BitNet b1.58 2B4T를 1-bit LLM 백본으로 사용하고 SigLIP-L을 224×224 해상도의 vision encoder로 채택
LLaVA 훈련 패러다임을 따라 1-bit LLM과 full-precision vision encoder를 페어링하여 multimodal 훈련 수행
Quantize-then-Distill 단계에서 full-precision vision encoder를 teacher로 사용하여 MSE와 Cross-Entropy 손실로 1.58-bit INT8 vision encoder 훈련
OpenVLA 패러다임을 따라 약 1M개의 실제 로봇 궤적으로 로봇 조작 사전학습 수행
Linear transformation에서 ternary 가중치와 INT8 활성화를 사용하여 부동소수점 연산량을 1/10 이상 감소

현재 SigLIP-L vision encoder 기반이므로 더 큰 vision 모델의 1.58-bit 양자화 가능성 미검증
Quantize-then-Distill에서 teacher 모델이 여전히 full-precision이므로 배포 시 추가 메모리 요구
LIBERO 시뮬레이션과 특정 실제 로봇 작업에 한정된 평가로 일반화 가능성에 대한 추가 검증 필요
후속 연구에서 더 극단적인 양자화(binary 가중치) 가능성, 더 큰 기본 VLM과의 결합, 그리고 1-bit VLA 특화 가속기 설계 탐색 권장

Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

총평: BitVLA는 로봇 조작용 VLA 모델의 극단적 양자화의 첫 성공적 사례로, Quantize-then-Distill이라는 혁신적 훈련 전략을 통해 11배 메모리 감소와 4.4배 속도 향상을 달성하면서도 성능을 유지하여 엣지 로봇 배포의 실질적 경로를 제시한다.