OmniVLA: Physically-Grounded Multimodal VLA with Unified Multi-Sensor Perception for Robotic Manipulation

Essence

Fig. 2: System Overview. OmniVLA processes diverse sensor data into image-like 2D spatial representations, and then

OmniVLA는 RGB, 적외선, mmWave 레이더, 음향 마이크로폰 등 다중 센서를 통합하는 최초의 VLA 모델로, 센서-마스크된 이미지라는 통일된 표현을 통해 물리적 정보가 포함된 로봇 조작을 가능하게 한다.

Known: VLA 모델은 대규모 비전-언어 사전학습을 통해 로봇 조작에서 우수한 일반화 성능을 보이지만, 대부분 RGB 카메라에만 의존한다. 깊이, 촉각 등 추가 센서 통합 연구는 존재하지만 복잡한 아키텍처와 높은 데이터 요구량이 문제다.
Gap: 기존 VLA 모델은 RGB 이외의 센서 모달리티(열상, 레이더, 음향)와의 효과적 통합 방법이 부족하며, 센서마다 다른 형식과 해상도를 처리하는 확장 가능한 표현이 없다.
Why: 로봇이 인간처럼 다양한 센서 정보를 활용하면 폐쇄된 박스 속 물체 탐지, 옷 아래 벨소리, 온도 기반 작업 등 RGB만으로는 불가능한 복잡한 조작 작업을 수행할 수 있다.
Approach: RGB 이미지에 다양한 센서 정보를 공간적으로 정렬된 마스크 형태로 오버레이하는 센서-마스크된 이미지 표현을 제안하고, 사전학습된 VLA 백본을 확장하여 경량의 센서별 projection 레이어를 추가한다.

Fig. 5: Examples of Robotic Manipulation Task Completion

Fig. 2: System Overview. OmniVLA processes diverse sensor data into image-like 2D spatial representations, and then

Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

총평: OmniVLA는 다중 센서를 VLA에 통합하는 문제에 대해 우아하고 실용적인 솔루션을 제시하며, 센서-마스크된 이미지라는 단순하면서도 효과적인 표현으로 확장 가능성과 데이터 효율성을 동시에 달성한 의미 있는 기여이다.