A Survey on Vision-Language-Action Models for Autonomous Driving

Essence

Figure 1. Comparisons of autonomous driving paradigms. (a) End-to-end driving offers direct perception-to-control mappin

본 논문은 Vision-Language-Action (VLA) 모델을 자율주행에 적용하는 최초의 종합 서베이로, 20개 이상의 대표 모델을 분석하고 시각 인식, 자연어 이해, 제어를 통합하는 패러다임의 발전 과정을 추적한다.

Known: End-to-End 자율주행은 센서 입력을 직접 제어 명령으로 매핑하며, VLM4AD는 장면 설명 및 설명가능성을 추가했으나 행동 결정 문제는 미해결 상태였다.
Gap: 기존 VLM 기반 자율주행 연구는 인식 중심이며 언어 출력과 저수준 제어 간 느슨한 결합 문제가 있고, VLA 패러다임의 종합적 개요가 부재했다.
Why: VLA4AD는 고수준 지시 해석, 복잡한 교통 장면 추론, 자율 의사결정을 통합하여 설명가능하고 사회적으로 정렬된 자율주행을 실현할 수 있으며, 모서리 사례와 분포 외 시나리오에서의 강건성을 개선할 수 있다.
Approach: 아키텍처 구성 요소를 형식화하고, 초기 설명자부터 추론 중심 VLA 모델로의 진화를 추적하며, 20개 이상의 대표 모델을 비교 분석하고, 데이터셋, 벤치마크, 평가 프로토콜을 정리했다.

Figure 2. Overview of the VLA4AD Architecture.

Figure 1. Comparisons of autonomous driving paradigms. (a) End-to-end driving offers direct perception-to-control mappin

Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

총평: 본 논문은 VLA4AD 분야의 최초의 종합 서베이로서 아키텍처, 진화 과정, 모델 비교를 체계적으로 정리하고 개방 과제를 명확히 정의함으로써, 설명가능하고 견고한 자율주행 시스템 개발을 위한 중요한 참고 자료를 제공한다.