A Survey on Vision-Language-Action Models: An Action Tokenization Perspective

Essence

Figure 1 | We present a unified framework of VLA from an action tokenization perspective. Action token refers

본 논문은 vision-language-action (VLA) 모델들을 action tokenization 관점에서 통합적으로 분석하는 포괄적인 서베이이다. 현재의 다양한 VLA 모델들을 단일 프레임워크로 통합하고, action token을 language description, code, affordance, trajectory, goal state, latent representation, raw action, reasoning 등 8가지로 분류하여 체계적으로 정리한다.

Motivation

Known: Vision foundation model과 language foundation model의 놀라운 발전이 multimodal understanding, reasoning, generation 분야에서 이루어졌으며, 이를 물리 세계로 확장하려는 노력이 VLA 모델의 번성으로 이어졌다. 기존 VLA 연구는 매우 다양한 접근 방식을 제시해왔다.
Gap: 기존 연구에서는 action token에 대한 포괄적인 이해가 부족하며, 각 token type의 강점과 한계에 대한 체계적인 분석이 이루어지지 않았다. 또한 VLA 발전의 미래 방향이 명확하지 않고, action tokenization 관점에서 통합된 프레임워크가 존재하지 않았다.
Why: Action token이 VLA 모델의 설계를 구분하는 핵심적인 선택이 되기 때문에, action tokenization 관점의 분석은 VLA 분야의 발전을 가속화하는 데 매우 중요하다. 또한 embodied AI가 일반목적 지능으로 나아가기 위해서는 action token 설계에 대한 깊이 있는 이해가 필수적이다.
Approach: Vision과 language input이 일련의 VLA 모듈을 통해 처리되어 action token의 체인을 생성하고, 이를 통해 최종적으로 실행 가능한 action을 생성하는 프레임워크를 제시한다. 8가지 action token type에 대해 각각의 진화, 장단점, 미래 방향을 세부적으로 분석한다.

Achievement

Figure 3 | Evolution timeline of foundation models, VLA models, and data sources. The U-shape reflects how

• 통합 프레임워크 제시: 다양한 VLA 모델들을 action tokenization 관점에서 통합적으로 분석하는 프레임워크 제안

• Action Token 분류체계: 8가지 action token type (language description, code, affordance, trajectory, goal state, latent representation, raw action, reasoning)의 포괄적 분류 및 정의

• 각 token type별 상세 분석: 각 token type의 발전 과정, 주요 방법론, 장단점, 적용 분야에 대한 심층 분석

• 향후 기술 트렌드 식별: Hierarchical architecture, action-based reasoning, reinforcement learning 통합, VLA agent로의 진화 등 미래 방향 제시

• 실용적 가이드라인 제공: Model, data, hardware의 협진 필요성, safety와 alignment의 중요성 강조

How

Figure 2 | Visualization of action tokens in a single embodied task. Given the same vision and language

• 8가지 action token type에 대해 별도의 섹션을 할당하여 각각의 evolution timeline, key papers, advantages, limitations 등을 상세히 분석

• 실제 VLA 모델들 (CodeAsPolicies, DriveVLM, VoxPoser, HiRobot, CoT-VLA, GO-1, VILA-U 등)을 action token 분류에 따라 체계적으로 분류 및 시각화

• Executive summary에서 action token trends, architecture trends, emerging research directions 등을 명확하게 정리

• Table of contents 및 정렬된 섹션 구조로 각 주제에 대한 논리적 전개

Originality

• Action tokenization 관점의 새로운 분석 틀: 기존에 부족했던 action token에 대한 통합적 관점을 처음으로 제시

• LLM의 language token과 VLA의 action token 대응 관계 설정: 두 분야의 병렬 발전을 통해 새로운 인사이트 제공

• Action token taxonomy의 정립: 8가지 세부 분류로 체계적인 분류체계 확립

• Hierarchical architecture 및 multi-token synergy 개념 도입: 단일 token 중심이 아닌 전략적 조합의 필요성 강조

Limitation & Further Study

• 실험적 검증의 부재: 본 서베이는 정성적 분석에 중점을 두고 있으며, 각 action token type들의 성능을 정량적으로 비교하는 벤치마크 결과가 부족함

• 데이터 및 하드웨어 제약의 논의 부족: action tokenization 선택이 data와 hardware 가용성에 미치는 영향에 대한 심화된 분석 필요

• 실시간 성능 평가 부재: 복잡한 실제 환경에서 각 token type의 실행 효율성, 지연 시간, 실패율 등을 비교한 실증적 평가 필요

• 후속 연구: 각 action token type들 간의 성능 벤치마킹, 하이브리드 접근 방식의 실험적 검증, 안전성과 정렬 문제에 대한 더 깊이 있는 논의 필요

Evaluation

Novelty: 4/5 Technical Soundness: 4/5 Significance: 5/5 Clarity: 4/5 Overall: 4/5

총평: 본 서베이는 VLA 분야의 현황을 action tokenization이라는 통합적 렌즈로 분석하여 체계적이고 포괄적인 이해를 제공한다. 8가지 action token type의 분류, 각각의 장단점 분석, 그리고 미래 기술 트렌드에 대한 인사이트는 VLA 연구의 방향을 제시하는 데 매우 가치 있다. 다만 정량적인 성능 비교와 실제 환경에서의 검증이 부재하다는 한계가 있으며, 이를 보완하는 후속 연구가 필요하다.