VLABench: A Large-Scale Benchmark for Language-Conditioned Robotics Manipulation with Long-Horizon Reasoning Tasks

Essence

Figure 1. Overview of VLABench. VLABench is a large-scale language-conditioned manipulation benchmark to evaluate the co

VLABench는 Vision-Language-Action 모델의 능력을 평가하기 위해 설계된 대규모 로봇 조작 벤치마크로, 자연어 지시, 상식 이전, 장기 추론이 필요한 100개의 과제를 제공한다.

Motivation

Known: RLBench, LIBERO, CALVIN 등의 기존 벤치마크들이 존재하지만, 대부분 템플릿 기반 지시와 단기 스킬 학습에 초점을 맞추고 있다. 최근 RT-2, PaLM-E 같은 VLA 모델들이 언어-조작 과제에서 좋은 성능을 보이고 있다.
Gap: 기존 벤치마크들은 자연어의 암묵적 의도, 상식 및 세계 지식 이전, 다단계 추론이 필요한 장기 과제, 그리고 VLA와 VLM의 종합적 역량 평가를 충분히 다루지 못하고 있다.
Why: foundation model 기반의 VLA와 VLM이 로봇 조작 분야에서 큰 잠재력을 보이고 있으나, 이를 공정하고 포괄적으로 평가할 표준화된 벤치마크가 필요하며, 이는 구체화된 AI 연구 발전에 필수적이다.
Approach: 2000개 이상의 3D 객체와 163개 카테고리를 포함한 100개의 신중히 설계된 과제를 제공하며, 자동화된 데이터 수집 프레임워크를 통해 고품질 훈련 데이터를 구성한다. VLA, VLM 기반 워크플로우, 순수 VLM 등 세 가지 접근법을 비교 평가한다.

Achievement

Figure 1. Overview of VLABench. VLABench is a large-scale language-conditioned manipulation benchmark to evaluate the co

포괄적 능력 평가: mesh&texture 이해, 공간 관계, 의미론적 지시 이해, 물리법칙 이해, 지식 이전, 추론 능력 등 여러 차원에서 VLA를 평가하는 첫 번째 벤치마크
자연언어 기반 과제: 템플릿이 아닌 자연스러운 인간-로봇 상호작용 형식의 지시문과 암묵적 의도를 포함한 100개의 LCM 과제
자동화 데이터 수집: heuristic skill과 사전 정보를 활용한 효율적이고 확장 가능한 시뮬레이션 데이터 생성 프레임워크
현황 분석: 기존의 SOTA VLA 모델들과 VLM 기반 워크플로우가 상식 이전, 장기 추론, 의미론적 이해가 필요한 과제에서 상당한 어려움을 겪고 있음을 입증

How

Figure 3. Task examples in each dimension. The first row showcases examples of primitive tasks from Section 3.1, while t

100개의 LCM 과제를 6가지 평가 차원(상식&세계지식, mesh&texture, 의미론적 이해, 공간 관계, 물리법칙, 추론)으로 체계적으로 설계
2000개 이상의 다양한 3D 객체와 163개의 객체 카테고리를 이용한 강한 domain randomization 적용
자동화된 데이터 수집 프레임워크로 각 과제에 대한 표준화된 훈련 데이터셋 구성
RT-2, PaLM-E 등의 VLA 모델, VoxPoser/CoPA 등의 VLM 기반 워크플로우, 다양한 VLM들에 대한 체계적인 성능 평가
cross-embodiment 지원, point cloud 데이터 지원, 다중 카메라 관점 제공으로 평가의 다양성 확보

Originality

자연언어 기반 암묵적 의도 표현: 기존 템플릿 기반 지시문과 달리, 실제 인간의 상호작용 방식을 모방한 자연스러운 언어 지시 도입
장기 추론(long-horizon reasoning) 강조: multi-step 의사결정과 task decomposition이 필요한 복합 과제를 벤치마크의 핵심 요소로 체계화
상식 및 지식 이전 평가: '물체를 특정 인물에게 이동'과 같은 상식 추론이 필수적인 과제를 체계적으로 설계", 'VLA와 VLM 모두를 대상으로 한 통합 평가 프레임워크: 단일 정책 모델과 모듈화된 워크플로우 접근의 장단점을 동시에 평가

Limitation & Further Study

시뮬레이션 환경의 한계: 실제 로봇의 물리적 특성, 불확실성, 실시간 제약 조건들이 완벽히 반영되지 않을 수 있음
객체 및 장면 다양성: 2000개 이상의 객체로 광범위하지만, 실제 현실 환경의 무한한 다양성을 완전히 포괄하기는 어려움
VLA 모델 성숙도: 현재 사용 가능한 VLA 모델들이 상식 이전과 장기 추론에 제대로 최적화되지 않았을 가능성으로, 벤치마크의 어려움이 모델 설계의 한계인지 과제 설계의 타당성인지 구분이 필요
후속 연구 방향: VLA 모델의 대규모 사전학습 데이터 확보, 자연언어 의도 이해 능력 강화, 상식 기반 추론 메커니즘 개발, 시뮬-투-리얼 전이 학습 기법 개발

Evaluation

Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

총평: VLABench는 foundation model 기반의 로봇 조작 연구를 평가하기 위한 첫 번째 포괄적 벤치마크로서, 자연언어 지시, 상식 이전, 장기 추론 등 기존 벤치마크가 간과했던 중요한 차원들을 체계적으로 도입했다. 현 SOTA 모델들의 한계를 명확히 드러냄으로써 향후 VLA 및 embodied AI 연구 방향 설정에 중요한 역할을 할 것으로 예상된다.