CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models

Essence

Figure 2. Overview of CoT-VLA framework. We build our model on VILA-U [67], a generative multimodal model pretrained on

이 논문은 Vision-Language-Action(VLA) 모델에 시각적 chain-of-thought 추론을 도입하여, 로봇이 직접 행동을 생성하기 전에 미래의 부분 목표 이미지를 자동회귀적으로 생성하도록 함으로써 로봇 조작 성능을 향상시킨다.

Known: VLA 모델은 사전 학습된 vision-language 모델을 활용하여 자연어 지시와 시각 관찰을 로봇 행동으로 매핑하며 뛰어난 일반화 성능을 보여주었다. 하지만 기존 VLA는 직접적인 입출력 매핑에만 집중하여 중간 추론 단계가 없다.
Gap: 기존 VLA 모델들은 복잡한 조작 작업에 필수적인 중간 추론 단계가 부족하며, 시간적 계획 또는 추론 능력이 결여되어 있다. 또한 행동 주석이 없는 대규모 비디오 데이터를 활용하지 못하고 있다.
Why: 시각적 chain-of-thought 추론을 통해 로봇이 행동 전에 '시각적으로 사고'하게 함으로써 복잡한 작업의 해석성과 성능을 동시에 개선할 수 있다. 또한 행동 주석이 없는 풍부한 비디오 데이터를 활용할 수 있게 된다.
Approach: CoT-VLA는 VILA-U 기반 7B 모델로서, 현재 관찰과 언어 지시에서 부분 목표 이미지를 먼저 생성한 후, 그 이미지와 원래 관찰을 조건으로 하여 짧은 행동 수열을 생성한다. Hybrid attention 메커니즘을 사용하여 텍스트/이미지 생성에는 causal attention을, 행동 예측에는 full attention을 적용한다.

Figure 4. Franka-Tabletop comparisons. Evaluation across six distinct manipulation tasks, with separate models trained p

Figure 2. Overview of CoT-VLA framework. We build our model on VILA-U [67], a generative multimodal model pretrained on

VILA-U 기반 multimodal 기초 모델을 Open X-Embodiment dataset 및 행동 주석이 없는 비디오 데이터로 사전 학습
Hybrid attention 메커니즘 설계: 픽셀과 텍스트 생성에는 causal attention으로 순차적 예측, 행동 예측에는 full attention으로 모든 행동 차원을 동시 예측
부분 목표 이미지를 중간 추론 단계로서 자동회귀적으로 생성
생성된 부분 목표 이미지와 현재 관찰을 모두 조건으로 하여 행동 수열 생성
행동 chunking 기법 적용하여 단계별 행동 생성 대신 짧은 행동 수열 한 번에 생성
Downstream task에 대해 수집된 로봇 데모로 미세 조정

VLA 프레임워크에 visual chain-of-thought 개념을 처음으로 통합하여, 기존 텍스트 기반 또는 키포인트 기반 intermediate reasoning과 구별됨
부분 목표 이미지를 natural intermediate reasoning state로 활용함으로써 추가 전처리 파이프라인 없이도 데모 데이터에서 자연스럽게 활용 가능
행동 주석이 없는 비디오 데이터(action-less video)를 VLA 학습에 활용하는 새로운 방식 제시
Hybrid attention 메커니즘으로 상이한 모달리티의 특성에 맞게 다른 attention 전략 적용

부분 목표 이미지 생성이 추가적인 추론 단계이므로 계산량 증가 및 생성 오류가 누적될 가능성
복잡한 다중 단계 작업에서 부분 목표 이미지의 정확성이 최종 성능에 미치는 영향에 대한 상세 분석 부족
Open X-Embodiment와 EPIC-KITCHEN-100 데이터의 특성이 결과에 미치는 영향의 구체적 분석 필요
실제 환경의 동역학적 오차나 불확실성에 대한 로버스트성 평가 부족
후속 연구: 부분 목표 생성 오류로부터의 회복 메커니즘 개발, 다양한 시각적 표현(예: 점 궤적, 열량도 등)과의 비교, 더 긴 horizon 작업에서의 성능 검증 필요

Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

총평: 이 논문은 VLA에 visual chain-of-thought 추론을 도입하여 해석성과 성능을 동시에 개선한 혁신적인 작업이며, 행동 주석이 없는 비디오 데이터 활용이라는 실용적 이점과 함께 다양한 실험으로 효과성을 충분히 입증하였다.