Chain-of-Action: Trajectory Autoregressive Modeling for Robotic Manipulation

Essence

Chain-of-Action(CoA)은 역방향 궤적 자동회귀 모델링을 통해 로봇 조작 정책을 학습하는 새로운 시각-운동 정책 패러다임으로, 목표 상태부터 역순으로 행동 시퀀스를 생성하여 누적 오차를 완화한다.

Known: 기존 시각-운동 정책은 순방향으로 다음 행동을 예측하는 방식으로 학습되어 누적 오차 문제를 겪으며, ACT와 Diffusion Policy 등이 이를 완화하기 위해 행동 청킹이나 노이징 과정을 도입했다.
Gap: 순방향 예측 패러다임의 근본적인 한계는 현재 관측만을 기반으로 최적화되어 장기 목표 달성을 보장하지 못한다는 점이며, 기존 완화 기법들은 증상만 치료할 뿐 근본 원인을 해결하지 못한다.
Why: 로봇 조작은 복잡한 다단계 작업을 요구하므로 목표 지향적 행동 생성이 필수적이며, 역순 생성을 통한 전역-국소 일관성 강화는 일반화 능력과 실행 신뢰성을 크게 향상시킬 수 있다.
Approach: CoA는 keyframe 행동(목표 인코딩)부터 시작하여 역순으로 행동 토큰을 자동회귀적으로 생성하며, 이를 안정적으로 실현하기 위해 연속 행동 표현, 동적 정지, 역시간 앙상블, 다중 토큰 예측 등 4가지 핵심 설계를 통합한다.

Figure 4 Success rate improvement on RLBench-60, sorted by improvement from high to low. The average success

로봇 조작에 역순 궤적 생성 패러다임을 최초 도입하여 순방향 예측의 근본적 한계 극복
Action-level Chain-of-Thought 개념으로 행동 시퀀스에 직접 추론 구조 적용 (시각 이미지, 바운딩 박스 등 중간 표현 미사용)
Keyframe을 자동회귀 구조의 초기 토큰으로 통합하여 계층적 모델링과 폐루프 실행을 단일 프레임워크 내에서 실현
역순 생성의 실제 구현을 위한 4가지 필수 설계(연속 표현, 다중 토큰, 동적 정지, 역시간 앙상블)의 체계적 제시

Keyframe 정의가 그리퍼 상태 변화나 관절 속도 근처 이상의 단순한 휴리스틱에 의존하여, 복잡한 작업에서 의미있는 목표 인코딩을 보장하지 못할 수 있음
역순 생성의 이론적 정당성(왜 역순이 순방향보다 나은가)에 대한 형식적 분석 부재
실제 환경에서의 평가가 8개 작업에 한정되어 있어 일반화 능력의 광범위한 검증 필요
동적 환경(움직이는 장애물, 다중 객체 상호작용)에서의 성능 미평가
계산 비용 분석 및 ACT, Diffusion Policy와의 속도 비교 부재
후속 연구로 더 정교한 목표 인코딩 방법, 수정 불가능한 오류에 대한 적응 메커니즘, 확장 가능성(VLA 모델)에 대한 검토 필요

Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

총평: Chain-of-Action은 로봇 조작에서 누적 오차 문제를 근본적으로 해결하기 위해 역순 궤적 생성 패러다임을 도입하며, 필수 설계 요소들의 통합으로 순방향 방식을 명확히 상회하는 성능을 달성하여 시각-운동 정책 학습의 새로운 방향을 제시한다.