Any-point Trajectory Modeling for Policy Learning

Essence

Fig. 1: Given a task instruction and the initial positions of any set of points in an image frame, our Any-point Traject

Any-point Trajectory Modeling (ATM)은 액션 라벨이 없는 비디오에서 임의의 점들의 미래 궤적을 예측하도록 사전 학습된 궤적 모델을 활용하여, 최소한의 액션-라벨 데이터로도 강건한 visuomotor 정책 학습을 가능하게 하는 프레임워크이다.

Known: 비디오는 행동, 물리학, 의미론적 지식의 풍부한 원천이지만, 액션 라벨 부재로 인해 제어 학습에 활용하기 어렵다. 기존 비디오 예측 접근법은 픽셀 변화를 모델링하여 hallucination 문제와 높은 계산 비용을 야기한다.
Gap: 비디오 사전 학습과 정책 학습 사이를 연결할 수 있으면서도, 픽셀 수준의 복잡성을 피하고 물리적 동역학을 충실히 모델링할 수 있는 구조화된 표현이 부족하다.
Why: 로봇 정책 학습의 주요 병목은 액션-라벨 시연 데이터 수집의 높은 비용이며, 대규모 비디오 데이터를 효과적으로 활용할 수 있으면 데이터 효율성을 크게 향상시킬 수 있다.
Approach: 임의의 점들의 2D 궤적을 카메라 좌표계에서 예측하도록 ATM을 사전 학습하고, 예측된 궤적을 정책 학습 시 부분 목표(subgoal)로 활용하여 최소한의 액션-라벨 데이터로 정책을 학습한다.

Fig. 4: We compare with state-of-the-art video pre-training methods on language-conditioned manipulation tasks in the

Fig. 2: Overview of our framework. (a) In the first stage, given an action-free video dataset, we first sample 2D points

최근의 비전 모델(Tracking Any Point)을 활용하여 비디오에서 자동으로 점 궤적 생성 및 자기 감독 학습 데이터 구성
Particle 기반 궤적 모델링으로 픽셀 변화 대신 물리적 동역학 충실히 모델링하며, 물체 항상성과 연속 운동 같은 귀납 편향 자연스럽게 포함
카메라 보정 가정을 최소화하기 위해 2D 카메라 좌표계에서 궤적 예측
예측된 궤적을 정책 입력으로 제공하여 폐루프 실행 가능하게 함으로써 높은 견고성 달성
Behavioral cloning 목표로 최소한의 액션-라벨 데이터로 궤적-안내 정책 학습

Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

총평: 비디오 데이터를 정책 학습에 효과적으로 활용하는 새로운 접근법으로, 임의의 점 궤적이라는 단순하면서도 강력한 표현을 통해 높은 성능과 일반성을 동시에 달성했다. 광범위한 실험과 명확한 프레임워크로 로봇 학습 분야에 의미 있는 기여를 한다.