Humanoid Locomotion as Next Token Prediction

Essence

Figure 2: Humanoid locomotion as next token prediction. We collect a dataset on trajectories from various sources, such

이 논문은 인간형 로봇의 보행 제어를 언어 모델링의 next token prediction 문제로 재해석한 연구이다. causal transformer를 이용해 sensorimotor trajectories를 자동회귀적으로 예측하되, 불완전한 모달리티(예: 액션 없는 비디오)도 활용할 수 있도록 설계했다.

Motivation

Known: 대규모 transformer 모델을 통한 생성 모델링이 언어와 시각 데이터에서 성공을 거두었으며, 최근 로보틱스 분야에서도 transformer 기반 정책이 주목받고 있다. 인간형 로봇 보행은 강화학습 기반 접근법으로 어느 정도 성과를 보였으나, 생성 모델링을 통한 접근은 미흡했다.
Gap: 기존 로보틱스 학습 접근법은 주로 조건부 액션 분포 p(a|o)를 학습하지만, 노이즈가 있거나 불완전한 궤적(예: 액션 정보 없는 인간 비디오)을 효과적으로 활용하는 방법이 부족했다. 또한 다양한 소스의 이질적 데이터를 통합하여 실제 환경에 제로샷 전이하는 방법론이 미발달되었다.
Why: 인간형 로봇 보행은 실시간 제어, 환경 적응, 안정성이 요구되는 매우 도전적인 과제이다. 27시간의 데이터로 제로샷 배포가 가능하다면, 대규모 인터넷 데이터를 활용한 범용 로봇 정책 학습의 새로운 길을 열 수 있으므로 중요한 의의가 있다.
Approach: sensorimotor 궤적을 토큰화하여 causal transformer에 입력하고, 자동회귀적으로 다음 토큰을 예측한다. 모달리티별로 정렬된 방식(modality-aligned)으로 각 입력 토큰에 대해 동일 모달리티의 다음 토큰을 예측한다. 불완전한 데이터는 학습 가능한 mask token으로 대체하여 결합 훈련한다.

Achievement

Figure 4: Training dataset. To train our model, we construct a dataset of trajectories coming from four different source

제로샷 실제 환경 배포: San Francisco의 다양한 지형에서 학습된 정책이 추가 훈련 없이 보행 성공. 데이터 효율성: 27시간의 보행 데이터만으로 실제 환경 적응 가능. 명령 일반화: 학습 중 보지 못한 후진 보행 등의 새로운 명령에 대한 일반화 능력 입증. 불완전 데이터 활용: 모션캡처 데이터, YouTube 인간 비디오 등 이질적 소스를 통합 학습. 시뮬레이션 성능: 강화학습 기반 최신 기법과 비교 가능한 성능 달성.

How

Figure 3: A general framework for training with different data sources. Our data modeling allows us to train our

• sensorimotor 궤적 T = (o₁,a₁,o₂,a₂,...,oₜ,aₜ)를 K개 토큰으로 토큰화

• 자동회귀 확률 모델: p(t) = ∏ p(tₖ|tₖ₋₁,...,t₁)

• 음의 로그 우도로 훈련하되, Gaussian 분포 가정 하에 MSE 손실 사용

• 완전한 궤적(neural network policy, model-based controller)과 불완전한 궤적(motion capture, YouTube)을 mask token으로 통합

• 테스트 시 자동회귀적으로 액션 실행 후 감각 예측은 무시

• 다양한 데이터 소스를 결합 훈련(joint training) 또는 단계적 사전훈련(pre-training)

Originality

• 로보틱 제어를 next token prediction으로 명확히 재구성하여 NLP의 성공 사례를 체계적으로 이전

• 감지와 모터 모달리티를 함께 모델링(조건부 액션 분포 대신 결합 분포 학습)

• mask token을 통한 다양한 모달리티 불완전성 처리 방식이 간단하면서도 효과적

• 인터넷 비디오 같은 완전히 다른 형태의 데이터를 로보틱 정책 학습에 체계적으로 통합

Limitation & Further Study

• 27시간의 학습 데이터로도 복잡한 시나리오에 대한 견고성이 충분한지 미상. 후속 연구 방향: (1) 다양한 로봇 형태(사족 로봇, 조작 로봇)로의 확장 필요, (2) 동적 환경이나 장애물 회피 같은 더 복잡한 과제에 대한 성능 평가, (3) 실제 환경에서의 재훈련(adaptation) 메커니즘 개발, (4) 모달리티 불완전성이 극심한 경우의 성능 분석

Evaluation

Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

총평: 이 논문은 언어 모델링 패러다임을 로봇 제어에 효과적으로 적용한 강력한 연구이다. 제로샷 실제 환경 배포, 불완전한 데이터의 창의적 활용, 다양한 소스 통합 등에서 명확한 기여를 보여주며, 기술적으로도 건전하고 실험 결과도 설득력 있다.