Gait-Conditioned Reinforcement Learning with Multi-Phase Curriculum for Humanoid Locomotion

Essence

Fig. 1: Human-like multi-gait locomotion on the Unitree G1

인간에게서 영감을 얻은 보상 형성과 gait-conditioned reward routing을 통해 단일 recurrent policy에서 서서기, 걷기, 달리기 및 전환을 학습하는 통합 reference-free RL 프레임워크를 제시한다.

Known: Reference-기반 방법(AMP 등)은 MoCap 데이터에 의존하고 형태 불일치 문제가 있으며, 다중 기술 학습을 위해 정책 증류나 혼합 전문가 같은 복잡한 구조가 필요하다.
Gap: MoCap 없이 자연스러운 다중 gait 전환을 지원하면서도 보상 간섭을 완화하고 단일 통합 정책으로 구현하는 방법이 부족하다.
Why: 인간형 로봇의 실제 배포를 위해 안정적이고 효율적인 다중 움직임 모드가 필수적이며, 참조 데이터 없이 자연스러운 움직임을 생성할 수 있는 확장 가능한 솔루션이 필요하다.
Approach: Gait ID 기반 동적 보상 라우팅 메커니즘과 직선 무릎 자세, arm-leg swing 조율 등 생물역학 기반 보상 항을 통합하고, 다단계 구조화된 커리큘럼으로 점진적으로 기술 복잡도를 확대한다.

Fig. 1: Human-like multi-gait locomotion on the Unitree G1

Reference-free multi-gait learning: MoCap 데이터 없이 서서기, 걷기, 달리기, 전환을 단일 recurrent 정책으로 학습
Gait-conditioned reward routing: One-hot gait ID 기반 동적 보상 활성화로 보상 간섭 완화 및 안정적 다중 gait 학습 지원
Biomechanically natural motion: 각속도량 제약, 직선 무릎 자세, 조율된 arm-leg swing 등을 통해 인간처럼 자연스러운 움직임 생성
Real robot validation: Unitree G1 인간형 로봇에서 서서기, 걷기, walk-to-stand 전환 실증

Gait-conditioned reward routing 메커니즘: gait ID를 통해 현재 모드에 해당하는 보상 목표만 활성화
Biomechanical reward shaping: 각속도량 페널티, 직선 무릎 자세 장려, arm-leg anti-phase coordination, 발 드래그 최소화, push-off 동역학 등 포함
Multi-phase curriculum: 초기 서서기 → 걷기 → 달리기 → 전환으로 단계적 복잡도 증가 및 명령 공간 확대
Recurrent policy architecture: LSTM 기반으로 시간적 동역학 캡처하고 gait 전환 시 smooth 동작 가능
One-hot gait ID encoding: 관찰에 포함된 compact 가이트 식별자로 정책 조건화

Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

총평: 이 논문은 gait-conditioned reward routing과 생물역학 기반 보상 설계를 통해 MoCap 없이 자연스러운 다중 gait 학습을 가능하게 하는 우아한 프레임워크를 제시하며, 실제 인간형 로봇에서의 검증으로 실용성을 입증한다.