Humanoid Parkour Learning

Essence

Figure 1: We present a single vision-based end-to-end whole-body-control parkour policy for humanoid robots

본 논문은 인간형 로봇이 motion prior 없이 end-to-end vision-based 정책으로 다양한 parkour 기술을 학습할 수 있는 프레임워크를 제시한다. Fractal noise를 활용한 terrain randomization과 DAgger를 통한 vision policy 증류로 sim-to-real transfer를 달성하며, 실제 로봇에서 0.42m 점프, 0.8m gap 통과, 1.8m/s 주행 등을 성공한다.

Motivation

Known: Legged locomotion은 모델 기반 제어에서 출발했고, 최근 reinforcement learning과 depth sensing을 활용한 사족 보행 로봇의 민첩한 움직임이 입증되었으나, 인간형 로봇의 agile locomotion 학습은 아직 평면 보행에 제한되어 있다.
Gap: 기존 인간형 로봇 학습 방법은 motion reference나 foot raising 장려 reward term이 필수적이며, 다양한 parkour 기술을 통합적으로 학습하는 방법이 부족하다. 또한 legged locomotion에서 agile skill의 다양성을 단일 네트워크로 학습하는 것이 어렵다.
Why: Parkour는 인간형 로봇의 athletic intelligence의 궁극적 벤치마크이며, 다양한 장애물 극복 능력은 실용적 embodied AI 시스템 개발에 필수적이다. Motion prior 없는 학습은 확장성과 일반화 가능성을 크게 향상시킨다.
Approach: 3단계 훈련 파이프라인: (1) Fractal noise를 활용한 planar walking 정책 사전학습으로 foot raising 유도, (2) 10가지 terrain과 auto-curriculum을 통한 parkour policy 훈련 (oracle policy는 scandots로 지형 인식), (3) DAgger를 통한 vision-based 정책 증류 (Intel RealSense D435i 노이즈 시뮬레이션).

Achievement

Figure 2: We design 10 different types of terrain with controllable difficulty. By training on all these

Zero-shot sim-to-real transfer 달성: Motion prior 없이 다양한 parkour 기술 학습
다중 기술 통합: 10가지 이상의 인간 가능 terrain에 대응
실제 로봇 성능: 0.42m 플랫폼 점프, 0.8m gap 점프, 1.8m/s 주행 속도, 다양한 지형에서 robust한 보행
자율 기술 선택: Joystick 회전 명령에 따라 parkour 기술 자동 선택
모바일 조작 이전 가능성: Arm action override로 humanoid mobile manipulation 이전 가능성 증명

How

Figure 2: We design 10 different types of terrain with controllable difficulty. By training on all these

PPO 알고리즘으로 GRU-MLP 기반 정책 훈련
Scandots를 통한 고효율 지형 인식 (depth rendering 비용 절감)
10가지 제어 가능한 난이도 terrain 설계
가상 장애물 추가로 위험 행동 억제
Domain randomization 기법 적용
DAgger를 통한 4-GPU 병렬 vision policy 증류

Originality

Parkour를 인간형 로봇의 통합 학습 과제로 정의한 새로운 관점
Fractal noise를 통한 자연스러운 foot-raising 유도 (명시적 reward term 불필요)
Motion prior 제거로 인한 완전 자율 학습 방식
Scandots 기반 효율적 지형 인식으로 isaacgym의 depth rendering 병목 우회

Limitation & Further Study

Straight track 제약: 사전학습에 직선 parkour track 사용으로 복잡한 경로 대응 미검증
하드웨어 특정성: 실험용 특정 humanoid 로봇에 대한 결과로, 다른 embodiment으로의 이전 효과 미명확
실시간 성능 분석 부족: 온보드 계산 요구사항과 추론 지연 시간에 대한 상세 분석 부재
정성적 결과 의존: 정량적 벤치마크 부족 (success rate, 안정성 지표 제한적)
에너지 효율성 미평가: Battery 기반 시스템의 전력 효율성과 운영 지속성 미검증

Evaluation

Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

총평: 본 논문은 인간형 로봇의 parkour learning에서 motion prior 제거와 fractal noise 기반 자동 foot-raising 유도라는 중요한 기여를 제시한다. 3단계 훈련 파이프라인과 DAgger 증류를 통한 sim-to-real transfer는 기술적으로 견고하며, 실제 로봇에서의 다양한 성공 사례는 실용적 가치가 높다. 다만 직선 track 제약, 정량적 평가 부족, 일반화 가능성 검증 미흡이 한계이나, 인간형 로봇의 agile locomotion 분야에 상당한 진전을 이루었다.