Multi-Gait Learning for Humanoid Robots Using Reinforcement Learning with Selective Adversarial Motion Prior

Essence

Fig. 1.

본 논문은 humanoid robot이 보행, 거위걸음, 달리기, 계단 오르기, 점프 등 5가지 서로 다른 보행 방식을 통일된 강화학습 프레임워크로 학습할 수 있도록 하는 선택적 Adversarial Motion Prior (AMP) 전략을 제안한다.

Motivation

Known: 강화학습은 humanoid robot의 복잡한 운동 기술 학습에 효과적이며, AMP는 참고 동작 분포로부터 정책을 정규화하여 자연스럽고 안정적인 동작을 생성한다. 그러나 기존 연구들은 일반적으로 각 보행 방식마다 별도의 정책을 학습하고 있다.
Gap: 통일된 프레임워크에서 여러 보행 방식을 동시에 학습할 때 안정성과 동적 표현력 사이의 상충 관계를 해결하는 방법이 부족하며, AMP가 모든 보행 방식에 일관되게 도움이 되는지에 대한 실증적 검증이 이루어지지 않았다.
Why: Humanoid robot의 실제 배포를 위해서는 다양한 환경(평지, 계단, 장애물 등)에서 적응적으로 움직일 수 있는 능력이 필수적이며, 이를 통일된 정책 구조로 구현하면 시스템의 일관성과 확장성을 크게 향상시킬 수 있다.
Approach: 선택적 AMP 전략을 도입하여 주기적이고 안정성이 중요한 보행(보행, 거위걸음, 계단 오르기)에는 AMP를 적용하고, 동적이고 민첩성이 필요한 보행(달리기, 점프)에는 AMP를 비활성화한다. PPO로 학습한 정책을 domain randomization으로 시뮬레이션에서 훈련한 후 zero-shot sim-to-real transfer로 물리적 12-DOF humanoid robot에 배포한다.

Achievement

Fig. 2. Representative real-robot image sequences for the five learned gaits:

통일된 학습 프레임워크: 5가지 보행 방식이 동일한 observation space, action space, reward 구조를 공유하며 오직 sinusoidal reference trajectory 파라미터와 reward weight로만 구분됨
선택적 AMP 전략의 효과성: 주기적 보행에서는 수렴 속도 향상과 추적 오차 감소를 달성하면서, 동적 보행에서는 AMP 비활성화로 운동 범위와 표현력을 보존함
실로봇 검증: 물리적 humanoid robot에서 5가지 모든 보행 방식을 성공적으로 배포하고, 정량적 비교(추적 오차, 수렴 속도, 성공률/낙하율)를 통해 성능을 입증함
Zero-shot sim-to-real transfer: domain randomization을 통해 시뮬레이션 학습 정책을 추가 튜닝 없이 실제 로봇에 직접 적용 가능

How

Fig. 1.

Markov Decision Process (MDP) 기반 통일된 RL 공식화로 모든 보행 방식에 동일한 MDP 구조 적용 (관찰 공간: 신체 선형/각속도, 속도 명령, 위상 인코딩, 중력 벡터, 관절 위치/속도 오차 등 50차원)
Phase variable φ_t ∈ [0, 1)를 이용한 sinusoidal reference trajectory 생성: q_ref = sin(2πφ_t)를 기반으로 각 보행의 주기 및 stance ratio에 따라 조정
Jumping 보행을 위한 특화된 4.0초 주기 궤적 설계: squat → takeoff → flight → landing → stand 5단계로 구성하고 curriculum learning으로 squat depth 점진적 증가
정책이 N=21개의 연속 observation frame을 스택하여 1050차원 입력 사용하므로 명시적 미분 계산 없이 시간 동역학 포함
Critic은 시뮬레이션 전용 privileged information (마찰계수, 접지 마스크, 푸시 력 등 73차원)을 5 frame에 걸쳐 스택하고 지형 높이 정보(187점) 추가
주기적 보행(보행, 거위걸음, 계단)에는 AMP 활성화로 discriminator가 참고 동작과 구별하도록 정규화, 동적 보행(달리기, 점프)에는 AMP 비활성화
PPO 알고리즘으로 정책 훈련 시 domain randomization(질량, 마찰, 시뮬레이션 파라미터 변동)을 적용하여 sim-to-real 강건성 확보

Originality

선택적 AMP 개념: 기존 연구에서 AMP를 일괄 적용하던 것과 달리, 보행 특성에 따라 AMP를 선택적으로 활성화/비활성화하는 새로운 접근법으로, AMP의 한계를 명확히 규명하고 해결
다중 보행의 통일된 프레임워크: 5가지 이질적인 보행(주기적 보행 vs. 점프 같은 비주기적 보행)을 단일 관찰/행동 공간과 reward 함수로 통합 학습하는 통일 설계는 이전 연구에서 찾기 어려움
정량적 선택 기준 제시: 보행의 동적 특성(주기성, 관절 진폭, 가속도 필요성)에 따라 AMP 적용 여부를 명확한 원리 기반으로 결정하는 체계적 접근
포괄적 실로봇 검증: 모든 5가지 보행을 물리적 humanoid에서 직접 검증하고 정량적 성능 비교를 제시하여 재현성 높은 baseline 제공

Limitation & Further Study

AMP 적용 기준의 일반화 부족: 선택적 AMP의 경계(주기적 vs. 동적)를 정성적으로만 설명하였으며, 다른 로봇 형태나 보행 방식에 적용 가능성 검토 필요
단일 로봇 플랫폼 검증: 12-DOF humanoid 하나에서만 실험하였으므로 다양한 로봇 구조(bipedal, quadrupedal 등)에 대한 일반화 능력 미확인
환경 적응 부족: 시뮬레이션 domain randomization으로 일반화하지만, 실제 복합 지형(울퉁불퉁함, 변수 경사) 적응 능력은 제시되지 않음
Reward 설계 민감도: 각 보행의 reward weight 설정이 성능에 미치는 영향도 분석 및 자동화 방법 제시 필요
동작 해석 부족: AMP 비활성화 시 정책이 어떤 새로운 전략을 발견하는지에 대한 심층 분석(예: 관절 궤적 가시화, 에너지 효율성 비교) 부재
후속 연구 방향: (1) AMP 적용 기준을 정량적 메트릭(주기성 스코어, 동적 복잡도 지수)으로 자동화, (2) 다종 로봇 플랫폼으로 확장, (3) 실시간 보행 전환 및 적응적 reward 조정 메커니즘 개발

Evaluation

Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

총평: 본 논문은 humanoid robot의 다중 보행 학습에서 AMP의 선택적 적용이라는 창의적인 아이디어를 제시하고, 통일된 강화학습 프레임워크로 5가지 이질적 보행을 성공적으로 학습 및 실로봇 배포한 것으로 실무적 가치가 높다. 다만 선택 기준의 일반화 부족과 단일 로봇 플랫폼 검증이라는 한계가 있어 추가 확장 연구가 필요하다.