RPG: Robust Policy Gating for Smooth Multi-Skill Transitions in Humanoid Fighting

Essence

Fig. 1.

본 논문은 RPG(Robust Policy Gating)라는 하이브리드 전문가 정책 프레임워크를 제안하여 인형형 로봇이 다양한 격투 기술 간 매끄럽고 안정적인 전환을 통해 장시간 동적 격투를 수행할 수 있도록 함.

Motivation

Known: 모방 학습을 통해 로봇은 인간과 유사한 격투 기술을 습득할 수 있으나, 기존 방법들은 단일 기술 정책 간 전환 또는 일반 정책 사용으로 인해 기술 전환 시 불안정성 문제가 발생함.
Gap: 서로 다른 기술의 초기/종료 상태 불일치로 인한 분포 외 교란이 기술 전환 시 부자연스럽거나 불안정한 동작을 야기함. 장시간 연속적인 격투 행동과 임의의 중단을 지원하는 통합 제어 파이프라인이 부재함.
Why: 인형형 로봇의 민첩성과 안정성이 요구되는 복잡한 격투 제어는 게임의 RPG 전투 시스템처럼 직관적이고 유연한 다중 기술 전환이 필수적이며, 이는 실제 로봇 응용에서 중요한 도전 과제임.
Approach: 본 논문은 motion transition randomization과 temporal randomization을 통해 각 전문가 정책을 강화하고, 경량 gating network를 학습하여 정책들의 가중 조합을 생성하며 torque 및 contact smoothness 정규화를 적용함.

Achievement

Fig. 1.

RPG 프레임워크 제안: policy-transition randomization과 temporal randomization을 통해 기술 전환 중 견고성을 확보하고 다중 전문가 정책의 안정적 융합을 실현
통합 제어 파이프라인 설계: 보행/주행 운동과 격투 기술을 통합하여 RPG 게임 인터페이스와 유사한 임의 지속 시간의 장시간 격투를 지원
실제 로봇 검증: Unitree G1 인형형 로봇에서의 실세계 배포를 통해 견고성과 실용성 확인

How

Fig. 3.

공개 모션 데이터셋 및 동영상 기록에서 모션 참조 수집 및 GVHMR 프레임워크로 3D 인간 모션 추출
PHC retargeting 방법을 통해 인간 모션을 로봇의 운동학 구조에 적응
각 격투 기술(punching, jumping, sword swing, kicking)에 대해 PPO를 사용한 전문가 정책 πm 학습
policy-transition randomization: 임의의 지점에서 모션 중단 및 전환을 시뮬레이션하여 불연속 동작에 대한 견고성 학습
temporal randomization: 시간적 왜곡을 통해 기술 실행의 다양성 증가
동결된 전문가 정책들의 가중 조합을 출력하는 경량 gating network 학습 (torque 및 contact smoothness 정규화 적용)
보행 정책과의 통합으로 명령 없음 시 이동, 명령 시 격투 기술로의 매끄러운 전환 구현

Originality

Policy-transition randomization: 기술 전환 중 불연속성을 명시적으로 학습 목표에 포함하는 새로운 강화 방식
Temporal randomization: 시간적 변동성을 통해 정책의 강건성을 향상시키는 접근
Gating network 기반 정책 융합: 동결된 전문가 정책들의 가중 조합으로 부드러운 전환 달성
RPG 게임 인터페이스 설계: 로봇 제어를 직관적인 액션 게임 메커니즘으로 추상화

Limitation & Further Study

점프 기술의 짧은 지속시간으로 인해 recovery 테스트에서 제외되어, 모든 기술에 대한 중단 복구 검증 미흡
4가지 격투 기술(jumping, punching, sword swing, kicking)에만 한정되어 다양한 기술에 대한 확장성 미검증
모션 데이터 획득이 공개 데이터셋 및 동영상에 의존하여 데이터 품질 및 다양성 제약 가능성
실세계 배포가 Unitree G1 단일 로봇에서만 검증되어, 다양한 로봇 플랫폼에 대한 일반화 가능성 미확인
후속 연구는 더 많은 기술 범주 추가, 다중 로봇 플랫폼 검증, 기술 자동 발견 메커니즘 탐색이 필요

Evaluation

Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

총평: 본 논문은 RPG 프레임워크를 통해 인형형 로봇의 다중 격투 기술 매끄러운 전환 문제를 효과적으로 해결하였으며, policy-transition randomization과 temporal randomization의 결합은 기술 전환 강건성 확보에 창의적 기여를 함. 실세계 로봇 검증과 게임 인터페이스 설계로 실용성이 높으나, 기술 범주 확장 및 다양한 로봇 플랫폼 검증이 필요함.