KungfuBot2: Learning Versatile Motion Skills for Humanoid Whole-Body Control

Essence

Fig. 2: Framework of VMS. The large-scale motion capture dataset is first retargeted to the humanoid skeleton using an I

VMS는 Orthogonal Mixture-of-Experts (OMoE) 아키텍처와 하이브리드 추적 목표를 결합하여 단일 정책으로 다양한 동작을 수행하는 휴머노이드 로봇 제어기를 제시한다. 장시간 시퀀스에서 안정적인 성능과 높은 동작 충실도를 달성한다.

Known: 기존 연구에서는 개별 동작마다 별도의 정책을 학습하거나, 단일 MLP에 기반한 제한된 표현력의 정책으로 여러 동작을 학습했다. 로컬 추적과 글로벌 추적 사이의 트레이드오프 문제가 존재한다.
Gap: 단일 정책으로 다양한 동작을 학습할 때 정책 표현력 부족과 로컬 동작 충실도 vs 글로벌 안정성 간의 충돌을 동시에 해결하는 방법이 부재했다. 특히 분 단위 길이의 장기 시퀀스에서 안정적인 추적이 어려웠다.
Why: 범용 휴머노이드 로봇 구현을 위해서는 대규모 동작 레퍼토리를 하나의 제어기로 처리할 수 있어야 하며, 실시간 배포를 위해서는 안정성과 충실도를 동시에 만족해야 한다.
Approach: OMoE 아키텍처로 스킬 표현을 분리하면서 동시에 하이브리드 추적 목표(글로벌 루트 + 로컬 키바디)를 도입했고, segment-level tracking reward로 장시간 로버스트성을 개선했다. Teacher-student 학습 패러다임을 통해 시뮬레이션에서 학습한 정책을 실로봇으로 배포했다.

Fig. 1: Humanoid learning versatile motion skills. We deploy VMS on the Unitree G1 humanoid robot, demonstrating its cap

OMoE 아키텍처: 동작 표현의 분리로 정책 표현력을 증대시키고 스킬 간 간섭을 감소
하이브리드 추적 목표: 글로벌 루트 추적과 로컬 키바디 추적을 결합하여 동작 충실도와 공간적 일관성을 동시 달성
Segment-level 보상: 엄격한 단계별 매칭을 완화하여 전역 변위와 일시적 부정확성에 대한 로버스트성 개선
실증적 성능: 시뮬레이션과 실로봇 모두에서 고충실도 동작 모방, 분 단위 길이의 장시간 시퀀스에서 안정적 성능, 미학습 동작으로의 강한 일반화 능력 입증

Fig. 2: Framework of VMS. The large-scale motion capture dataset is first retargeted to the humanoid skeleton using an I

Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

총평: VMS는 OMoE 아키텍처와 하이브리드 추적 목표의 조합으로 실용적 휴머노이드 제어의 주요 과제들을 효과적으로 해결하며, 대규모 데이터 기반의 체계적 방법론과 실로봇 검증을 통해 범용 휴머노이드 제어의 기초 플랫폼으로서 높은 가치를 보여준다.