ResMimic: From General Motion Tracking to Humanoid Whole-body Loco-Manipulation via Residual Learning

Essence

Fig. 3: Overview of ResMimic : (1) A general motion tracking policy is trained on large-scale human motion data to serve

ResMimic는 일반 모션 추적(GMT) 정책을 기반으로 효율적인 잔차 정책(residual policy)을 학습하여 인간형 로봇의 정밀한 전신 이동-조작 능력을 실현하는 이단계 잔차학습 프레임워크이다.

Known: 일반 모션 추적(GMT) 정책들은 대규모 인간 모션 데이터로 훈련되어 다양한 인간 동작을 재현할 수 있으나, 대상 객체에 대한 인식이 부족하여 조작 정밀도가 낮다.
Gap: 기존 인간형 이동-조작 연구들은 모두 작업별 보상 설계에 의존하거나 단계별 제어로 제한되어 통합된 효율적 프레임워크가 없다.
Why: 인간형 로봇의 전신 이동-조작 능력은 일상 서비스 및 창고 자동화 등 실제 응용에서 핵심이 되며, 기존 로봇(사족 또는 바퀴 매니퓰레이터)로는 달성할 수 없는 표현력을 제공한다.
Approach: 대규모 인간 모션 데이터로 훈련한 GMT 정책을 견고한 기초로 사용하고, 이 위에 작업별 잔차 정책을 학습하여 객체 추적 및 상호작용 정밀도를 개선한다.

Fig. 1: We deploy ResMimic on a Unitree G1 humanoid to demonstrate diverse whole-body loco-manipulation capabilities.

이단계 잔차학습 프레임워크: 사전훈련된 GMT 정책과 작업별 정밀 잔차 정책의 결합으로 효율적이고 정확한 이동-조작을 실현
맞춤형 보상 설계: point-cloud 기반 객체 추적 보상, 신체-객체 접촉 보상, curriculum 기반 가상 객체 제어기로 훈련 효율성 및 sim-to-real 전이 향상
광범위한 평가: 시뮬레이션과 실제 Unitree G1 인간형 로봇에서 모션 추적, 객체 추적, 작업 성공률, 훈련 효율성, 견고성 및 일반화 측면의 실질적 개선 입증
연구 가속 자산 공개: GPU 가속 시뮬레이션 인프라, sim-to-sim 평가 프로토타입, 모션 데이터 공개 예정

Fig. 3: Overview of ResMimic : (1) A general motion tracking policy is trained on large-scale human motion data to serve

Stage I: 대규모 인간-전용 모션 캡처 데이터로 GMT 정책(πGMT)을 훈련하여 인간형 전신 행동의 견고한 기초 확보
Stage II: 훈련된 GMT 정책의 출력을 개선하는 작업별 잔차 정책(πRes)을 학습하여 로봇 상태(sr_t), 객체 상태(so_t), 참조 모션(ŝr_t), 객체 목표 상태(ŝo_t)를 조건으로 미세 조정
최종 행동은 a_t = agmt_t + Δares_t로 계산되어 기본 모션에 보정 신호를 더함
Point-cloud 기반 객체 추적 보상으로 부드러운 최적화 달성
Contact reward로 인간형-객체 상호작용의 정확성 명시적 유도
Curriculum 기반 가상 객체 제어기로 초기 훈련 안정화

Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

총평: ResMimic는 대규모 사전훈련 GMT 정책과 효율적 잔차 정책의 결합으로 인간형 로봇의 정밀한 전신 이동-조작을 실현한 혁신적 프레임워크이며, 맞춤형 보상 설계와 광범위한 실증으로 인간형 로봇 제어 분야에 중요한 기여를 한다.