LHM-Humanoid: Learning a Unified Policy for Long-Horizon Humanoid Whole-Body Loco-Manipulation in Diverse Messy Environments

Essence

Fig. 1: Overview of LHM-Humanoid. Our system solves long-horizon loco-manipulation tasks

LHM-Humanoid는 다양한 혼란스러운 환경에서 장시간 인간형 로봇이 복수 객체를 반복적으로 집기, 운반, 배치하는 작업을 단일 통합 정책으로 수행하는 벤치마크와 학습 프레임워크를 제시한다.

Known: 기존 인간형 로봇 연구는 모션 제어, 장면 상호작용, 객체 조작에서 진전을 이루었으나 대부분 단일 객체 상호작용이나 고정된 장면 분포로 제한되어 있다.
Gap: 장시간 지속적인 로코-조작, 교차 장면 일반화, 통합된 단일 정책 제어를 동시에 요구하는 혼란스러운 환경에서의 인간형 로봇 연구가 부족하다.
Why: 실제 환경에서 인간형 로봇이 여러 객체를 유연하게 처리하고 다양한 장면 구성에 적응할 수 있어야 하며, 이는 로봇 일반화 능력 평가의 중요한 벤치마크가 될 수 있다.
Approach: 두 개의 목표 조건부 RL 교사 정책을 학습하여 DAgger를 통해 단일 end-to-end 학생 정책으로 증류하고, 추가로 egocentric RGB와 자연언어로 조건화된 VLA 모델로 증류한다.

Fig. 1: Overview of LHM-Humanoid. Our system solves long-horizon loco-manipulation tasks

LHM-Humanoid 벤치마크: 4가지 방 유형(침실, 거실, 주방, 창고)에 걸쳐 350개의 다양한 혼란스러운 장면/작업, 79개 객체(25개 이동 가능 대상)를 포함한 벤치마크 구성
이중 교사 증류 프레임워크: 첫 번째 fetch-carry-place 주기를 완료하는 Teacher 1과 비표준 종료 상태에서 시작하는 Teacher 2를 통해 중간 리셋 없이 장시간 에피소드 처리
VLA 확장: 통합 정책을 RGB 및 언어 조건부 end-to-end 모델로 추가 증류하여 대화형 명령 수행 가능
성능 우수성: Isaac Gym에서 end-to-end RL 베이스라인 및 기존 인간형 로코-조작 방법을 보이지 않은 장면에서도 상회하며 강력한 장시간 견고성과 교차 장면 일반화 입증

Fig. 2: Overview of the LHM-Humanoid learning framework. The pipeline consists of three

시뮬레이션(Isaac Gym) 환경에서만 검증되었으며 실제 로봇 구현의 sim-to-real 전이 가능성 미검증
학습 데이터가 4가지 특정 방 유형으로 제한되어 완전히 새로운 환경 유형에 대한 일반화 미평가
VLA 모델 증류 단계에서 자연언어 주석의 품질 및 다양성이 성능에 미치는 영향 분석 부재
장시간 에피소드에서 누적 오류 전파 메커니즘 및 오류 복구 능력에 대한 상세 분석 필요
후속 연구: 실제 인간형 로봇 플랫폼에서 sim-to-real 전이 기법 개발, 미지의 환경 유형 적응 능력 강화, 오류 감지 및 복구 메커니즘 통합

Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

총평: 본 논문은 장시간 혼란스러운 환경에서의 인간형 로봇 로코-조작이라는 도전적인 새로운 문제를 정의하고 이중 교사 증류 프레임워크로 효과적으로 해결하며, 350개 다양한 장면의 종합 벤치마크를 제공하여 로봇 일반화 연구에 의미 있는 기여를 한다.