Harmon: Whole-Body Motion Generation of Humanoid Robots from Language Descriptions

Essence

Fig. 2 depicts our proposed method, HARMON. Firstly, we generate human motion based on the

인간 모션 데이터셋으로부터 사전학습된 프라이어를 활용하고 Vision Language Model을 통해 손가락과 머리 모션을 생성·편집하여 휴머노이드 로봇의 자연스러운 전신 모션을 언어 설명으로부터 생성한다.

Known: 휴머노이드 로봇은 인간과의 공존을 위해 자연언어 이해와 인간과 유사한 행동이 필요하며, 대규모 인간 모션 데이터셋과 diffusion model을 활용한 텍스트 기반 인간 모션 생성 기술이 발전했다.
Gap: 인간과 휴머노이드의 신체 구조 차이(손가락, 머리 모션 부재, 운동학적 제약)로 인해 직접적인 모션 재타겟팅만으로는 의미 손실이 발생하며, 언어 설명과의 정렬 문제가 존재한다.
Why: 휴머노이드 로봇이 인간 환경에 자연스럽게 통합되고 인간과 협력하기 위해서는 자연언어 지시로부터 표현력 있는 전신 모션을 생성하고 실행할 수 있어야 한다.
Approach: PhysDiff를 이용한 인간 모션 생성 → inverse kinematics 기반 재타겟팅 → VLM의 상식적 추론 능력을 활용한 손가락/머리 모션 생성 및 반복적 팔 모션 조정을 통해 언어 정렬도를 개선한다.

Figure 4: Quantitative results of human study. A higher normalized score indicates a better alignment

자연스러운 전신 모션 생성: PhysDiff의 인간 모션 프라이어와 VLM 기반 편집을 결합하여 자연스럽고 표현력 있는 휴머노이드 모션을 생성
높은 사용자 평가: 인간 평가 연구에서 생성된 모션이 86.7%의 테스트 케이스에서 우수한 것으로 평가됨
실제 로봇 검증: Fourier GR1 휴머노이드 로봇에서 생성된 모션을 성공적으로 실행하여 시뮬레이션과 실제 환경 간 전이 가능성 입증

Fig. 2 depicts our proposed method, HARMON. Firstly, we generate human motion based on the

Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

총평: 이 논문은 인간 모션 프라이어와 VLM의 상식적 추론을 창의적으로 결합하여 언어로부터 자연스러운 휴머노이드 모션을 생성하는 실용적인 방법을 제시하며, 실제 로봇 실험과 높은 사용자 평가로 그 유효성을 입증했다.