Learning Humanoid Navigation from Human Data

Essence

Fig. 2. Overview of the proposed method: A rolling buffer of 32 segmented

본 논문은 인간의 보행 데이터 5시간만을 활용하여 휴머노이드 로봇이 미지의 환경에서 자율적으로 내비게이션할 수 있는 EgoNav 시스템을 제안한다. 로봇 데이터 없이 순수 인간 데이터만으로 학습한 모델을 Unitree G1 휴머노이드에 제로샷 배포하여 실제 환경에서의 효과를 입증한다.

Motivation

Known: 기존 로봇 내비게이션 연구는 로봇 데이터 직접 수집이 필수였고, 인간 데이터 기반 접근은 로봇 데모 보충이 필요했으며, 시각 기반 예측은 제한된 시야각 또는 단일 궤적만 생성했다.
Gap: 인간 보행 데이터만으로 로봇 내비게이션으로 직접 전이되는 embodiment-agnostic 네비게이션 사전(prior)의 부재, 360° 장면 커버리지의 한계, 다중 모달 궤적 분포 생성의 미흡, 실시간 추론 속도 문제 등이 미해결 상태이다.
Why: 인간 보행 데이터는 저렴하고 확장 가능하면서 풍부한 내비게이션 상식을 포함하고 있으며, 로봇 데이터 수집 비용을 제거할 수 있어 휴머노이드 로봇의 실용적 배포에 중요하다.
Approach: 360° 파노라믹 visual memory(색상, 깊이, 의미론 정보 융합)와 frozen DINOv3 video features로 scene을 표현하고, 조건부 diffusion model이 과거 궤적과 시각 문맥에 조건화되어 다중 모달 미래 궤적 분포를 생성하며, hybrid DDIM–DDPM 샘플링으로 10 스텝 내에 실시간 추론을 달성한다.

Achievement

Fig. 1.

오프라인 평가: baseline 대비 충돌 회피 및 다중 모달 커버리지 우수성 입증 실제 배포: Unitree G1 휴머노이드에서 문열림 대기, 군중 회피, 유리벽 회피 등의 행동이 자동 학습되어 미지의 실내·외부 환경에서 제로샷 배포 성공 모델 공개: 학습된 모델과 데이터셋 공개 예정

How

Fig. 2. Overview of the proposed method: A rolling buffer of 32 segmented

360° 파노라믹 visual memory를 rolling buffer의 32 세그먼트화된 RGB 프레임과 정제된 깊이 프레임으로 구성하여 확장된 시야각 확보
DINOv3 ViT-S16 backbone으로 깊이 센서가 감지하지 못하는 유리벽, 동적 에이전트 등의 외관 특성 학습
Conditional diffusion model을 human walking data로 학습하여 본질적으로 다중 모달 궤적 분포 생성
Hybrid DDIM–DDPM 샘플링 스킴으로 이터러티브 denoising의 latency 극복
Receding-horizon controller로 예측 분포에서 경로 선택, latency 보정 및 모드 일관성 유지

Originality

Embodiment-agnostic navigation prior 개념으로 인간-로봇 전이 간극 해소
360° 파노라믹 시각 표현에 의미론 정보와 frozen foundation model features 결합한 혁신적 scene encoding
Diffusion model 기반 다중 모달 궤적 예측의 실시간 구현 (hybrid DDIM–DDPM)
순수 인간 데이터만으로 로봇 배포 달성한 최초 사례

Limitation & Further Study

기술적 한계: 5시간의 제한된 인간 데이터로 학습되어 극도로 복잡한 환경의 일반화 성능 미검증, hybrid 샘플링의 10 스텝이 여전히 실시간 요구사항을 완전히 충족하지 못할 가능성, visual memory의 메모리 효율성 미분석 후속 연구: 더 대규모 인간 데이터 확보 시 성능 향상 검증, 다양한 로봇 플랫폼으로의 전이 가능성 확인, 극한 날씨나 매우 혼잡한 환경에서의 견고성 평가

Evaluation

Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

총평: EgoNav는 인간 보행 데이터만으로 휴머노이드 로봇 내비게이션을 가능하게 하는 혁신적 접근을 제시하며, diffusion model 기반 다중 모달 궤적 생성과 실시간 추론의 결합, 실제 미지 환경에서의 제로샷 배포 성공은 로봇 내비게이션 분야에 상당한 기여를 한다. 다만 학습 데이터 규모와 극한 환경 견고성의 검증이 추가되면 더욱 강력한 논문이 될 수 있다.