HumanEgo: Zero-Shot Robot Learning from Minutes of Human Egocentric Videos

Essence

HumanEgo는 인간의 자아중심 영상(egocentric video)으로부터 로봇 조작 정책을 학습하는 프레임워크로서, Interaction-Centric Tokens(ICT)를 통해 구체화 격차(embodiment gap)를 해결하고 flow matching 정책과 조밀한 보조 목표들을 결합하여 30분의 인간 영상만으로 92.5% 성공률을 달성한다.

Motivation

Known: 기존 연구는 대규모 로봇 데이터를 필요로 하거나(teleoperation 기반), 막대한 계산량의 사전학습을 요구하는 대규모 모델 방식(generalist policies), 혹은 제한된 표현(point-tracking, object-centric)을 사용하는 방식으로 인간-로봇 간 기술 전이를 시도했다.
Gap: 기존 방법들은 손 또는 물체만을 개별적으로 표현하거나 매우 제한된 기하학적 정보만을 추출하여, 손-물체 상호작용이라는 조작의 핵심 신호를 놓쳤으며, 데이터 효율성 면에서도 희소한 감시 신호만을 활용했다.
Why: 인간 자아중심 영상은 저렴하고 접근성이 높은 대량의 조작 시연 자료를 제공하지만, 구체화 격차(시각적 외형 및 운동학)와 데이터 부족이라는 두 가지 본질적 도전이 있으므로, 이를 효율적으로 해결하는 것이 로봇 정책 학습의 접근성을 크게 높일 수 있다.
Approach: SAM2와 LaMa를 사용한 팔 inpainting으로 시각적 구체화 격차를 제거하고, 손과 물체의 6-DoF 포즈를 Interaction-Centric Tokens로 인코딩하여 구체화 및 시점 불변 공간 표현을 구성하며, flow matching 정책에 2D trace, object motion, latent consistency 세 가지 조밀한 보조 목표를 통해 데이터 효율성을 증대한다.

Achievement

Fig. 4: Overall Real-World Evaluation. Real-world success rate (%) for each method across

HumanEgo 프레임워크: 로봇 데이터 없이도 인간 자아중심 영상 30분(또는 15분)만으로 실제 환경에서 92.5%(또는 75%) 성공률 달성
Interaction-Centric Tokens(ICT): 구체화, 시점, 환경 불변의 콤팩트 손-물체 상호작용 표현
Zero-shot 전이: 새로운 로봇 구체화, 카메라 설정, 조명, 배경, 물체에 재학습 없이 전이 가능
성능 비교: 동일 수집 시간의 로봇 teleoperation보다 41% 우수한 성능

How

Fig. 2: System overview of HumanEgo. Arm inpainting and visual keypoints bridge the visual gap;

Aria 글래스로 자아중심 영상 수집(MPS 기반 6-DoF SLAM 및 3D 손 포즈 제공)
SAM2 기반 손/팔 분할 및 LaMa inpainting으로 구체화 제거
가상 gripper와 추적된 물체 keypoint 렌더링으로 암묵적 6D 포즈 인코딩
손과 물체의 SE(3) 포즈를 상대적 관계로 Interaction-Centric Tokens에 인코딩
Flow matching 정책 학습: 2D trace(시각적 궤적), object motion(물체 동역학), latent consistency(잠재 공간 일관성) 보조 목표

Originality

상호작용 중심 표현: 기존 손 중심 또는 물체 중심 방식과 달리, 손-물체 상호작용이라는 조작의 핵심 기하학을 명시적으로 모델링하는 새로운 표현
인공 gripper 렌더링: Aria MPS의 정보를 활용한 경량 시각적 구체화 해소 방식
조밀 보조 목표의 조합: 기존 연구가 단일 보조 목표(visual foresight 또는 2D tracking)를 사용한 반면, 세 가지 이질적 감시 신호를 결합하여 데이터 효율성 극대화

Limitation & Further Study

Aria 글래스의 고품질 MPS(6-DoF SLAM, 3D 손 포즈)에 의존하여 다른 저가 센서나 장비로의 확장성 제한
평가가 4가지 조작 작업에 국한되어 다양한 조작 형태(세밀한 manipulation, 양손 협력 등)에 대한 일반화 가능성 미검증
후속 연구: 저가 카메라 또는 모노큘러 설정에서의 학습 가능성, 더 복잡한 다단계 작업으로의 확장, 동역학 모델 통합을 통한 추론 성능 향상

Evaluation

Novelty: 4/5 Technical Soundness: 4/5 Significance: 5/5 Clarity: 4/5 Overall: 4/5

총평: HumanEgo는 인간 자아중심 영상으로부터 로봇 정책을 학습하는 문제에 명확한 해결책을 제시한다. Interaction-Centric Tokens를 통한 혁신적 표현과 조밀한 보조 감시의 조합은 기술적으로 타당하며, 30분 영상으로 92.5% 성공률과 zero-shot 전이 능력은 실용적 의의가 크다. 다만 Aria 센서 의존도와 제한된 작업 평가 범위가 일반화 가능성에 의문을 제기한다.