HumanEgo: Zero-Shot Robot Learning from Minutes of Human Egocentric Videos
์ ์: Zhi Wang, Botao He, Kelin Yu, Seungjae Lee, Ruohan Gao, Furong Huang, Yiannis Aloimonos | ๋ ์ง: 2026 | DOI: 10.48550/ARXIV.2605.24934 📄 PDF
Essence
HumanEgo๋ ์ธ๊ฐ์ ์์์ค์ฌ ์์(egocentric video)์ผ๋ก๋ถํฐ ๋ก๋ด ์กฐ์ ์ ์ฑ
์ ํ์ตํ๋ ํ๋ ์์ํฌ๋ก์, Interaction-Centric Tokens(ICT)๋ฅผ ํตํด ๊ตฌ์ฒดํ ๊ฒฉ์ฐจ(embodiment gap)๋ฅผ ํด๊ฒฐํ๊ณ flow matching ์ ์ฑ
๊ณผ ์กฐ๋ฐํ ๋ณด์กฐ ๋ชฉํ๋ค์ ๊ฒฐํฉํ์ฌ 30๋ถ์ ์ธ๊ฐ ์์๋ง์ผ๋ก 92.5% ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํ๋ค.
Motivation
- Known: ๊ธฐ์กด ์ฐ๊ตฌ๋ ๋๊ท๋ชจ ๋ก๋ด ๋ฐ์ดํฐ๋ฅผ ํ์๋ก ํ๊ฑฐ๋(teleoperation ๊ธฐ๋ฐ), ๋ง๋ํ ๊ณ์ฐ๋์ ์ฌ์ ํ์ต์ ์๊ตฌํ๋ ๋๊ท๋ชจ ๋ชจ๋ธ ๋ฐฉ์(generalist policies), ํน์ ์ ํ๋ ํํ(point-tracking, object-centric)์ ์ฌ์ฉํ๋ ๋ฐฉ์์ผ๋ก ์ธ๊ฐ-๋ก๋ด ๊ฐ ๊ธฐ์ ์ ์ด๋ฅผ ์๋ํ๋ค.
- Gap: ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ์ ๋๋ ๋ฌผ์ฒด๋ง์ ๊ฐ๋ณ์ ์ผ๋ก ํํํ๊ฑฐ๋ ๋งค์ฐ ์ ํ๋ ๊ธฐํํ์ ์ ๋ณด๋ง์ ์ถ์ถํ์ฌ, ์-๋ฌผ์ฒด ์ํธ์์ฉ์ด๋ผ๋ ์กฐ์์ ํต์ฌ ์ ํธ๋ฅผ ๋์ณค์ผ๋ฉฐ, ๋ฐ์ดํฐ ํจ์จ์ฑ ๋ฉด์์๋ ํฌ์ํ ๊ฐ์ ์ ํธ๋ง์ ํ์ฉํ๋ค.
- Why: ์ธ๊ฐ ์์์ค์ฌ ์์์ ์ ๋ ดํ๊ณ ์ ๊ทผ์ฑ์ด ๋์ ๋๋์ ์กฐ์ ์์ฐ ์๋ฃ๋ฅผ ์ ๊ณตํ์ง๋ง, ๊ตฌ์ฒดํ ๊ฒฉ์ฐจ(์๊ฐ์ ์ธํ ๋ฐ ์ด๋ํ)์ ๋ฐ์ดํฐ ๋ถ์กฑ์ด๋ผ๋ ๋ ๊ฐ์ง ๋ณธ์ง์ ๋์ ์ด ์์ผ๋ฏ๋ก, ์ด๋ฅผ ํจ์จ์ ์ผ๋ก ํด๊ฒฐํ๋ ๊ฒ์ด ๋ก๋ด ์ ์ฑ
ํ์ต์ ์ ๊ทผ์ฑ์ ํฌ๊ฒ ๋์ผ ์ ์๋ค.
- Approach: SAM2์ LaMa๋ฅผ ์ฌ์ฉํ ํ inpainting์ผ๋ก ์๊ฐ์ ๊ตฌ์ฒดํ ๊ฒฉ์ฐจ๋ฅผ ์ ๊ฑฐํ๊ณ , ์๊ณผ ๋ฌผ์ฒด์ 6-DoF ํฌ์ฆ๋ฅผ Interaction-Centric Tokens๋ก ์ธ์ฝ๋ฉํ์ฌ ๊ตฌ์ฒดํ ๋ฐ ์์ ๋ถ๋ณ ๊ณต๊ฐ ํํ์ ๊ตฌ์ฑํ๋ฉฐ, flow matching ์ ์ฑ
์ 2D trace, object motion, latent consistency ์ธ ๊ฐ์ง ์กฐ๋ฐํ ๋ณด์กฐ ๋ชฉํ๋ฅผ ํตํด ๋ฐ์ดํฐ ํจ์จ์ฑ์ ์ฆ๋ํ๋ค.
Achievement
Fig. 4: Overall Real-World Evaluation. Real-world success rate (%) for each method across
- HumanEgo ํ๋ ์์ํฌ: ๋ก๋ด ๋ฐ์ดํฐ ์์ด๋ ์ธ๊ฐ ์์์ค์ฌ ์์ 30๋ถ(๋๋ 15๋ถ)๋ง์ผ๋ก ์ค์ ํ๊ฒฝ์์ 92.5%(๋๋ 75%) ์ฑ๊ณต๋ฅ ๋ฌ์ฑ
- Interaction-Centric Tokens(ICT): ๊ตฌ์ฒดํ, ์์ , ํ๊ฒฝ ๋ถ๋ณ์ ์ฝคํฉํธ ์-๋ฌผ์ฒด ์ํธ์์ฉ ํํ
- Zero-shot ์ ์ด: ์๋ก์ด ๋ก๋ด ๊ตฌ์ฒดํ, ์นด๋ฉ๋ผ ์ค์ , ์กฐ๋ช
, ๋ฐฐ๊ฒฝ, ๋ฌผ์ฒด์ ์ฌํ์ต ์์ด ์ ์ด ๊ฐ๋ฅ
- ์ฑ๋ฅ ๋น๊ต: ๋์ผ ์์ง ์๊ฐ์ ๋ก๋ด teleoperation๋ณด๋ค 41% ์ฐ์ํ ์ฑ๋ฅ
How
Fig. 2: System overview of HumanEgo. Arm inpainting and visual keypoints bridge the visual gap;
- Aria ๊ธ๋์ค๋ก ์์์ค์ฌ ์์ ์์ง(MPS ๊ธฐ๋ฐ 6-DoF SLAM ๋ฐ 3D ์ ํฌ์ฆ ์ ๊ณต)
- SAM2 ๊ธฐ๋ฐ ์/ํ ๋ถํ ๋ฐ LaMa inpainting์ผ๋ก ๊ตฌ์ฒดํ ์ ๊ฑฐ
- ๊ฐ์ gripper์ ์ถ์ ๋ ๋ฌผ์ฒด keypoint ๋ ๋๋ง์ผ๋ก ์๋ฌต์ 6D ํฌ์ฆ ์ธ์ฝ๋ฉ
- ์๊ณผ ๋ฌผ์ฒด์ SE(3) ํฌ์ฆ๋ฅผ ์๋์ ๊ด๊ณ๋ก Interaction-Centric Tokens์ ์ธ์ฝ๋ฉ
- Flow matching ์ ์ฑ
ํ์ต: 2D trace(์๊ฐ์ ๊ถค์ ), object motion(๋ฌผ์ฒด ๋์ญํ), latent consistency(์ ์ฌ ๊ณต๊ฐ ์ผ๊ด์ฑ) ๋ณด์กฐ ๋ชฉํ
Originality
- ์ํธ์์ฉ ์ค์ฌ ํํ: ๊ธฐ์กด ์ ์ค์ฌ ๋๋ ๋ฌผ์ฒด ์ค์ฌ ๋ฐฉ์๊ณผ ๋ฌ๋ฆฌ, ์-๋ฌผ์ฒด ์ํธ์์ฉ์ด๋ผ๋ ์กฐ์์ ํต์ฌ ๊ธฐํํ์ ๋ช
์์ ์ผ๋ก ๋ชจ๋ธ๋งํ๋ ์๋ก์ด ํํ
- ์ธ๊ณต gripper ๋ ๋๋ง: Aria MPS์ ์ ๋ณด๋ฅผ ํ์ฉํ ๊ฒฝ๋ ์๊ฐ์ ๊ตฌ์ฒดํ ํด์ ๋ฐฉ์
- ์กฐ๋ฐ ๋ณด์กฐ ๋ชฉํ์ ์กฐํฉ: ๊ธฐ์กด ์ฐ๊ตฌ๊ฐ ๋จ์ผ ๋ณด์กฐ ๋ชฉํ(visual foresight ๋๋ 2D tracking)๋ฅผ ์ฌ์ฉํ ๋ฐ๋ฉด, ์ธ ๊ฐ์ง ์ด์ง์ ๊ฐ์ ์ ํธ๋ฅผ ๊ฒฐํฉํ์ฌ ๋ฐ์ดํฐ ํจ์จ์ฑ ๊ทน๋ํ
Limitation & Further Study
- Aria ๊ธ๋์ค์ ๊ณ ํ์ง MPS(6-DoF SLAM, 3D ์ ํฌ์ฆ)์ ์์กดํ์ฌ ๋ค๋ฅธ ์ ๊ฐ ์ผ์๋ ์ฅ๋น๋ก์ ํ์ฅ์ฑ ์ ํ
- ํ๊ฐ๊ฐ 4๊ฐ์ง ์กฐ์ ์์
์ ๊ตญํ๋์ด ๋ค์ํ ์กฐ์ ํํ(์ธ๋ฐํ manipulation, ์์ ํ๋ ฅ ๋ฑ)์ ๋ํ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ ๋ฏธ๊ฒ์ฆ
- ํ์ ์ฐ๊ตฌ: ์ ๊ฐ ์นด๋ฉ๋ผ ๋๋ ๋ชจ๋
ธํ๋ฌ ์ค์ ์์์ ํ์ต ๊ฐ๋ฅ์ฑ, ๋ ๋ณต์กํ ๋ค๋จ๊ณ ์์
์ผ๋ก์ ํ์ฅ, ๋์ญํ ๋ชจ๋ธ ํตํฉ์ ํตํ ์ถ๋ก ์ฑ๋ฅ ํฅ์
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 5/5 Clarity: 4/5 Overall: 4/5
์ดํ: HumanEgo๋ ์ธ๊ฐ ์์์ค์ฌ ์์์ผ๋ก๋ถํฐ ๋ก๋ด ์ ์ฑ
์ ํ์ตํ๋ ๋ฌธ์ ์ ๋ช
ํํ ํด๊ฒฐ์ฑ
์ ์ ์ํ๋ค. Interaction-Centric Tokens๋ฅผ ํตํ ํ์ ์ ํํ๊ณผ ์กฐ๋ฐํ ๋ณด์กฐ ๊ฐ์์ ์กฐํฉ์ ๊ธฐ์ ์ ์ผ๋ก ํ๋นํ๋ฉฐ, 30๋ถ ์์์ผ๋ก 92.5% ์ฑ๊ณต๋ฅ ๊ณผ zero-shot ์ ์ด ๋ฅ๋ ฅ์ ์ค์ฉ์ ์์๊ฐ ํฌ๋ค. ๋ค๋ง Aria ์ผ์ ์์กด๋์ ์ ํ๋ ์์
ํ๊ฐ ๋ฒ์๊ฐ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ์ ์๋ฌธ์ ์ ๊ธฐํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์