EgoHumanoid: Unlocking In-the-Wild Loco-Manipulation with Robot-Free Egocentric Demonstration
๐ง Audio Overview ์์ฑ
์ ์ : Modi Shi, Shijia Peng, Jin Chen, Haoran Jiang, Yinghui Li, Di Huang, Ping Luo, Hongyang Li, Li Chen | ๋ ์ง : 2026-02-10 | DOI : 10.48550/arXiv.2602.10106 📄 PDF
Essence
Fig. 1: Introducing EGOHUMANOID, the first investigation on human-to-humanoid transfer for whole-body loco-manipulation.
EgoHumanoid๋ ๋ก๋ด ์์ด ์์งํ ๋๊ท๋ชจ ์ธ๊ฐ egocentric ์์ฐ๊ณผ ์ ํ๋ ๋ก๋ด ๋ฐ์ดํฐ๋ฅผ co-trainํ์ฌ ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ด ๋ค์ํ ํ์ค ํ๊ฒฝ์์ loco-manipulation์ ์ํํ๋๋ก ํ๋ ์ฒซ ๋ฒ์งธ ํ๋ ์์ํฌ์ด๋ค. View alignment์ action alignment๋ก ๊ตฌ์ฑ๋ embodiment ์ ๋ ฌ ํ์ดํ๋ผ์ธ์ ํตํด ์ธ๊ฐ-๋ก๋ด ๊ฐ์ ์ ์ฒด ํํ, ๊ด์ , ๋์ญํ์ ์ฐจ์ด๋ฅผ ๊ทน๋ณตํ๋ค.
Motivation
Known : Robot teleoperation์ ํตํ ๋ฐ์ดํฐ ์์ง์ ๋์ ๋น์ฉ๊ณผ ๋ณต์ก์ฑ์ผ๋ก ์ธํด ์คํ์ค ํ๊ฒฝ์ ์ ํ๋๋ฉฐ, ์ต๊ทผ wearable sensing์ ํ์ฉํ egocentric human data๊ฐ ๋ก๋ด ํ์ต์ ์ํ ์ ๋งํ ๋์์ผ๋ก ๋ฑ์ฅํ๋ค. ๊ทธ๋ฌ๋ ๊ธฐ์กด ์ฐ๊ตฌ๋ ๊ณ ์ ๋ ํ ์กฐ์์๋ง ์ง์คํ๊ณ , ํด๋จธ๋
ธ์ด๋ loco-manipulation์ผ๋ก์ ํ์ฅ์ ๋ฏธํกํ๋ค.
Gap : ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ์ธ๊ฐ๊ณผ ์ ์ฒด ํํ, ์ด๋ํ, ๊ด์ฐฐ ๊ด์ ์ด ๋ณธ์ง์ ์ผ๋ก ๋ค๋ฅด๊ธฐ ๋๋ฌธ์ egocentric human demonstrations์ ์ง์ ์ ์ฉํ ์ ์์ผ๋ฉฐ, ์ด๋ฌํ embodiment gap์ ์ฒด๊ณ์ ์ผ๋ก ๋ค๋ฃจ๋ human-to-humanoid transfer ๋ฐฉ๋ฒ์ด ๋ถ์ฌํ๋ค.
Why : ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ๊ฐ์ ๋ณด์กฐ๋ถํฐ ์ผ์ธ ์๋น์ค๊น์ง ์ธ๊ฐ ์ค์ฌ ํ๊ฒฝ์์ ์๋ํด์ผ ํ๋ฏ๋ก, ๋ค์ํ ํ์ค ํ๊ฒฝ์์์ loco-manipulation ํ์ต์ด ์ค์ํ๋ค. ์ธ๊ฐ ๋ฐ์ดํฐ์ ํ๊ฒฝ์ ๋ค์์ฑ๊ณผ ํ์ฅ์ฑ์ ํ์ฉํ๋ฉด ๋ก๋ด ์ ์ฉ ๋ฐ์ดํฐ์ ๋ฐ์ดํฐ ๋ถ์กฑ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ณ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ํฅ์์ํฌ ์ ์๋ค.
Approach : Portable VR ๊ธฐ๋ฐ data collection ์์คํ
์ผ๋ก ์ธ๊ฐ egocentric ๋ฐ์ดํฐ์ teleoperated ๋ก๋ด ๋ฐ์ดํฐ๋ฅผ ๋ชจ๋ ์์งํ๊ณ , depth-based reprojection๊ณผ inpainting์ ํตํ view alignment, ๊ทธ๋ฆฌ๊ณ delta end-effector pose์ discrete locomotion command๋ก ํต์ผ๋ action space๋ฅผ ํ์ฉํ action alignment๋ฅผ ์ ์ํ๋ค.
Achievement
Fig. 5: Performance of human-robot data co-training with EGOHUMANOID. Our pipeline achieves unanimous improvements
Human-to-humanoid transfer์ ์ฒซ ์ค์ฆ : Egocentric human data์ co-training์ด humanoid loco-manipulation์ ํจ๊ณผ์ ์์ ์
์ฆํ๋ ์ฒซ ๋ฒ์งธ ์ฐ๊ตฌ
์ฑ๋ฅ ํฅ์ : Human data๋ฅผ ํฌํจํ co-training์ด robot-only baseline์ ํ๊ท 20% ํฅ์์ํค๊ณ , ๋ฏธ์ง์ ์ฅ๋ฉด์์๋ 51% ํฅ์์ ๋ฌ์ฑ
์ฒด๊ณ์ embodiment ์ ๋ ฌ ํ์ดํ๋ผ์ธ : View alignment์ action alignment๋ฅผ ํตํด ์ธ๊ฐ-๋ก๋ด ๊ฐ์ ์ ์ฒด ํํ, ๊ด์ , ๋์ญํ ์ฐจ์ด๋ฅผ ์ค์ง์ ์ผ๋ก ํด์
ํ์ฅ์ฑ ์
์ฆ : Human data์ scaling ํจ๊ณผ๋ฅผ ๋ถ์ํ์ฌ ๋ ๋ง์ ๋ฐ์ดํฐ ์์ง์ด ์ฑ๋ฅ ๊ฐ์ ์ผ๋ก ์ด์ด์ง์ ํ์ธ
ํ์ค ์ธ๊ณ ๊ฒ์ฆ : Unitree G1 humanoid๋ฅผ ์ด์ฉํ 4๊ฐ์ง indoor/outdoor loco-manipulation ์์
์์ ์ค์ ์ฑ๋ฅ ๊ฒ์ฆ
How
Fig. 3: Pipeline of human-to-humanoid alignment. (a) View Alignment: Egocentric images are transformed to approximate
Data collection system : VR headset, body tracker, egocentric camera๋ฅผ ํตํฉํ portable human data collection๊ณผ VR-based teleoperation์ ํตํ robot data collection
View alignment : Depth-based reprojection๊ณผ inpainting์ ์ด์ฉํ์ฌ human egocentric view๋ฅผ robot viewpoint๋ก ๋ณํ
Action alignment : Delta end-effector pose (์์ฒด ์ ์ด)์ discrete command (locomotion)๋ก ํต์ผ๋ action space ๊ตฌ์ฑ
Vision-language-action (VLA) co-training : ๋ ๋ฐ์ดํฐ ์์ค์ ์ ๋ ฌ๋ observation๊ณผ action์ผ๋ก joint policy ํ์ต
Ablation studies : Sub-task ๋ณ transfer ํจ๊ณผ, scaling behavior, alignment pipeline์ critical design choice ๊ฒ์ฆ
High-level behavior ์ถ์ถ : Low-level action์ embodiment ์ฐจ์ด์๋ ๋ถ๊ตฌํ๊ณ navigation route, object approach ์ ๋ต ๋ฑ์ ๊ณ ์์ค ํ๋ ์ ์ด
Originality
์ฒซ ๋ฒ์งธ humanoid loco-manipulation human-to-robot transfer : ๊ธฐ์กด human-to-robot ์ฐ๊ตฌ๊ฐ fixed-base manipulation์ด๋ navigation์๋ง ์ง์คํ ๊ฒ๊ณผ ๋ฌ๋ฆฌ, ๋ณตํฉ๋ whole-body loco-manipulation์ ์ฒ์ ์ ์ฉ
Embodiment gap ํด๊ฒฐ์ ์ฒด๊ณ์ฑ : Hardware design๋ถํฐ data processing๊น์ง ์์ฐ๋ฅด๋ ํตํฉ์ ์ ๋ ฌ ํ์ดํ๋ผ์ธ์ผ๋ก, ๋จ์ representation ํ์ต์ ๋์ด ๊ด์ -๋์ ๋ณํ์ ๋ช
์์ ์ผ๋ก ๋ค๋ฃธ
Co-training ํจ๋ฌ๋ค์ ํ์ฅ : ๊ธฐ์กด pretraining-then-finetuning์ ๋์ด aligned observation๊ณผ action์ ํตํ ์ง์ ์ co-training ๊ฐ๋ฅ์ฑ์ humanoid context์์ ์ฒ์ ์
์ฆ
Portable data collection infrastructure : Robot hardware ์์ด scalable human data ์์ง ๊ฐ๋ฅํ ์ค์ฉ์ ์์คํ
๊ฐ๋ฐ
Limitation & Further Study
View alignment์ ํ๊ณ : Depth-based reprojection๊ณผ inpainting์ ์์กดํ๋ฏ๋ก depth estimation ์ค๋ฅ๊ฐ ๋ณํ ํ์ง์ ์ ํํ ์ ์์
Action space์ ๋จ์ํ : Delta end-effector pose์ discrete locomotion command๋ก ํต์ผ๋ action space๊ฐ ์ธ๊ฐ ๋์์ ๋ฏธ๋ฌํ ๋ณํ(์: body sway, balance strategy)๋ฅผ ์ถฉ๋ถํ ํฌ์ฐฉํ์ง ๋ชปํ ๊ฐ๋ฅ์ฑ
Scaling behavior์ ์์ธ ๋ถ์ ๋ถ์กฑ : Human data์ scaling์ด ์ฑ๋ฅ ๊ฐ์ ์ผ๋ก ์ด์ด์ง์ ๋ณด์์ผ๋, optimal data composition๊ณผ ๋น์จ์ ๋ํ ์ฌ๋์๋ ๋ถ์ ํ์
Task ๋ค์์ฑ์ ์ ํ : 4๊ฐ์ง loco-manipulation task์์๋ง ํ๊ฐ๋์์ผ๋ฏ๋ก, ๋ณต์ก๋๊ฐ ๋๊ฑฐ๋ ๋งค์ฐ ์ด์ํ ์์
์ผ๋ก์ ์ผ๋ฐํ ๋ฏธ๊ฒ์ฆ
ํ์์ฐ๊ตฌ : (1) ๊ณ ๊ธ depth estimation ๋๋ generative model์ ํ์ฉํ view alignment ๊ฐ์ , (2) ์ธ๊ฐ body dynamics๋ฅผ ๋ ์ ํํ ๋ชจ๋ธ๋งํ๋ action alignment, (3) ๋ ๋ค์ํ humanoid ํ๋ซํผ๊ณผ task์ ๋ํ transfer ํ์ต, (4) Semantic-level behavior ์ถ์ถ์ ํตํ ๋ ๋์ ์์ค์ ์ง์ ์ ์ด
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ : EgoHumanoid๋ ํด๋จธ๋
ธ์ด๋ loco-manipulation ๋ถ์ผ์์ human egocentric data ํ์ฉ์ ์๋ก์ด ๊ฐ๋ฅ์ฑ์ ์ฒด๊ณ์ ์ผ๋ก ๋ณด์ฌ์ฃผ๋ ํ๊ธฐ์ ์ธ ์์
์ด๋ค. Practical embodiment alignment pipeline, ํ์ค ํ๊ฒฝ์์์ ๊ฐ๋ ฅํ ์ฑ๋ฅ ๊ฐ์ (51%), ๊ทธ๋ฆฌ๊ณ scalability ๋ถ์์ ํฅํ humanoid ๋ก๋ด ํ์ต์ ์ค์ํ ๋ฐฉํฅ์ ์ ์ํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
๋์ ์ฒญ์ค
์ผ๋ฐ์ธ
๋ํ์ยท๋ํ์์
์ ๋ฌธ๊ฐ
ํค
์น๊ทผํ
ํ์ ์
ํ๊ธฐ์ฐฌ
์ฃผ์์ (์ ํ)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์
๋ซ๊ธฐ
์์ฑ
Developed by Jehyun Lee, KIST AIX Strategy Department | jehyun.lee@gmail.com