HDMI: Learning Interactive Humanoid Whole-Body Control from Human Videos
์ ์: Haoyang Weng, Yitang Li, Nikhil Sobanbabu, Zihan Wang, Zhengyi Luo, Tairan He, Deva Ramanan, Guanya Shi | ๋ ์ง: 2025-09-27 | DOI: 10.48550/arXiv.2509.16757 📄 PDF
Essence
Fig. 2: HDMI is a general framework for interactive skill learning. Monocular RGB videos are processed into a structured
HDMI๋ ๋จ์ผ ๋ชจ๋
ธํ๋ฌ RGB ๋น๋์ค์์ ์ธ๊ฐ์ ์ํธ์์ฉ์ ์ถ์ถํ์ฌ ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ด ๋ฌผ์ฒด์์ ์ ์ ์ํธ์์ฉ ๊ธฐ์ ์ ํ์ตํ๋ ํ๋ ์์ํฌ์ด๋ค. Robot-object co-tracking์ ํตํด ๊ฐํํ์ต ์ ์ฑ
์ ํ๋ จํ๊ณ ์ค์ ๋ก๋ด์ ์ ๋ก์ท ๋ฐฐํฌํ๋ค.
Motivation
- Known: ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ์์ ๊ณต๊ฐ ๋ก์ฝ๋ชจ์
๊ณผ ์กฐ์ ์์
์์ ๋
๋ฆฝ์ ์ผ๋ก ์ฑ๊ณต์ ๋ณด์์ผ๋, ์ ์ด์ด ๋ง์ ์ ์ ์ํธ์์ฉ ์์
์ ์๋์ ์ผ๋ก ์ ํ์ ์ด๋ค. ์ธ๊ฐ ๋น๋์ค๋ก๋ถํฐ์ ํ์ต์ ๋ก์ฝ๋ชจ์
์์๋ ์ฑ๊ณตํ์ง๋ง ๋ฌผ์ฒด ์ํธ์์ฉ์ ๋ช
์์ ์ผ๋ก ๋ชจ๋ธ๋งํ์ง ๋ชปํ๋ค.
- Gap: ๊ธฐ์กด ์ธ๊ฐ-๋ฌผ์ฒด ์ํธ์์ฉ ํ์ต ๋ฐฉ๋ฒ์ ์์
๋ณ motion reference ์์ฑ ํ์ดํ๋ผ์ธ์ด๋ ์๋ ๋ณด์ ์์ง๋์ด๋ง์ ์์กดํ์ฌ ์ผ๋ฐ์ฑ์ด ์ ํ์ ์ด๋ค. ์ ์ ์ํธ์์ฉ ํ์ต์ ๋ถ์ ํํ motion reference ํ์์ ์ ์ด ๋์์ ์ ๋ํ๊ณ ๋์ ์ ์ธ ์์ธ์์ ๊ท ํ์ ์ ์งํด์ผ ํ๋ ์๋ก์ด RL ํ๋ จ ๊ณผ์ ๋ฅผ ์ ์ํ๋ค.
- Why: ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ด ์ธ๊ฐ ํ๊ฒฝ์์ ๊ด๋ฒ์ํ ์์
์ ์ํํ๋ ค๋ฉด ๋ฌผ์ฒด์์ robustํ ์ ์ ์ํธ์์ฉ์ด ํ์์ ์ด๋ฉฐ, ํ๋ถํ ์ธ๊ฐ ๋น๋์ค ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ์ฌ ํ์ฅ ๊ฐ๋ฅํ๊ณ ์ผ๋ฐํ ๊ฐ๋ฅํ ํ์ต ํ๋ ์์ํฌ๋ฅผ ๊ตฌ์ถํ๋ ๊ฒ์ด ์ค์ํ๋ค.
- Approach: HDMI๋ (i) ํฌ์ฆ ์ถ์ ๋ฐ retargeting์ผ๋ก ๋น๋์ค์์ ์ธ๊ฐ๊ณผ ๋ฌผ์ฒด ๊ถค์ ์ ์ถ์ถํ์ฌ ๊ตฌ์กฐํ๋ ๋ฐ์ดํฐ์
๊ตฌ์ถ, (ii) unified object representation, residual action space, general interaction reward๋ฅผ ํฌํจํ RL ์ ์ฑ
ํ๋ จ, (iii) ์ค์ ํด๋จธ๋
ธ์ด๋์ ํ์ต๋ ์ ์ฑ
๋ฐฐํฌ์ ์ธ ๋จ๊ณ๋ก ๊ตฌ์ฑ๋๋ค.
Achievement
Fig. 1: HDMI enables humanoid robots to acquire diverse whole-body interaction skills directly from human videos. (a)
- ์ผ๋ฐ์ฑ: ์/๋ฐ ์ํธ์์ฉ, ๊ฐ์ฒด/๊ด์ ๋ฌผ์ฒด(๊ณ ์ /๋ถ์ ๊ธฐ๋ฐ) ๋ฑ ๋ค์ํ ์ํธ์์ฉ ์ ํ์ ํ๋์ ํ๋ ์์ํฌ๋ก ์ฒ๋ฆฌ
- ์ค์ ๋ก๋ด ์ฑ๋ฅ: Unitree G1์์ 67ํ ์ฐ์ ๋ฌธ ๊ฐํ ๋ฐ ํต๊ณผ, 6๊ฐ์ง ๊ตฌ๋ณ๋๋ ๋ก์ฝ-์กฐ์ ์์
์ฑ๊ณต
- ์๋ฎฌ๋ ์ด์
์ฑ๋ฅ: ์ด 14๊ฐ์ง ์์
์ ์๋ฎฌ๋ ์ด์
์์ ์ฑ๊ณต์ ์ผ๋ก ์ํ
- ์ฒซ ์ฑ๊ณผ: ์ธ๊ฐ ๋น๋์ค๋ก๋ถํฐ ์ง์ ํ์ตํ๋ ์ผ๋ฐ์ ์ธ ์ ์ ํด๋จธ๋
ธ์ด๋-๋ฌผ์ฒด ์ํธ์์ฉ ํ๋ ์์ํฌ์ ์ฒซ ์ฌ๋ก
How
Fig. 2: HDMI is a general framework for interactive skill learning. Monocular RGB videos are processed into a structured
- Video Processing: GVHMR์ LocoMujoco๋ฅผ ์ฌ์ฉํ์ฌ SMPL ํฌ์ฆ ์ถ์ ๋ฐ retargeting์ผ๋ก ์ธ๊ฐ ๋ฐ ๋ฌผ์ฒด ๊ถค์ ์ถ์ถ
- Reference Dataset: ๊ฐ ํ๋ ์์์ ๋ก๋ด๊ณผ ๋ฌผ์ฒด์ ์ํ, ๊ด์ ์์น, ๋ฌผ์ฒด์ ์์น/๋ฐฉํฅ, ๊ด์ ์ํ(๊ด์ ํ ๋ฌผ์ฒด) ๋ฐ ์ด์ง ์ ์ด ์ ํธ๋ก ๊ตฌ์ฑ๋ ๊ตฌ์กฐํ๋ reference motion ์์ฑ
- Unified Object Representation: ๋ค์ํ ๋ฌผ์ฒด์ ๊ธฐํํ๊ณผ ์ ํ์ ๋์ํ๊ธฐ ์ํด ๋ฌผ์ฒด ์ค์ฌ ํ๋ ์์ point clouds ๋ฐ keypoints ์ถ์ถ
- Residual Action Space: reference joint position์ ๋ํ ์์ฐจ ๋์์ผ๋ก ํ์ ๊ณต๊ฐ์ ์ ํํ์ฌ ๋์ ์ ์ธ ์์ธ์์ ์์ ์ ์ธ ํ์ต
- Interaction Reward Design: contact point tracking, contact establishment ๋จ๊ณ๋ณ ๋ณด์, ๋ฌผ์ฒด ๊ถค์ ์ถ์ ๋ฑ์ ํฌํจํ ํตํฉ ๋ณด์์ผ๋ก ๋ถ์ ํํ reference์์๋ robustํ ์ ์ด
- RL Training: DeepMimic ์คํ์ผ์ ํ๋ จ์ผ๋ก reference state ์ด๊ธฐํ, phase variable ์ ๊ณต, tracking error ๊ธฐ๋ฐ ์ํผ์๋ ์ข
๋ฃ, PPO ์ต์ ํ ์ํ
- Zero-Shot Deployment: ์๋ฎฌ๋ ์ด์
์์ ํ๋ จ๋ ์ ์ฑ
์ ์ถ๊ฐ fine-tuning ์์ด ์ค์ Unitree G1 ๋ก๋ด์ ์ง์ ๋ฐฐํฌ
Originality
- ๋ชจ๋
ธํ๋ฌ RGB ๋น๋์ค์์ ์ธ๊ฐ-๋ฌผ์ฒด ์ํธ์์ฉ์ ์ถ์ถํ์ฌ ํด๋จธ๋
ธ์ด๋ ์ ์ ์ํธ์์ฉ ํ์ต์ ์ง์ ํ์ฉํ๋ ์ต์ด์ ์ผ๋ฐ ํ๋ ์์ํฌ ์ ์
- Robot-object co-tracking ๋ฌธ์ ๋ก ์ค์ ํ์ฌ ์์
๋ณ ๋ณด์ ์์ง๋์ด๋ง์ ํํผํ๋ ์๋ก์ด ๊ด์ ๋์
- ๋ค์ํ ๋ฌผ์ฒด ๊ธฐํํ๊ณผ ์ํธ์์ฉ ์ ํ์ ์ฒ๋ฆฌํ๊ธฐ ์ํ unified object representation, residual action space, general interaction reward์ ์ธ ๊ฐ์ง targeted ์ปดํฌ๋ํธ ์ค๊ณ
Limitation & Further Study
- ํ์ฌ framework๋ ๋ชจ๋
ธํ๋ฌ RGB ๋น๋์ค์ ํฌ์ฆ ์ถ์ ์ ํ๋์ ์์กดํ๋ฏ๋ก, ๊ฐ๋ ค์ง ๋ถ๋ถ์ด๋ ๋ณต์กํ ์ธํฐ๋์
์์ ์ถ์ ์ค๋ฅ๊ฐ ๋ฐ์ํ ์ ์์
- Reference motion dataset ๊ตฌ์ถ์ ์ํ ์๋ annotate (ํนํ ์ ์ด ์ ํธ)๊ฐ ํ์ํ๋ฏ๋ก, ์์ ์๋ํ์ ํ์ฅ์ฑ ์ ์ฝ
- ์ค์ ํ๊ฒฝ์ ๋ณ๋์ฑ(๋ง์ฐฐ, ๋ฌผ์ฒด ๋ฌด๊ฒ, ํ๋ฉด ํน์ฑ ๋ฑ)์ ๋ํ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ์๋ฎฌ๋ ์ด์
๋๋ฉ์ธ ๋๋๋ง์ด์ ์ด์
์ ์์กดํ๋ฉฐ ์ถ๊ฐ ์ฐ๊ตฌ ํ์
- ๋ ๋ณต์กํ ์์ ์กฐ์์ด๋ ๋ค์ค ๋ฌผ์ฒด ์ํธ์์ฉ์ผ๋ก์ ํ์ฅ์ ์์ง ๊ฒ์ฆ๋์ง ์์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: HDMI๋ ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ์ ์ ๋ฌผ์ฒด ์ํธ์์ฉ์ ์ํ ์ผ๋ฐ์ ์ด๊ณ ์ค์ฉ์ ์ธ ํ๋ ์์ํฌ๋ก, ์ธ๊ฐ ๋น๋์ค ํ์ฉ์ด๋ผ๋ ํ์ฅ ๊ฐ๋ฅํ ๋ฐ์ดํฐ ์์ค์ ํจ๊ป robot-object co-tracking์ด๋ผ๋ ์ฐ์ํ ๋ฌธ์ ์ค์ ์ ํตํด ์ค์ ๋ก๋ด์์ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ๋ฌ์ฑํ์ผ๋ฉฐ, ํด๋จธ๋
ธ์ด๋ ๋ก๋ณดํฑ์ค ๋ถ์ผ์ ์๋ฏธ ์๋ ๊ธฐ์ฌ๋ฅผ ํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์