ULTRA: Unified Multimodal Control for Autonomous Humanoid Whole-Body Loco-Manipulation
์ ์: Xialin He, Sirui Xu, Xinyao Li, Runpei Dong, Liuyu Bian, Yu-Xiong Wang, Liang-Yan Gui | ๋ ์ง: 2026-03-03 | URL: https://arxiv.org/abs/2603.03279 📄 PDF
Essence
Fig. 1: ULTRA is an all-in-one controller for humanoid loco-manipulation that supports: Top. dense motion tracking
๋ฌผ๋ฆฌ ๊ธฐ๋ฐ ์ ๊ฒฝ retargeting๊ณผ unified multimodal controller๋ฅผ ๊ฒฐํฉํ์ฌ humanoid ๋ก๋ด์ด dense reference tracking๊ณผ sparse goal-conditioning์ ๋ชจ๋ ์ง์ํ๋ฉฐ, egocentric ์๊ฐ ์ธ์ง ๊ธฐ๋ฐ ์์จ์ ์ ์ loco-manipulation์ ์ํํ ์ ์๋ ํ๋ ์์ํฌ์ด๋ค.
Motivation
- Known: Humanoid ๋ก๋ด์ motion tracking ๊ธฐ์ ์ ๋ฐ์ ํ์ผ๋, kinematic retargeting์ ์ ์ด์ด ๋ง์ ์์
์์ ๋ฌผ๋ฆฌ์ ์ผ๊ด์ฑ์ ์ ์งํ์ง ๋ชปํ๊ณ , ๊ธฐ์กด ์ปจํธ๋กค๋ฌ๋ reference tracking ๋๋ goal-conditioning ์ค ํ๋์๋ง ํนํ๋์ด ์๋ค.
- Gap: ๋ฌผ๋ฆฌ์ ์ผ๋ก ์ผ๊ด์ฑ ์๋ ๋๊ท๋ชจ retargeting ๋ฐฉ๋ฒ์ ๋ถ์ฌ์ diverse ์กฐ๊ฑด ์ ํธ(dense reference, sparse goal, ๋ค์ํ ์ผ์ฑ ๋ชจ๋ฌ๋ฆฌํฐ)๋ฅผ ํ๋์ ํต์ผ๋ ์ ์ฑ
์ผ๋ก ์ฒ๋ฆฌํ๋ ์ํคํ
์ฒ์ ๋ถ์กฑ์ด ์ค์ ๋ฐฐํฌ ํ๊ฒฝ์์ ์์จ์ฑ์ ์ ํํ๋ค.
- Why: Humanoid ๋ก๋ด์ด ๋น์ ํ ํ๊ฒฝ์์ ์ค์ ๋ก ์ ์ฉํ๋ ค๋ฉด ์ ํด์ง reference ์์ด perception๊ณผ ๊ณ ์์ค ์์
๋ช
์ธ๋ก๋ถํฐ ํ๋์ ์์ฑํด์ผ ํ๋ฉฐ, ์ด๋ ํ์ฌ์ reference-tracking ์ค์ฌ ์ ๊ทผ๋ฒ์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๋ ๋ฐ ํ์์ ์ด๋ค.
- Approach: Physics-driven neural retargeting์ผ๋ก MoCap ๋ฐ์ดํฐ๋ฅผ humanoid embodiment์ ๋ฌผ๋ฆฌ์ ์ผ๋ก ํ๋นํ๊ฒ ์ ํํ๊ณ , ํต์ผ๋ multimodal controller๋ฅผ teacher-student distillation๊ณผ RL finetuning์ผ๋ก ํ์ตํ์ฌ dense reference์ sparse goal์ ๋ชจ๋ ์ง์ํ๋๋ก ํ๋ค.
Achievement
Fig. 1: ULTRA is an all-in-one controller for humanoid loco-manipulation that supports: Top. dense motion tracking
- Physics-driven neural retargeting: Simulation-constrained optimization๊ณผ RL์ ํตํด kinematic retargeting๋ณด๋ค contact-rich ์์
์์ ๋ฌผ๋ฆฌ์ ์ผ๊ด์ฑ์ ๋ณด์ฅํ๋ฉฐ ๋๊ท๋ชจ dataset์์ scalableํ๊ฒ ๋์
- Unified multimodal controller: Availability masking๊ณผ tokenization์ ํตํด ๋จ์ผ ์ ์ฑ
์ด dense reference tracking, sparse long-horizon goal following, blind/MoCap/depth perception ๋ฑ ๋ค์ํ ์กฐ๊ฑด๊ณผ ์ผ์ฑ ๋ชจ๋ฌ๋ฆฌํฐ๋ฅผ ์ผ๊ด๋๊ฒ ์ฒ๋ฆฌ
- Variational skill bottleneck: ๋ชจ์
์คํฌ์ compact latent space๋ก ์์ถํ์ฌ sparse goal ํ์์์ ๋ชจํธ์ฑ์ ํด๊ฒฐํ๊ณ coherent motion ์ ์ง
- Real-world validation: Unitree G1 humanoid์์ test-time reference ์์ด egocentric perception ๊ธฐ๋ฐ autonomous whole-body loco-manipulation ๋ฌ์ฑ, tracking-only baseline ๋ฅ๊ฐ
How
Fig. 2: ULTRA follows four stages: (i) Neural Retargeting: an RL policy converts MoCap data into physically feasible
- Stage 1 - Neural Retargeting: Retargeting policy๋ฅผ RL๋ก ํ์ตํ์ฌ kinematic constraint, dynamic constraint, contact constraint๋ฅผ ๋์์ ๋ง์กฑํ๋ physically feasible trajectory ์์ฑ
- Stage 2 - Zero-shot augmentation: ํ์ต๋ retargeting policy๋ฅผ ํ์ฉํ์ฌ object์ motion์ scale์ ๋ณํ์์ผ dataset ํ์ฅ
- Stage 3 - Teacher distillation: Privileged universal tracker๋ฅผ ํ์ตํ ํ, ์ด๋ฅผ teacher๋ก ์ผ์ diverse goal specification์ ์ง์ํ๋ student controller ํ์ต
- Stage 4 - RL finetuning: Variational skill bottleneck๊ณผ RL์ ํตํด out-of-distribution scenario์์์ robustness ์ฆ์ง ๋ฐ interaction-state coverage ํ์ฅ
- Availability masking: Reference modality์ goal specification์ด ๋ถ๋ถ์ ์ผ๋ก๋ง ์ ๊ณต๋ ๋๋ ์ ์ฑ
์ด ์์ ์ ์ผ๋ก ๋์ํ๋๋ก masking ์ ์ฉ
Originality
- Simulation-constrained optimization๊ณผ RL์ ํ์ฉํ scalable physics-driven retargeting ๋ฐฉ์์ด ๊ธฐ์กด์ per-trajectory ์ต์ ํ๋ kinematic ๋ฐฉ์๊ณผ ์ฐจ๋ณํ
- Single unified policy์์ dense reference tracking๊ณผ sparse goal-conditioning์ ๋ชจ๋ ์ง์ํ๋ multimodal control ์ํคํ
์ฒ์ ์ค๊ณ
- Availability masking์ ํตํด ๋ถ๋ถ์ ๋๋ ๋ณ๋ํ๋ ์กฐ๊ฑด ์ ํธ๋ฅผ ์ผ๊ด๋๊ฒ ์ฒ๋ฆฌํ๋ ๋ฉ์ปค๋์ฆ
- Teacher-student distillation ์ดํ RL finetuning์ผ๋ก closed-loop goal stabilization์ ์ ๋ํ๋ two-stage learning ํ๋ผ๋ค์
Limitation & Further Study
- Retargeting ์ฑ๋ฅ์ด source MoCap์ ํ์ง์ ์์กดํ๋ฉฐ, ๋งค์ฐ ๋๋ฌธ ๋๋ extreme ๋ชจ์
์ ๊ฒฝ์ฐ coverage ํ๊ณ ์กด์ฌ ๊ฐ๋ฅ
- Egocentric depth perception ๊ธฐ๋ฐ ๊ฐ์ฒด ์ํ ์ถ๋ก ์ ์ ํ๋ ํ๊ณ์ ์ด์ ๋ฐ๋ฅธ control ์ฑ๋ฅ ์ ํ ๊ฐ๋ฅ์ฑ
- RL finetuning์ computational cost์ real-world ํ์ต์ safety ๊ด๋ จ ๋ฌธ์ ๋ฏธ์ฒ๋ฆฌ
- ํ๊ฐ๊ฐ ์ฃผ๋ก single humanoid embodiment(Unitree G1)์ ํ์ ๋์ด ๋ค์ํ ํํ์ humanoid์์ generalization ๊ฒ์ฆ ๋ถ์กฑ
- ํ์ ์ฐ๊ตฌ๋ก ๋ค์ค ๊ฐ์ฒด manipulation, dynamic obstacles, long-horizon planning๊ณผ์ ํตํฉ, ๊ทธ๋ฆฌ๊ณ cross-embodiment generalization ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ์ด ๋
ผ๋ฌธ์ humanoid loco-manipulation์ ๋ ๊ฐ์ง ๊ทผ๋ณธ์ ์ธ ๋ณ๋ชฉ(๋ฌผ๋ฆฌ์ retargeting๊ณผ ํตํฉ ์ปจํธ๋กค)์ ์ฒด๊ณ์ ์ผ๋ก ํด๊ฒฐํ๋ฉฐ, physics-driven retargeting๊ณผ multimodal distillation์ ์กฐํฉ์ผ๋ก ์ค์ ๋ฐฐํฌ ํ๊ฒฝ์์์ ์์จ์ฑ์ ํฌ๊ฒ ํฅ์์ํจ๋ค. ํนํ unified framework๋ก diverse ์กฐ๊ฑด ์ ํธ๋ฅผ ์ฒ๋ฆฌํ๊ณ real-world ํ๊ฐ๋ฅผ ์ ์ํ ์ ์์ ํ์ ์ ๋ฐ ์ค์ฉ์ ์์๊ฐ ๋๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์