From Language to Locomotion: Retargeting-free Humanoid Control via Motion Latent Guidance
์ ์: Zhe Li, Cheng Chi, Yangyang Wei, Boan Zhu, Yibo Peng, Tao Huang, Pengwei Wang, Zhongyuan Wang, Shanghang Zhang, Chang Xu | ๋ ์ง: 2025-10-17 | DOI: 10.48550/arXiv.2510.14952 📄 PDF
Essence
Figure 2: Overview of RoboGhost. We propose a two-stage approach: a motion latent is first generated, then a
RoboGhost๋ ์ธ์ด ์ง์๋ฅผ humanoid ๋ก๋ด์ ์คํ ๊ฐ๋ฅํ ๋์์ผ๋ก ์ง์ ๋ณํํ๋ retargeting-free ํ๋ ์์ํฌ๋ก, motion latent์ ์กฐ๊ฑด์ผ๋ก ํ๋ diffusion-based policy๋ฅผ ํตํด ๊ธฐ์กด์ ๋ค๋จ๊ณ ํ์ดํ๋ผ์ธ์ ๋์ ์ค๋ฅ์ ์ง์ฐ์ ์ ๊ฑฐํ๋ค.
Motivation
- Known: ๊ธฐ์กด language-guided humanoid ์ ์ด๋ text-to-motion ์์ฑ, ๋ก๋ด ํํ๋ก์ motion retargeting, physics-based controller๋ฅผ ์ด์ฉํ ์ถ์ ์ 3๋จ๊ณ ํ์ดํ๋ผ์ธ์ ์ฌ์ฉํ๋ฉฐ, ์ด๋ ๋์ ์ค๋ฅ, ๋์ ์ง์ฐ, ์ฝํ ์๋ฏธ-์ ์ด coupling์ ์ผ๊ธฐํ๋ค.
- Gap: ๊ธฐ์กด ํ์ดํ๋ผ์ธ์ ๋ช
์์ human motion ๋์ฝ๋ฉ๊ณผ retargeting์ ์์กดํ์ฌ fragileํ๊ณ ๋นํจ์จ์ ์ด๋ฉฐ, ๊ฐ ๋จ๊ณ๊ฐ ๋
๋ฆฝ์ ์ผ๋ก ์ต์ ํ๋์ด end-to-end ์ฑ๋ฅ์ด ์ ํ๋๋ค.
- Why: Real-time interactive humanoid ์ ์ด๋ ไฝๅปถ้ฒ์ ๋์ ์ ๋ขฐ์ฑ์ด ํ์์ด๋ฉฐ, language-guided ์ ์ด์ ์ค์ ๋ฐฐํฌ๋ฅผ ์ํด์๋ ์๋ฏธ์ ์๋๋ฅผ ์ ์งํ๋ฉด์ ์ง์ ์ ์ธ action ์์ฑ ๊ฒฝ๋ก๊ฐ ํ์ํ๋ค.
- Approach: Language-grounded motion latent์ semantic anchor๋ก ํ์ฉํ์ฌ diffusion policy๊ฐ noise๋ก๋ถํฐ ์ง์ executable action์ denoiseํ๋๋ก ํ๊ณ , causal transformer-diffusion hybrid ๊ตฌ์กฐ๋ก ์ฅ๊ธฐ์ coherence์ ์์ ์ฑ์ ๋์์ ํ๋ณดํ๋ค.
Achievement
Figure 1:
- ๋ฐฐํฌ ์ง์ฐ ๋จ์ถ: ๊ธฐ์กด 17.85์ด์์ 5.84์ด๋ก ๋จ์ถํ์ฌ 3๋ฐฐ ์ด์์ ์๋ ๊ฐ์
- ์ฑ๊ณต๋ฅ ๋ฐ ์ถ์ ์ ํ๋ ํฅ์: retargeting ์์ค ํํผ๋ก 5% ๋์ ์ฑ๊ณต๋ฅ ๊ณผ ๊ฐ์๋ ์ถ์ ์ค๋ฅ ๋ฌ์ฑ
- ์ค์ humanoid ๊ฒ์ฆ: Unitree G1 ๋ฑ ์ค์ ๋ก๋ด์์ smoothํ๊ณ ์๋ฏธ์ ๋ถํฉํ๋ locomotion ์ค์ฆ
- ๋ฉํฐ๋ชจ๋ฌ ํ์ฅ์ฑ: text ์ธ image, audio, music ๋ฑ ๋ค์ํ input modality ์ง์ ๊ฐ๋ฅํ ๋ฒ์ฉ ํ๋ ์์ํฌ
How
Figure 2: Overview of RoboGhost. We propose a two-stage approach: a motion latent is first generated, then a
- Motion generator: Continuous autoregressive ๋ชจ๋ธ๊ณผ causal autoencoder๋ฅผ ๊ฒฐํฉํ์ฌ text๋ก๋ถํฐ compact motion latent lref ์์ฑ
- Teacher policy: MoE(Mixture of Experts) ๊ธฐ๋ฐ oracle policy๋ฅผ RL๋ก ํ์ตํ์ฌ diverseํ๊ณ physically plausibleํ action ์์ฑ
- Student policy: Motion latent์ ์กฐ๊ฑด์ผ๋ก ํ๋ diffusion-based policy๋ฅผ ํ์ตํ์ฌ deployment cost ๊ฐ์
- Causal transformer-diffusion architecture: Transformer backbone์ผ๋ก long-horizon dependency ์บก์ฒ, diffusion component๋ก stochastic stability ์ ๊ณต
- DDIM-accelerated sampling: ๋น ๋ฅธ inference๋ฅผ ์ํด DDIM ์ฌ์ฉ์ผ๋ก ์ค์๊ฐ ๋ฐฐํฌ ๊ฐ๋ฅ
Originality
- ์ฒ์์ผ๋ก motion latent ์กฐ๊ฑด์ diffusion-based humanoid policy ์ ์ - ๊ธฐ์กด discrete token์ด๋ explicit motion tracking๊ณผ ๋๋น๋๋ ์๋ก์ด ํจ๋ฌ๋ค์
- Retargeting-free ์ ๊ทผ๋ฒ - motion decoding๊ณผ kinematic retargeting ๋จ๊ณ๋ฅผ ์์ ํ ์ ๊ฑฐํ๋ ๊ทผ๋ณธ์ ์ธ ํ์ดํ๋ผ์ธ ์ฌ์ค๊ณ
- Causal transformer-diffusion hybrid ์ํคํ
์ฒ - long-horizon coherence์ stochastic stability๋ฅผ unifiedํ๋ ์๋ก์ด motion generator ์ค๊ณ
- End-to-end latent-driven RL framework - MoE teacher์ diffusion student๋ฅผ ํ์ฉํ ์๋ก์ด policy distillation ๋ฐฉ์
Limitation & Further Study
- Motion latent์ ํด์์ฑ ๋ถ์กฑ - latent space์ ์๋ฏธ์ ๊ตฌ์กฐ๋ ์ ์ด ๊ฐ๋ฅ์ฑ์ ๋ํ ๋ถ์ ๋ถ์ฌ
- Scale ์ ํ - ์คํ์ด ์ฃผ๋ก locomotion task์ ์ง์ค๋์ด whole-body manipulation์ด๋ ๋ณต์กํ ์ํธ์์ฉ ๋์์ ๊ฒ์ฆ ๋ถ์กฑ
- Generalization ํ๊ฐ ๋ฏธํก - ๋ณด์ด์ง ์์ instruction์ด๋ robot morphology ๋ณํ์ ๋ํ ์ผ๋ฐํ ์ฑ๋ฅ ๋ถ์ ์ ํ์
- ๋ฉํฐ๋ชจ๋ฌ ํ์ฅ์ ๊ตฌ์ฒด์ ๊ตฌํ ๋ถ์ฌ - audio/music input์ ์ค์ ๊ตฌํ ๋ฐ ํ๊ฐ๋ ์ ์๋์ง ์์
- ํ์ ์ฐ๊ตฌ ๋ฐฉํฅ: (1) Motion latent ํด์์ฑ ํฅ์, (2) ๋ณต์กํ manipulation task ํ์ฅ, (3) ๋ค์ํ humanoid ํํ๋ก์ ์ผ๋ฐํ, (4) Sim-to-real gap ๋ถ์
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: RoboGhost๋ language-guided humanoid ์ ์ด์ ๊ทผ๋ณธ์ ์ธ ํ์ดํ๋ผ์ธ ์ฌ์ค๊ณ๋ฅผ ํตํด ๊ธฐ์กด์ ๋ค๋จ๊ณ ์ ๊ทผ์ ํ๊ณ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํด๊ฒฐํ๋ฉฐ, ์ค์ ๋ก๋ด ๋ฐฐํฌ์์ ์ฐ์ํ ์ฑ๋ฅ์ ์
์ฆํ ๋งค์ฐ ์ํฅ๋ ฅ ์๋ ์ฐ๊ตฌ์ด๋ค. ๋ค๋ง ํด์์ฑ ๊ฐํ์ ๋ณต์กํ task๋ก์ ํ์ฅ์ด ํ์ ๊ณผ์ ๋ก ๋จ์์๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์