Do You Have Freestyle? Expressive Humanoid Locomotion via Audio Control
์ ์: Zhe Li, Cheng Chi, Yangyang Wei, Boan Zhu, Tao Huang, Zhenguo Sun, Yibo Peng, Pengwei Wang, Zhongyuan Wang, Fangzhou Liu, Chang Xu, Shanghang Zhang | ๋ ์ง: 2025-12-29 | URL: https://arxiv.org/abs/2512.23650 📄 PDF
Essence
Figure 1.
RoboPerform์ ์ค๋์ค๋ฅผ ์ง์ ์ ์ด ์ ํธ๋ก ์ฌ์ฉํ์ฌ ์์
์ ๋ง์ถฐ ์ถค์ ์ถ๊ฑฐ๋ ์์ฑ์ ๋ง์ถฐ ์ ์ค์ฒ๋ฅผ ์์ฑํ๋ ํด๋จธ๋
ธ์ด๋ ๋ก๋ด ์ ์ด ํ๋ ์์ํฌ๋ก, ๋ช
์์ ๋ชจ์
์ฌ๊ตฌ์ฑ์ ์ ๊ฑฐํ์ฌ ์ ์ง์ฐ ๋ฐ ๊ณ ์ถฉ์ค๋๋ฅผ ๋ฌ์ฑํ๋ค.
Motivation
- Known: ๊ธฐ์กด ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ์ฌ์ ์ ์๋ ๋ชจ์
์ด๋ ํฌ์ํ ํ
์คํธ ๋ช
๋ น์ผ๋ก๋ง ์ ์ด๋๋ฉฐ, ์ค๋์ค-๋ชจ์
์์ฑ ํ retargeting ํ์ดํ๋ผ์ธ์ cascaded error, ๋์ ์ง์ฐ์๊ฐ, ๋์จํ ์ํฅ-๊ตฌ๋ ๋งคํ์ ์ผ๊ธฐํ๋ค.
- Gap: ์ค๋์ค๋ฅผ implicit style ์ ํธ๋ก ์ง์ ํ์ฉํ์ฌ ํตํฉ๋ ๋ชจ์
์์ฑ์ ํ๋ unified framework์ด ์์ผ๋ฉฐ, retargeting ์์ด ์ค์๊ฐ ์ค๋์ค-๋ชจ์
์ ๋ ฌ์ ๋ฌ์ฑํ๋ ๋ฐฉ๋ฒ์ด ๋ถ์กฑํ๋ค.
- Why: ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ด ์์
๋ฐ ์์ฑ๊ณผ ๊ฐ์ ๋ฆฌ์นํ ์ค๋์ค ์ ํธ์ ๋ฐ์ํ๋ ํํ๋ ฅ ์๋ ์ฑ๋ฅ์ ์ํํ ์ ์๋ค๋ฉด ์ธ๊ฐ-๋ก๋ด ์ํธ์์ฉ์ ์์ฐ์ค๋ฌ์๊ณผ ๋ชฐ์
๊ฐ์ด ํฌ๊ฒ ํฅ์๋ ์ ์๋ค.
- Approach: motion = content + style ์์น์ผ๋ก ์ค๋์ค๋ฅผ implicit style signal๋ก ์ธ์ฝ๋ฉํ๊ณ , ฮMoE teacher policy์ diffusion-based student policy๋ฅผ ํตํด content latent์ audio-driven style latent๋ฅผ ๋ถ๋ฆฌํ์ฌ ์ง์ ๋ชจ์
์ ์์ฑํ๋ค.
Achievement
Figure 2. Overview of RoboPerform. We propose a two-stage approach: train an adaptor to inject kinematic information int
- First unified audio-to-locomotion framework: ์ค๋์ค๋ฅผ ์์์ ์ ์ด ์ ํธ๋ก ํ์ฉํ๋ ์ฒซ ๋ฒ์งธ ํตํฉ ํ๋ ์์ํฌ๋ก, ์์
-์ถค๊ณผ ์์ฑ-์ ์ค์ฒ ์์ชฝ ์์
์ ์ง์ํ๋ค.
- ฮMoE ๊ต์ฌ ์ ์ฑ
: Residual mixture-of-experts ์ํคํ
์ฒ๋ก ๋ค์ํ ๋ชจ์
ํจํด์ ํนํ๋ ์ ๋ฌธ๊ฐ๋ค์ด ์ฒ๋ฆฌํ๋ฉฐ, ๋์ ๊ฐ์ค์น ์กฐ์ ์ ํตํด ๊ฒฌ๊ณ ํ ๋ชจ์
์ถ์ ์ ์คํํ๋ค.
- Retargeting-free ์ค๊ณ: ๋ช
์์ ๋ชจ์
์ฌ๊ตฌ์ฑ์ ์ ๊ฑฐํ์ฌ cascaded error๋ฅผ ์ ๊ฑฐํ๊ณ , ์ง์ฐ์๊ฐ์ ํฌ๊ฒ ๊ฐ์์ํค๋ฉฐ, ์ค์๊ฐ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ค.
- ๋ฌผ๋ฆฌ์ ํ๋น์ฑ๊ณผ ์ค๋์ค ์ ๋ ฌ: ๊ด๋ฒ์ํ ์คํ์ ํตํด ๋ฌผ๋ฆฌ์ ์ผ๋ก ๊ทธ๋ด๋ฏํ ๋ชจ์
๊ณผ ๋์ ์ค๋์ค ์๊ฐ ์ ๋ ฌ์ ๋์์ ๋ฌ์ฑํจ์ ์
์ฆํ๋ค.
How
Figure 2. Overview of RoboPerform. We propose a two-stage approach: train an adaptor to inject kinematic information int
- Audio-motion alignment: InfoNCE loss๋ฅผ ์ฌ์ฉํ์ฌ temporal attention augmented adaptor๋ก raw audio latents๋ฅผ motion latents์ ์ ๋ ฌ
- ฮMoE teacher policy: 3D conditional inputs๋ฅผ 4๊ฐ์ nested subspaces๋ก ๋ถํ ํ๊ณ gating network๋ก residual fusion์ ํตํด ๋์ ๊ฐ์ค์น ์กฐ์
- Content-style decomposition: Text-to-motion model์์ ์ถ์ถํ high-level content latent์ audio-driven style latent๋ฅผ ๋ถ๋ฆฌ
- Diffusion-based student policy: Content latent์ temporally-aligned style latent๋ก guided denoising์ ํตํด executable actions ์์ฑ
- Knowledge distillation: Teacher policy์ ์ง์์ student policy์ ์ฆ๋ฅํ์ฌ ํจ์จ์ฑ๊ณผ ์ฑ๋ฅ ๊ท ํ
Originality
- ์ค๋์ค๋ฅผ ์ฒซ ๋ฒ์งธ implicit control modality๋ก ํ์ฉํ๋ novel perspective๋ก, ๊ธฐ์กด language-guided๋ motion-replay ํจ๋ฌ๋ค์์์ ๋ฒ์ด๋จ
- Motion decomposition (content + style)์ ํตํ ์๋ก์ด latent-driven framework๋ก, retargeting-free ์ค๊ณ๋ฅผ ์ฒ์์ผ๋ก audio-driven locomotion์ ์ ์ฉ
- ฮMoE์ residual fusion ๊ตฌ์กฐ๋ก ๊ธฐ์กด orthogonal MoE์ ์ฐจ๋ณํ๋๋ ์ ๋ฌธ๊ฐ ํผํฉ ๋ฐฉ์ ์ ์
- InfoNCE-optimized audio-motion alignment module์ ํตํด kinematic priors๋ฅผ audio์ ์ง์ ์๋ฒ ๋ฉ
Limitation & Further Study
- ์ค์ ๋ก๋ด ๋ฐฐํฌ ์คํ์ด ๋
ผ๋ฌธ์ ๋ช
ํํ ์ ์๋์ง ์์ sim-to-real ๊ฐญ์ ๋ํ ๊ฒ์ฆ ํ์
- Content์ style์ ๋ถ๋ฆฌ ์ ๋์ ๋ฐ๋ฅธ ์ฑ๋ฅ ๋ณํ์ ๋ํ ์์ธ ๋ถ์ ๋ถ์กฑ
- ๋ณต์กํ ๋ค์ค ์ค๋์ค ์ ํธ(์์
+ ์์ฑ ๋์) ์ฒ๋ฆฌ์ ๋ํ ํ์ฅ์ฑ ๋ฏธ๊ฒ์ฆ
- ํ์์ฐ๊ตฌ: ์ค์ ๋ก๋ด ํ๋ซํผ์์์ ์ ์ด ์์ ์ฑ ๋ฐ ์ผ๋ฐํ ์ฑ๋ฅ ํ๊ฐ, ๋ ๋ค์ํ ์ฅ๋ฅด/์ธ์ด์ ์ค๋์ค์ ๋ํ ์ ์์ฑ ๊ฐํ, visual feedback์ ํฌํจํ closed-loop ์ ์ด ์์คํ
๊ฐ๋ฐ
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: RoboPerform์ ์ค๋์ค ์ ์ด ์ ํธ๋ฅผ ํด๋จธ๋
ธ์ด๋ ๋ก๋ด ๋ชจ์
์ ์ง์ ํตํฉํ๋ novelํ ์ ๊ทผ์ผ๋ก, retargeting-free ์ค๊ณ์ content-style decomposition์ ํตํด ์ ์ง์ฐ ๊ณ ์ถฉ์ค๋ ์ค์๊ฐ ์ฑ๋ฅ์ ๋ฌ์ฑํ ์๋ฏธ ์๋ ๊ธฐ์ฌ์ด๋ค. ๋ค๋ง ์ค์ ๋ก๋ด ๋ฐฐํฌ ๋ฐ sim-to-real ๊ฒ์ฆ์ด ์ถ๊ฐ๋๋ฉด ์ค์ฉ์ฑ์ด ๋์ฑ ๊ฐํ๋ ๊ฒ์ด๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์