LangWBC: Language-directed Humanoid Whole-Body Control via End-to-end Learning
์ ์: Yiyang Shao, Xiaoyu Huang, Bike Zhang, Qiayuan Liao, Yuman Gao, Yufeng Chi, Zhongyu Li, Sophia Shao, Koushil Sreenath | ๋ ์ง: 2025-04-30 | URL: https://arxiv.org/abs/2504.21738 📄 PDF
Essence
Fig. 2.
์์ฐ์ธ์ด ๋ช
๋ น์ humanoid robot์ ์ ์ ์ ์ด ๋์์ผ๋ก ์ง์ ๋ณํํ๋ end-to-end ํ์ต ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค. Reinforcement learning์ผ๋ก ํ์ตํ teacher policy์ CVAE ๊ธฐ๋ฐ student policy๋ฅผ ๊ฒฐํฉํ์ฌ ์ธ์ด-ํ๋์ ํตํฉ latent space๋ฅผ ๊ตฌ์ฑํ๋ค.
Motivation
- Known: Hierarchical kinematics-based tracking ๋ฐฉ์์ด ํ
์คํธ ์กฐ๊ฑด humanoid ์ ์ด์์ ํจ๊ณผ์ ์ด์์ผ๋, ์์ฑ๋ ๋์์ ๋ฌผ๋ฆฌ์ ๋ถ์ ํ์ฑ(floating bodies, foot sliding)๊ณผ ๊ณ ์ ์ง์์๊ฐ์ ํ๊ณ๊ฐ ์กด์ฌํ๋ค.
- Gap: ๊ธฐ์กด์ hierarchical ์ ๊ทผ๋ฒ์ ๋์ ์์ฑ๊ณผ ๋ฌผ๋ฆฌ์ ์คํ๊ฐ๋ฅ์ฑ ์ฌ์ด์ ๊ทผ๋ณธ์ ์ถฉ๋์ ํด๊ฒฐํ์ง ๋ชปํ๋ฉฐ, end-to-end ์์ฑ ์ ์ด๋ humanoid์ ๊ณ ์ฐจ์ ๋์ ์ ์ด์์ ์ถฉ๋ถํ ํ์๋์ง ์์๋ค.
- Why: Humanoid robot์ด ์ผ์ ํ๊ฒฝ์ ํตํฉ๋๋ ค๋ฉด ๊ธฐ์ ์ ์ง์์ด ์๋ ์ฌ์ฉ์๋ ์์ฐ์ธ์ด๋ก ์ง๊ด์ ์ผ๋ก ์ํธ์์ฉํ ์ ์์ด์ผ ํ๋ฉฐ, ์ด๋ ๊ฐ๊ฑดํ ์ ์ ์ ์ด์ ํ์ ์กฐ๊ฑด์ด๋ค.
- Approach: ๋ ๋จ๊ณ ํ์ต ๊ณผ์ ์ ํตํด ๋จผ์ reinforcement learning์ผ๋ก MoCap ๋ฐ์ดํฐ๋ฅผ ์ถ์ ํ๋ teacher policy๋ฅผ ํ์ตํ๊ณ , ์ดํ CVAE ๊ธฐ๋ฐ student policy๋ฅผ behavior cloning์ผ๋ก ํ์ตํ์ฌ ์ธ์ด ๋ช
๋ น๊ณผ ๋ก๋ด ๋์์ joint distribution์ unified latent space์์ ๊ตฌ์ฑํ๋ค.
Achievement
Fig. 1:
- End-to-end ์ธ์ด-๋์ ๋งคํ: ์์ฐ์ธ์ด ๋ช
๋ น์ ํ๋ฃจํ ์ ์ด ์ค์ ์์ ์ง์ ์ ์ ๋ก๋ด ๋์์ผ๋ก ๋ณํํ์ฌ ํ์ค ๋ฐฐํฌ์ ์ ํฉํ ๋ฏผ์ฒฉํ๊ณ ๊ฐ๊ฑดํ ์ฑ๋ฅ ๋ฌ์ฑ
- ๋์ ๋ค์์ฑ ๋ฐ ๋ถ๋๋ฌ์ด ์ ํ: CVAE ๊ตฌ์กฐ๋ฅผ ํตํด diverse motion ์์ฑ, smooth transitions, latent space interpolation์ ํตํ novel behavior ํฉ์ฑ ๊ฐ๋ฅ
- ํ์ค ๋ก๋ด ๊ฒ์ฆ: ์ค์ humanoid robot์์ running, turning, waving, clapping ๋ฑ ๋ณต์กํ ์ ์ ๋์ ์คํ, disturbance robustness ์
์ฆ
How
Fig. 2.
- MoCap ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ: ๊ธฐ์กด MoCap ๋ฐ์ดํฐ๋ฅผ target robot geometry์ ๋ง๊ฒ retargetํ์ฌ ๋ฌผ๋ฆฌ์ ์คํ๊ฐ๋ฅ์ฑ ๋ณด์ฅ
- Teacher Policy ํ์ต: Reinforcement learning์ ํตํด retargeted MoCap ๋ฐ์ดํฐ์ keypoint tracking์ ํ์ต, ๋ค์ํ ๋์ ํ๋์ ๋ฌผ๋ฆฌ์ ๊ฐ๋ฅ์ฑ ์๋ ์ ์ฅ์ ๊ตฌ์ถ
- Student Policy ๊ตฌ์กฐ: CVAE ๊ธฐ๋ฐ ์ํคํ
์ฒ๋ก CLIP encoder๋ฅผ ํตํ ํ
์คํธ ์๋ฒ ๋ฉ๊ณผ proprioceptive history๋ฅผ ์
๋ ฅ๋ฐ์ unified latent space ๋ด์์ ์ธ์ด-ํ๋์ joint distribution ํ์ต
- Behavior Cloning: Teacher policy์ ๋์์ student policy๊ฐ ๋ชจ๋ฐฉํ๋๋ก ํ์ต, ํ๋ฃจํ ์ ์ด ๋ฅ๋ ฅ ํ๋ณด
- Sim-to-real Transfer: ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ด์
์์ ํ์ตํ student policy๋ฅผ ์ค์ ํ๋์จ์ด์ ์ง์ ๋ฐฐํฌ
Originality
- End-to-end ์์ฑ ์ ์ด์ ํ์ฅ: ๊ธฐ์กด diffusion-based policies (์ฃผ๋ก manipulation/quadruped)์ ๋ฌ๋ฆฌ humanoid ์ ์ ์ ์ด์์ ์์ ํ ๊ธฐ๋ฅํ๋ text-conditioned end-to-end generative controller ์ ์
- Unified latent space ๊ตฌ์ฑ: CVAE๋ฅผ ํตํด ์ธ์ด์ ์ ์์ค ์ ์ด ๋์์ ๋จ์ผ latent space์์ ๋ช
์์ ์ผ๋ก ๊ฒฐํฉ, ์ด์ ์ hierarchical decoupling ๋ฐฉ์๊ณผ ๊ตฌ๋ณ๋จ
- Flexible duration ์ง์: ๊ณ ์ ์ง์์๊ฐ ์ ํ์ ๋ฒ์ด๋ ๋์ ๋์ ๊ธธ์ด ์กฐ์ ๊ฐ๋ฅ, ์ฐ์ ๋์ ์ ํ ๋ฐ disturbance ์ ์ ๊ฐ๋ฅ
- Closed-loop ๊ฐ๊ฑด์ฑ: ๊ธฐ์กด open-loop ์ ๊ทผ๋ฒ(UH-1 ๋ฑ)๊ณผ ๋ฌ๋ฆฌ ํ๋ฃจํ ์ ์ด๋ก ํ์ค ํ๊ฒฝ์ ๊ต๋์ ๋์
Limitation & Further Study
- ๋ฐ์ดํฐ์
ํ๊ณ: Retargeted MoCap ๋ฐ์ดํฐ์ ๋ค์์ฑ๊ณผ ์ ํ์ฑ์ด ์ ์ฒด ์ฑ๋ฅ ์ฒ์ฅ์ผ๋ก ์์ฉํ ์ ์์ผ๋ฉฐ, ํ์ต ๋ฐ์ดํฐ์ ์๋ ๋์์ ์ผ๋ฐํ ํ๊ณ ์กด์ฌ
- ํ
์คํธ ๋ค์์ฑ ํ๊ฐ ๋ถ์กฑ: ์ธ์ด ๋ณ๋์ฑ์ ๋ํ ์ ๋์ ํ๊ฐ๊ฐ ๋ช
์์ ์ผ๋ก ์ ์๋์ง ์์์ผ๋ฉฐ, ๋ณด๋ค ๋ค์ํ ์์ฐ์ธ์ด ๋ณํ์ ๋ํ robust์ฑ ๊ฒ์ฆ ํ์
- Sim-to-real gap ์์ธ ๋ถ์ ๋ถ์ฌ: ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ด์
๊ณผ ์ค์ ๋ก๋ด ๊ฐ์ ์ฐจ์ด์ ๋ํ ์์ธํ ๋ถ์ ๋ฐ ๊ทน๋ณต ๊ธฐ๋ฒ์ ๋ํ ์ค๋ช
์ด ์ ํ์
- ๋ค์ํ ๋ก๋ด ํ๋ซํผ ๊ฒ์ฆ ๋ถ์กฑ: ํน์ humanoid ๋ก๋ด์ ๋ํ ๊ฒ์ฆ์ผ๋ก ์ ํ๋์ด ์์ผ๋ฉฐ, ๋ค์ํ ํ๋์จ์ด ํ๋ซํผ์์์ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ ๋ถ๋ช
ํ
- ํ์ ์ฐ๊ตฌ ๋ฐฉํฅ: (1) LLM๊ณผ์ ๋ ๊น์ ํตํฉ์ผ๋ก ๊ณ ์์ค ํ์คํฌ ๊ณํ ๋ฅ๋ ฅ ํ๋ณด, (2) Online learning์ ํตํ ์ค์๊ฐ ์ ์, (3) Multi-modal ์
๋ ฅ (์ด๋ฏธ์ง, ์์ฑ ๋ฑ) ํตํฉ
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ humanoid ์ ์ ์ ์ด์ ์ค๋ ๋์ ์ธ ์ธ์ด-ํ๋ ๊ฐญ์ end-to-end learning์ผ๋ก ์ง์ ํด๊ฒฐํ๋ฉฐ, CVAE ๊ธฐ๋ฐ์ unified latent space ๊ตฌ์ฑ์ผ๋ก ๋์ ๋ค์์ฑ๊ณผ ๋ถ๋๋ฌ์ด ์ ํ์ ๋์์ ๋ฌ์ฑํ ์ ์ด ์ฐ์ํ๋ค. ์ค์ ๋ก๋ด ๊ฒ์ฆ๊ณผ ๊ฐ๊ฑด์ฑ ์
์ฆ์ ํตํด ํ์ค ์ ์ฉ ๊ฐ๋ฅ์ฑ์ ๋ณด์์ผ๋, ๋ฐ์ดํฐ์
์์กด์ฑ๊ณผ ๋ค์ํ ํ๋ซํผ ์ผ๋ฐํ์ ๋ํ ์ถ๊ฐ ๊ฒ์ฆ์ด ํ์ํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์