Scalable and General Whole-Body Control for Cross-Humanoid Locomotion
์ ์: Yufei Xue, YunFeng Lin, Wentao Dong, Yang Tang, Jingbo Wang, Jiangmiao Pang, Ming Zhou, Minghuan Liu, Weinan Zhang | ๋ ์ง: 2026-02-05 | URL: https://arxiv.org/abs/2602.05791 📄 PDF
Essence
Figure 2. Training framework of XHugWBC. (a) Data generation: physics-consistent morphological randomization produces di
XHugWBC๋ ๋ฌผ๋ฆฌ์ ์ผ๋ก ์ผ๊ด์ฑ ์๋ ํํํ์ ๋๋คํ, ์๋ฏธ๋ก ์ ์ผ๋ก ์ ๋ ฌ๋ ๊ด์ฐฐ-ํ๋ ๊ณต๊ฐ, ๊ทธ๋ํ ๊ธฐ๋ฐ ์ ์ฑ
์ํคํ
์ฒ๋ฅผ ํตํด ๋จ์ผ ์ ์ฑ
์ผ๋ก ๋ค์ํ ์ธ๊ฐํ ๋ก๋ด์ ๋ํ ์ ๋ก์ท ์ ๋๋ดํ๋ฅผ ์คํํ๋ ๊ต์ฐจ-์ ์ฒด ์ ์ ์ ์ด ํ๋ ์์ํฌ์ด๋ค.
Motivation
- Known: ํ์ต ๊ธฐ๋ฐ ์ ์ ์ ์ด๊ธฐ๋ ์ธ๊ฐํ ๋ก๋ด์ ์ฃผ์ ๋์ธ์ด์ง๋ง, ๋๋ถ๋ถ์ ๊ธฐ์กด ์ ๊ทผ๋ฒ์ ๋ก๋ด๋ณ ์ฌํ๋ จ์ด ํ์ํ๋ค. ๋๋ฉ์ธ ๋๋คํ๋ ๊ฐ๊ฑดํ ์ ์ด๊ธฐ ํ๋ จ์ ์ฑ๊ณตํ์ผ๋, ์ธ๊ฐํ ๋ก๋ด์ ๋์ ํํํ์ ์ด์ง์ฑ์ผ๋ก ์ธํด ๋จ์ ๋๋คํ๋ ๋ฌผ๋ฆฌ์ ์ผ๊ด์ฑ์ ์๋ฐํ ์ ์๋ค.
- Gap: ๊ธฐ์กด ๊ต์ฐจ-์ ์ฒด ํ์ต์ ์ข์ ๋ก๋ด ๊ณ์ด, ์ ์ฌํ ์ญํ, ์ ๋ ฌ๋ ์ํ-ํ๋ ๊ณต๊ฐ์ ๊ฐ์ ํ๋๋ฐ, ์ธ๊ฐํ ๋ก๋ด์ ์ด๋ํ, ์์ ๋, ๋ฌผ๋ฆฌ์ ํน์ฑ์์ ์๋นํ ๋ค๋ฅด๋ค. ๋ํ ๋ฌผ๋ฆฌ์ ์ผ๋ก ํ๋นํ ํํ ํ๋ผ๋ฏธํฐ ๊ณต๊ฐ์ ๋น๋ณผ๋ก ๋น์ฐ์์ด๋ฏ๋ก ์์์ ๋๋คํ๋ ์๋ฎฌ๋ ์ด์
๋ถ์์ ์ฑ๊ณผ ํ์ค ์ ์ด ์คํจ๋ฅผ ์ด๋ํ ์ ์๋ค.
- Why: ์ธ๊ฐํ ๋ก๋ด์ด ๋น ๋ฅด๊ฒ ๋ค์ํ๋๋ฉด์ ๋ก๋ด๋ณ ํ๋ จ์ ๋น์ฉ์ด ๋ง์ด ๋ค๊ณ ๋นํจ์จ์ ์ด๋ค. ์ ๋๋ด ์ ์ฑ
์ ์๋ก์ด ํ๋ซํผ์ ์ฆ์ ๋ฐฐํฌ ๊ฐ๋ฅํ์ฌ ๊ฐ๋ฐ ์๊ฐ๊ณผ ์์์ ์ ๊ฐํ๊ณ ์์ฉํ๋ฅผ ๊ฐ์ํ๋ค.
- Approach: XHugWBC๋ (1) ๋ฌผ๋ฆฌ ๋ฒ์น ๊ธฐ๋ฐ ํํ ํ๋ผ๋ฏธํฐ ๋ฆฌํ๋ผ๋ฏธํฐํ๋ฅผ ํตํ ์ผ๊ด์ฑ ์๋ ๋๋คํ, (2) ์ ์ญ ๊ด์ ๊ณต๊ฐ์ผ๋ก์ ์ํ-ํ๋ ์ ๊ทํ, (3) ๋ก๋ด ํ ํด๋ก์ง ๊ธฐ๋ฐ GCN/Transformer ๊ธฐ๋ฐ ์ ์ฑ
์ํคํ
์ฒ๋ฅผ ๊ฒฐํฉํ๋ค.
Achievement
Figure 1. Zero-shot generalization and real-world humanoid capabilities enabled by XHugWBCโs generalist policy. First ro
- ์ ๋ก์ท ์ ๋๋ดํ: ๋จ์ผ ์ ์ฑ
์ด ๋ค์ํ ์ด๋ํ, ์ญํ, ํํ๋ฅผ ๊ฐ์ง 7๊ฐ ์ค์ ์ธ๊ฐํ ๋ก๋ด์์ ๊ฐ๊ฑดํ๊ฒ ์๋
- ์๋ฎฌ๋ ์ด์
ํ์ฅ์ฑ: 12๊ฐ ์๋ฎฌ๋ ์ด์
์ธ๊ฐํ์์ specialist ์ฑ๋ฅ์ ์ฝ 85% ๋ฌ์ฑ, ํ์ธํ๋ ํ specialist ์ด๊ณผ 10%
- ๋ฌผ๋ฆฌ ์ผ๊ด์ฑ: ๋น๋ณผ๋ก ํ๋ผ๋ฏธํฐ ๊ณต๊ฐ์์ ๋ฌผ๋ฆฌ์ ์ผ๋ก ํ๋นํ ํํ ๋๋คํ ์คํ, ํ์ค ์ ์ด ์์ ์ฑ ํ๋ณด
- ํตํฉ ํํ: ์ด๋ํ์ ์ด์ง์ฑ์ ๊ทน๋ณตํ๋ ์๋ฏธ๋ก ์ ์ํ-ํ๋ ์ ๋ ฌ ๋ฌ์ฑ
How
Figure 2. Training framework of XHugWBC. (a) Data generation: physics-consistent morphological randomization produces di
- Template URDF์์ ํํ ํ๋ผ๋ฏธํฐ ฮบ = [ฮบ_link, ฮบ_joint]๋ก ์ธ๊ฐํ ๋ก๋ด์ ๊ณต์ ๊ตฌ์กฐ ์บก์ฒ
- ์ง๋, ์ง๋ ์ค์ฌ, ํ์ ๊ด์ฑ, ๊ด์ ์์น, ๋ฐฉํฅ, ๋์์ถ, ์ด๋ ์ ์ฝ์ ํฌํจํ๋ 10+13 ์ฐจ์ ํ๋ผ๋ฏธํฐ ๊ณต๊ฐ ์ ์
- ๊ด์ฑ ํ๋ผ๋ฏธํฐ์ positive-definiteness ์ ์ฝ์ ๋ง์กฑํ๋๋ก ์ฝ๋ ์คํค ๋ถํด, QR ๋ถํด ๋ฑ์ผ๋ก ๋ฆฌํ๋ผ๋ฏธํฐํ
- ์ ์ญ ๊ด์ ๊ณต๊ฐ์ผ๋ก ์ํ๋ฅผ ์ ๊ทํํ๊ณ ๋ก๋ด ํ ํด๋ก์ง ๊ทธ๋ํ ๊ตฌ์ฑ
- GCN ๋๋ Transformer ์ธ์ฝ๋์ state estimator๋ฅผ ํฌํจํ๋ ํ์ด๋ธ๋ฆฌ๋ ์ ์ฑ
์ํคํ
์ฒ ์ฌ์ฉ
- 12๊ฐ ๋ค์ํ ์๋ฎฌ๋ ์ด์
์ธ๊ฐํ์์ ํตํฉ ํ๋ จ ํ ๋ฏธ์ง์ ๋ก๋ด์ ์ ๋ก์ท ๋ฐฐํฌ
Originality
- ๋ฌผ๋ฆฌ ๋ฒ์น ๊ธฐ๋ฐ ํํ ๋๋คํ๋ฅผ ํตํด ๊ธฐ์กด ๋จ์ ์ค์ผ์ผ๋ง์ ๋ฌผ๋ฆฌ์ ๋ฌดํจ์ฑ ๋ฌธ์ ํด๊ฒฐ
- ์๋ฏธ๋ก ์ ์ํ-ํ๋ ์ ๋ ฌ๋ก ์ด๋ํ์ ์ด์ง์ฑ์ ๊ฐ์ง ๋ก๋ด๋ค ๊ฐ ์ง์ ์ด์ ์คํ
- 7๊ฐ ์ค์ ๋ก๋ด์์์ ์ ๋ก์ท ์ ๋๋ดํ๋ ๊ธฐ์กด ์ฐ๊ตฌ์ ์๋ฎฌ๋ ์ด์
ํ์ ๋๋ ์ ํ๋ ๋ก๋ด๊ตฐ ์ด์ ์ ๋์ด์ ์ฒซ ์ฌ๋ก
- ๊ทธ๋ํ ๊ธฐ๋ฐ ์ธ์ฝ๋๋ก ๋ก๋ด ํ ํด๋ก์ง ๊ตฌ์กฐ๋ฅผ ๋ช
์์ ์ผ๋ก ๋ชจ๋ธ๋งํ์ฌ ์ ์ฒด ํน์ด ์ญํ ํฌ์ฐฉ
Limitation & Further Study
- ํ์ค ์คํ์ด 7๊ฐ ๋ก๋ด์ผ๋ก ์ ํ์ ์ด๋ฉฐ, ๋ ๊ทน๋จ์ ํํ ๋ณ์ด(์: ๋ค๋ฆฌ ์ ๋ณ๊ฒฝ)์ ๋ํ ์ฑ๋ฅ ๋ฏธํ๊ฐ
- ์ ์ ์ ์ด๋ ์กฐ์๊ณผ ์ด๋์ ์กฐ์จ ๋ณต์ก๋๊ฐ ๋์, ์ ํ๋ ์กฐ์ ์์
์์๋ง ๊ฒ์ฆ
- ๋ฌผ๋ฆฌ์ ์ผ๊ด์ฑ ์ ์ฝ์ด ์ ์ฉ๋ ํ๋ผ๋ฏธํฐ ๊ณต๊ฐ์ด ์ฌ์ ํ ์ค์ ๋ก๋ด์ ์ ์ฒด ๋ค์์ฑ์ ์์ ํ ํฌ๊ดํ๋์ง ๋ฏธํ์ธ
- ํ์ ์ฐ๊ตฌ๋ก ๋ ํฐ ๊ท๋ชจ ๋ก๋ด ์งํฉ, ๊ทน๋จ์ ํํ ๋ณ์ด, ๋น์ธ๊ฐํ ๋ก๋ด(์ฌ์กฑ/ํ๋ค๋ฆฌํ) ํ์ฅ์ด ํ์
- sim-to-real gap ์์ ํด์ ๋ฐ ๋์ ๋ถ๋ถ ๊ด์ฐฐ(occlusion) ์ํฉ ๊ฐ๊ฑด์ฑ ๊ฐ์ ๊ฐ๋ฅ
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ ๋ฌผ๋ฆฌ์ ์ผ๋ก ์ผ๊ด์ฑ ์๋ ํํ ๋๋คํ์ ์๋ฏธ๋ก ์ ์ ๋ ฌ์ ํตํด ๋จ์ผ ์ ์ฑ
์ ๋ค์ค ์ธ๊ฐํ ๋ก๋ด ์ ๋๋ดํ๋ฅผ ์ฒ์์ผ๋ก ๋ฌ์ฑํ์ผ๋ฉฐ, 7๊ฐ ์ค์ ๋ก๋ด์์์ ๊ฐ๊ฑดํ ์ ๋ก์ท ์ฑ๋ฅ๊ณผ ์๋ฎฌ๋ ์ด์
ํ์ฅ์ฑ์ผ๋ก ๋ก๋ด ํ์ต์ ํ์ค์ ๊ฐ์น๋ฅผ ์
์ฆํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์