General Humanoid Whole-Body Control via Pretraining and Fast Adaptation
์ ์: Zepeng Wang, Jiangxing Wang, Shiqing Yao, Yu Zhang, Ziluo Ding, Ming Yang, Yuxuan Wang, Haobin Jiang, Chao Ma, Xiaochuan Shi, Zongqing Lu | ๋ ์ง: 2026-02-12 | DOI: 10.48550/arXiv.2602.11929 📄 PDF
Essence
Figure 2: An overview of FAST. Our framework consists of three stages. (1) We construct a curated
FAST๋ ๋๊ท๋ชจ ์ฌ์ ํ์ต๊ณผ ๊ฒฝ๋ ์์ฌ ์ ์ฑ
์ ์์ ๊ฒฐํฉํ์ฌ ์ธ๊ฐํ ๋ก๋ด์ ์ผ๋ฐ์ ์ธ ์ ์ ์ ์ด๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ๋ ํ๋ ์์ํฌ์ด๋ค. Center-of-Mass-Aware Control๊ณผ Parseval-Guided Residual Policy Adaptation์ ํตํด ๋ถํฌ ์ธ ๋์์ ๋ํ ๋น ๋ฅธ ์ ์๊ณผ ์์ ์ ์ธ ๊ท ํ์ ๋์์ ๋ฌ์ฑํ๋ค.
Motivation
- Known: ๊ธฐ์กด ํ์ต ๊ธฐ๋ฐ ์ ์ ์ ์ด ๋ฐฉ๋ฒ๋ค์ ์์ ๋ชจ์
๋ฐ์ดํฐ์
์ผ๋ก ํ์ต๋์ด ๊ณ ํ์ง์ ์ ์ด๋ ํ๊ฒฝ์์๋ ์ ์๋ํ๋, ์ค์ ์ธ๊ณ์ ๋ค์ํ ์์ค(๋น๋์ค ์ถ์ , ํ
์คํธ ์์ฑ, ์ ํ์ง ๋ชจ์
)๋ก๋ถํฐ ๋์จ ๋ถํฌ ์ธ ๋์์ ๋ํด์๋ ๊ฒฌ๊ณ ์ฑ์ด ๋จ์ด์ง๋ค.
- Gap: ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ (1) ๋จ์ ํ์ฅ ๊ธฐ๋ฐ ํ์ต์ ๊ณ์ฐ ์ ์ฝ๊ณผ ์ถ๋ก ์ง์ฐ์ผ๋ก ์ธํด ๋ฐฐํฌ ๋ถ๊ฐ๋ฅํ๊ณ , (2) ๋น ๋ฅธ ์ ์ ์ ์ฌ์ ํ์ต ๋ฅ๋ ฅ์ ์์(catastrophic forgetting)์ด ๋ฐ์ํ๋ฉฐ, (3) ๊ณ ๋์ ๋์์์์ ๊ท ํ ์ ์ง๊ฐ ์ด๋ ต๋ค.
- Why: ์ธ๊ฐํ ๋ก๋ด์ด ์ค์ ํ๊ฒฝ์์ ๋ค์ํ ์์
์ ์ํํ๊ธฐ ์ํด์๋ ๋จ์ผ ์ ์ด๊ธฐ๊ฐ ์ด์ง์ ์ธ ๋ชจ์
์์ค์ ๋์ํ๋ฉด์๋ ์ ์ง์ฐ๊ณผ ๋์ ์ฃผํ์ ์ ์ด๋ฅผ ์ ์งํด์ผ ํ๊ธฐ ๋๋ฌธ์ด๋ค.
- Approach: FAST๋ (1) Center-of-Mass ๊ด์ฐฐ๊ณผ ๋ชฉ์ ํจ์๋ฅผ ํฌํจํ ์ผ๋ฐ ์ ์ฑ
์ ๋๊ท๋ชจ๋ก ์ฌ์ ํ์ตํ๊ณ , (2) Parseval-Guided Residual Policy Adaptation์ผ๋ก ์ง๊ต์ฑ๊ณผ KL ์ ์ฝ ํ์์ ๊ฒฝ๋ ๋ธํ ์ ์ฑ
์ ํ์ตํ์ฌ ๋น ๋ฅธ ์ ์์ ๊ฐ๋ฅํ๊ฒ ํ๋ค.
Achievement
Figure 3: Fast adaptation on LaFan1 and MotionX (target) with performance retention on AMASS (source).
- Zero-shot ๊ฒฌ๊ณ ์ฑ: ์ฌ์ ํ์ต๋ ์ ์ฑ
์ด ๊ณ ๋์ ๋์๊ณผ ๋ถํฌ ์ธ ๋ชจ์
์ ํฌํจํ ๋ค์ํ ์๋๋ฆฌ์ค์์ ๊ฐ๋ ฅํ ์ถ์ ์ฑ๋ฅ์ ๋ณด์
- ๋น ๋ฅธ ์ ์ ํจ์จ์ฑ: Parseval ์ ๊ทํ์ KL ์ ์ฝ์ ํตํด ๊ฒฝ๋ ์์ฌ ์ ์ฑ
์ผ๋ก ์๋ก์ด ๋ชจ์
๋ถํฌ์ ์ ์ํ๊ฒ ํนํ๋๋ฉด์ ์ฌ์ ํ์ต ๋ฅ๋ ฅ ๋ณด์กด
- ๋ฌผ๋ฆฌ์ ์์ ์ฑ: Center-of-Mass-Aware ์ ์ด๊ฐ ์ ํ์ง ๋ชจ์
์ถ์ ์์๋ ๊ท ํ ์ ์ง์ ์์ ์ฑ ํฅ์
- ์ค์ ๋ฐฐํฌ ๊ฒ์ฆ: ์๋ฎฌ๋ ์ด์
๊ณผ ์ค์ ๋ก๋ด ์คํ์์ ๊ธฐ์กด ์ต๊ณ ์ฑ๋ฅ ๋ฐฉ๋ฒ๋ค(SONIC, KungfuBot2)์ ์ผ๊ด๋๊ฒ ์ด๊ณผ ๋ฌ์ฑ
How
Figure 2: An overview of FAST. Our framework consists of three stages. (1) We construct a curated
- AMASS, OMOMO, LaFan1, Motion-X ๋ฑ์ ๊ณต๊ฐ ๋ฐ์ดํฐ์
์ SMPL ํ์์ผ๋ก ์ธ๊ฐ-์ธ๊ฐํ ๋ก๋ด ์ฌ์ง์ (retargeting)ํ์ฌ ๋๊ท๋ชจ ํ๋ ์ด์
๋ ๋ชจ์
๋ฐ์ดํฐ์
๊ตฌ์ฑ
- Mixture-of-Experts ์ํคํ
์ฒ๋ฅผ ์ฌ์ฉํ์ฌ ๋ค์ํ ๋ชจ์
๋ถํฌ์ ๋์ํ๋ ์ผ๋ฐ ์ ์ฑ
ํ์ต
- Center-of-Mass-Pressure ๊ฑฐ๋ฆฌ๋ฅผ ๋ชจ๋ํฐ๋งํ๋ CoM-Aware ์ ์ด ๋ชฉ์ ํจ์ ๋์
: r(a,s) = rtrack(a,s) + rstability
- Parseval ์ ๊ทํ(์ง๊ต์ฑ ์ ๋)์ KL ๋ฐ์ฐ ์ ์ฝ์ ๊ฒฐํฉํ์ฌ ์์ฌ ์ ์ฑ
ํ์ต: Ltotal = LRL + ฮปpยทLParseval + ฮปkยทLKL
- ์ ์ ์ ๊ธฐ๋ณธ ์ ์ฑ
ฯb์ ์์ฌ ์ ์ฑ
ฯr์ ์ถ๋ ฅ์ ๋ํ๋ ๊ตฌ์กฐ: at = abt + art๋ก ๊ฒฝ๋์ฑ๊ณผ ์์ ์ฑ ๊ท ํ ์ ์ง
Originality
- Center-of-Mass-Aware Control์ ๋ช
์์ ์ผ๋ก ํตํฉํ ์ : ๊ธฐ์กด ์ถ์ ๊ธฐ๋ฐ ์ ๊ทผ๊ณผ ๋ฌ๋ฆฌ ๊ท ํ ๊ด๋ จ ๊ด์ฐฐ๊ณผ ๋ชฉ์ ํจ์๋ฅผ ์ ์ฑ
์ค๊ณ์ ์ง์ ํฌํจ
- Parseval ์ ๊ทํ์ KL ์ ์ฝ์ ์กฐํฉ: ์ง๊ต์ฑ์ ๊ฐ์ ํ์ฌ ์์ฌ ์ ์ฑ
์ ํํ ๊ณต๊ฐ์ ์ ํํ๋ฉด์๋ KL ์ ์ฝ์ผ๋ก ๊ธฐ๋ณธ ์ ์ฑ
๊ณผ์ ๊ฑฐ๋ฆฌ ์ ์ง๋ก catastrophic forgetting ์ํ
- ๋ค์ํ ๋ชจ์
์์ค(์คํ๋ผ์ธ ๋ชจ์บก, ์ค์๊ฐ ํ
๋ ์คํผ๋ ์ด์
, ํ
์คํธ-๋ชจ์
, ๋น๋์ค ์ถ์ )๋ฅผ ๋จ์ผ ํ๋ ์์ํฌ์์ ํตํฉ ์ฒ๋ฆฌํ๋ ์ผ๋ฐ์ฑ
- ์ ์ง์ฐ ์๊ตฌ์ฌํญ์ ๋ง์กฑํ๋ฉด์๋ ๋น ๋ฅธ ์ ์์ ๊ฐ๋ฅํ๊ฒ ํ๋ ์ค์ฉ์ ์ค๊ณ: ํฐ ๋ชจ๋ธ ํ์ฅ ๋์ ๊ฒฝ๋ ์์ฌ ํ์ต ๊ฐ์กฐ
Limitation & Further Study
- ๋ชจ์
๋ฐ์ดํฐ์
์ ๊ท๋ชจ์ ํ์ง์ด ์ฌ์ ํ์ต ์ฑ๋ฅ์ ๋ฏธ์น๋ ์ํฅ์ ๋ํ ์์ธํ ์ ์ (ablation) ๋ถ์ ๋ถ์กฑ
- Parseval ์ ๊ทํ์ ๊ฐ๋(ฮปp)์ KL ์ ์ฝ(ฮปk)์ ๊ฐ์ค์น ์ ํ์ ๋ํ ๋ฏผ๊ฐ๋ ๋ถ์ ๋๋ ์๋ ์กฐ์ ๋ฐฉ๋ฒ ๋ฏธ์ ์
- ์ค์ ๋ก๋ด ์คํ์ด ์ ํ์ ์ด๋ฉฐ, ๋ค์ํ ์ ์ฒด ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง ๋ค๋ฅธ ์ธ๊ฐํ ๋ก๋ด์ ๋ํ ์ผ๋ฐํ ๊ฒ์ฆ ๋ถ์ฌ
- ํ์ ์ฐ๊ตฌ: (1) ์ ์ ํ๋ผ๋ฏธํฐ์ ์๋ ์ต์ ํ ๋ฉ์ปค๋์ฆ ๊ฐ๋ฐ, (2) ์ถ๊ฐ ์ค์ ๋ก๋ด ํ๋ซํผ์์์ ๊ฒ์ฆ, (3) ์จ๋ผ์ธ ์ ์ ์ค ์์ ์ฑ ๋ณด์ฅ์ ๋ํ ์ด๋ก ์ ๋ถ์
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: FAST๋ ์ค์ฉ์ ์ธ ์ ์ฝ ์กฐ๊ฑด ํ์์ ์ธ๊ฐํ ๋ก๋ด์ ์ผ๋ฐ์ ์ด๊ณ ๊ฒฌ๊ณ ํ ์ ์ ์ ์ด๋ฅผ ๋ฌ์ฑํ๋ ์ ์ค๊ณ๋ ํ๋ ์์ํฌ์ด๋ฉฐ, Center-of-Mass-Aware ์ ์ด์ Parseval-Guided ์์ฌ ์ ์์ ์กฐํฉ์ ๋ถํฌ ์ธ ๋์ ์ ์์์ ์๋ก์ด ์ ๊ทผ ๋ฐฉ์์ ์ ์ํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์