Behavior Foundation Model for Humanoid Robots
์ ์: Weishuai Zeng, Shunlin Lu, Kangning Yin, Xiaojie Niu, Minyue Dai, Jingbo Wang, Jiangmiao Pang | ๋ ์ง: 2025-09-17 | DOI: 10.48550/arXiv.2509.13780 📄 PDF
Essence
Fig. 2: Overview of BFM Implementation. (a) Human motion dataset is retargeted to humanoid robots for proxy agent
๋ณธ ๋
ผ๋ฌธ์ ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ๋ค์ํ ์ ์ด ํ์คํฌ์ ์ผ๋ฐํ ๊ฐ๋ฅํ ํ๋ ๊ธฐ๋ฐ ํ์ด๋ฐ์ด์
๋ชจ๋ธ(BFM)์ ์ ์ํ๋ฉฐ, masked online distillation๊ณผ CVAE๋ฅผ ๊ฒฐํฉํ์ฌ ๋๊ท๋ชจ ํ๋ ๋ฐ์ดํฐ์
์ผ๋ก ์ฌ์ ํ์ตํ๋ค.
Motivation
- Known: ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ์ ์ ์ ์ด(WBC)๋ ๋ก์ฝ๋ชจ์
, ์๊ฒฉ์กฐ์ข
, ๋ชจ์
ํธ๋ํน ๋ฑ์์ ์ง์ ์ ์ด๋ฃจ์์ง๋ง, ๊ธฐ์กด WBC ํ๋ ์์ํฌ๋ ํ์คํฌ๋ณ๋ก ํนํ๋์ด ์๊ณ ๋ณด์ ์์ง๋์ด๋ง์ด ํ์ํ๋ฉฐ ํ์คํฌ ๊ฐ ์ผ๋ฐํ๊ฐ ์ ํ์ ์ด๋ค.
- Gap: ๊ธฐ์กด WBC ์์คํ
์ ์ ์ด ๋ชจ๋(์๋ ๋ช
๋ น, VR ์ ํธ, ๋ชจ์
๋ ํผ๋ฐ์ค)์ ๋ฐ๋ผ ๊ฐ๋ณ์ ์ผ๋ก ์ค๊ณ๋์ด ํฌ๋ก์คํ์คํฌ ์ผ๋ฐํ๊ฐ ์ด๋ ต๊ณ , ์์์ ์ ์ด ๋ชจ๋์ ๋์ํ๊ฑฐ๋ ์๋ก์ด ํ๋์ ๋น ๋ฅด๊ฒ ์ต๋ํ๋ ๋ฐ ํ๊ณ๊ฐ ์๋ค.
- Why: ๋ค์ํ ํด๋จธ๋
ธ์ด๋ ๋ก๋ด ์ ํ๋ฆฌ์ผ์ด์
์ ์ํด ๋จ์ผ์ ํตํฉ๋ ์ ์ด ํ๋ ์์ํฌ๊ฐ ํ์ํ๋ฉฐ, ํ์ด๋ฐ์ด์
๋ชจ๋ธ ๋ฐฉ์์ผ๋ก ๋๊ท๋ชจ ํ๋ ๋ฐ์ดํฐ๋ก๋ถํฐ ์ฌ์ฌ์ฉ ๊ฐ๋ฅํ ํ๋ ์ง์์ ํ์ตํ๋ฉด ์๋ก์ด ํ์คํฌ์ ๋น ๋ฅด๊ฒ ์ ์ํ ์ ์๋ค.
- Approach: ๋ชจ๋ ์ ์ด ๋ชจ๋๋ฅผ ํต์ผ๋ ํ๋ ์์ฑ ๋ฌธ์ ๋ก ์ฌ์ ์ํ๊ณ , masked online distillation ํ๋ ์์ํฌ์ CVAE๋ฅผ ํตํฉํ BFM์ ๋๊ท๋ชจ ํ๋ ๋ฐ์ดํฐ์
์ผ๋ก ์ฌ์ ํ์ตํ ํ, residual learning์ ํตํด ์๋ก์ด ํ๋์ ํจ์จ์ ์ผ๋ก ์ต๋ํ๋ค.
Achievement
Fig. 1: Behavior Foundation Model enables humanoid robots to perform a variety of behaviors in a zero-shot manner,
- ํตํฉ ํ๋ ํ์ต ํจ๋ฌ๋ค์: ํ์คํฌ๋ณ ํนํ ํ์ต์์ ๋ฒ์ด๋ ๋ค์ํ ์ ์ด ๋ชจ๋(ํ
์คํธ, ์๋ ๋ช
๋ น, ๊ด์ ์์น ๋ฑ)๋ฅผ ํต์ผ๋ ํ๋ ์์ฑ ๋ฌธ์ ๋ก ์ฌ์ ์ํ๋ ๊ฐ๋
์ ์ ํ์ ๋ฌ์ฑ
- ๋ค์ค ์ ์ด ๋ชจ๋ ์ง์: ๋จ์ผ์ sparsity mask๋ฅผ ํตํด ์์์ ์ ์ด ๋ชจ๋ ์กฐํฉ์ ์ง์ํ๋ฉฐ HOVER์ ๊ณ ์ ๋ชจ๋ ์ฐ์ ์์ ์ ์ฝ์ ๊ทน๋ณต
- ๊ตฌ์กฐํ๋ ์ ์ฌ๊ณต๊ฐ: CVAE ๊ธฐ๋ฐ ์ค๊ณ๋ก ํ๋ ํฉ์ฑ๊ณผ ๋ชจ๋๋ ์ด์
์ด ๊ฐ๋ฅํ ์ ์ฌ๊ณต๊ฐ์ ์ ๊ณตํ๋ฉฐ, ์ค์ ํด๋จธ๋
ธ์ด๋์์ ์ด๋ฅผ ๊ฒ์ฆ
- ํจ์จ์ ์ ํ๋ ์ต๋: residual learning์ ํตํด ์ฌ์ ํ์ต๋ BFM ์ง์์ ํ์ฉํ์ฌ ์๋ก์ด ํ๋(forward roll, side salto ๋ฑ)์ ์ฌํ์ต ์์ด ๋น ๋ฅด๊ฒ ์ต๋
- ์๋ฎฌ๋ ์ด์
-ํ์ค ์ ์ฉ: ์๋ฎฌ๋ ์ด์
๊ณผ ์ค์ ํด๋จธ๋
ธ์ด๋ ํ๋ซํผ ์์ชฝ์์ ๊ด๋ฒ์ํ WBC ํ์คํฌ(์์, ์๊ธฐ, ์๊ธฐ, ๋๋น ํฅ ๋ฑ)์ ๋ํ ๊ฐ๊ฑดํ ์ผ๋ฐํ ๋ฅ๋ ฅ ์
์ฆ
How
Fig. 2: Overview of BFM Implementation. (a) Human motion dataset is retargeted to humanoid robots for proxy agent
- ์ธ๊ฐ ๋ชจ์
๋ฐ์ดํฐ์
์ SMPL์ ํตํด ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ์ฌํ๊ฒํ
ํ์ฌ ์๋ฎฌ๋ ์ด์
์์ proxy agent๋ฅผ motion imitation์ผ๋ก ํ์ต
- Proxy agent๋ก๋ถํฐ ๋ค์ํ ์ ์ด ๋ชจ๋๋ฅผ ํฌํจํ ํ๋ ๋ฐ์ดํฐ๋ฅผ ์์งํ๊ณ , masked online distillation๊ณผ DAgger ํ๋ ์์ํฌ๋ฅผ ๊ฒฐํฉํ์ฌ BFM์ ์ฌ์ ํ์ต
- CVAE ๊ตฌ์กฐ๋ฅผ ํตํด ํ๋ ๋ถํฌ๋ฅผ ๋ชจ๋ธ๋งํ๋ฉฐ, KL-divergence ์ ์ฝ์ผ๋ก ๊ตฌ์กฐํ๋ ์ ์ฌ๊ณต๊ฐ ํ์ต์ ์ ๋
- ์ ์ด ์ธํฐํ์ด์ค๋ฅผ root, kinematic position, joint angle์ ํฉ์งํฉ์ผ๋ก ๋จ์ํํ๊ณ ๋ชฉํ ์ํ์ ๋ฐ๋ผ ๋ง์คํฌ๋ฅผ ์ ์ฉํ์ฌ ๋ค์ํ ์ ์ด ๋ชจ๋ ๊ตฌํ
- ์ฌ์ ํ์ต๋ BFM์ ๊ธฐ๋ฐ์ผ๋ก residual learning์ ์ ์ฉํ์ฌ ์๋ก์ด ํ๋์ ํจ์จ์ ์ผ๋ก ์ต๋ํ๊ณ , ํ๋ ํฉ์ฑ์ ์ํด ์ ์ฌ๊ณต๊ฐ์์ ์ ํ ๋ณด๊ฐ ํ์ฉ
Originality
- ๊ธฐ์กด ํ์คํฌ๋ณ ํนํ ์ ์ด์์ ํตํฉ ํ๋ ํ์ต์ผ๋ก์ ํจ๋ฌ๋ค์ ์ ํ์ ์ฒด๊ณ์ ์ผ๋ก ์ ์ํ ์ฒซ ์๋
- HOVER์ ์ด๋จ๊ณ ๋ง์คํน ์ ๋ต์ ๊ฐ์ ํ์ฌ ๋จ์ํ sparsity mask๋ก ์์์ ์ ์ด ๋ชจ๋ ์กฐํฉ์ ์ง์
- MaskedMimic์ ๊ฐ์ ์๋ฐํ ํ๊ณ๋ฅผ ๋์ด ์ค์ ํด๋จธ๋
ธ์ด๋์ ์ ์ฉ ๊ฐ๋ฅํ ๊ตฌ์ฒด์ ๊ตฌํ ์ ์
- CVAE ์ ํ์ ์ด๋ก ์ ยท์ค์ฆ์ ๊ทผ๊ฑฐ๋ฅผ ๋ช
ํํ ์ ์ํ๊ณ ์ ์ฌ๊ณต๊ฐ ํน์ฑ(ํฉ์ฑ, ๋ชจ๋๋ ์ด์
)์ ๋ถ์
- Masked online distillation๊ณผ CVAE์ ์๋ก์ด ๊ฒฐํฉ์ผ๋ก ๋ค์ํ ํ์ ํ์คํฌ ํ์ต ๊ฐ๋ฅ
Limitation & Further Study
- Proxy agent์ ์ฑ๋ฅ์ ์์กดํ๋ฏ๋ก ์๋ฎฌ๋ ์ด์
-ํ์ค ๊ฒฉ์ฐจ(sim-to-real gap) ์ํฅ์ ๋ฐ์ ๊ฐ๋ฅ์ฑ
- ์ฌ์ ํ์ต ๋ฐ์ดํฐ์
์ ๊ท๋ชจ์ ๋ค์์ฑ์ด ์ต์ข
์ฑ๋ฅ์ ๊ฒฐ์ ํ๋๋ฐ, ๋
ผ๋ฌธ์์ ๋ฐ์ดํฐ์
ํฌ๊ธฐ ๋ถ์ ๋ถ์กฑ
- ์ค์ ํด๋จธ๋
ธ์ด๋์์ ํ
์คํธ๋ ํ๋ ๊ฐ์๊ฐ ์ ํ์ ์ด๋ฉฐ, ๋ ๋ณต์กํ ์กฐ์(manipulation) ํ์คํฌ์์ ํ์ฅ ๊ฐ๋ฅ์ฑ ๋ฏธ์ง์
- ๋ง์คํฌ ์ ๋ต์ ์ค๊ณ ์ ํ(root, kinematic position, joint angle๋ง ํฌํจ)์ด ๊ณ ์์ค ์ถ์์ ์ ์ด(์์ฐ์ธ์ด)์์ ์ต์ ์ธ์ง ๋ช
ํํ์ง ์์
- ํ์ ์ฐ๊ตฌ๋ก ๋๊ท๋ชจ ๋ค์ค ๋ก๋ด ๋ฐ์ดํฐ์
ํ๋ณด, ๋ ๋ณต์กํ ์กฐ์ ํ์คํฌ ํ์ฅ, sim-to-real ์ ์ดํ์ต ๊ฐ์ ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ ํด๋จธ๋
ธ์ด๋ ๋ก๋ด ์ ์ด์ ํตํฉ ํ๋ ํ์ต ํจ๋ฌ๋ค์์ ๋ช
ํํ ์ ์ํ๊ณ masked online distillation๊ณผ CVAE๋ฅผ ํตํ ์ค์ ์ ๊ตฌํ์ผ๋ก ๋ค์ํ ์ ์ด ๋ชจ๋ ์ง์๊ณผ ๋น ๋ฅธ ์ ํ๋ ์ต๋์ ์คํํ์ผ๋ฉฐ, ์๋ฎฌ๋ ์ด์
๊ณผ ์ค์ ํ๋ซํผ ์์ชฝ์์ ๊ด๋ฒ์ํ๊ฒ ๊ฒ์ฆํ์ฌ ๋ฒ์ฉ ํด๋จธ๋
ธ์ด๋ ์ ์ด์ ์๋ก์ด ๋ฐฉํฅ์ ์ ์ํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์