A Survey of Behavior Foundation Model: Next-Generation Whole-Body Control System of Humanoid Robots
์ ์: Mingqi Yuan, Tao Yu, Wenqi Ge, Xiuyong Yao, Huijiang Wang, Jiayu Chen, Bo Li, Wei Zhang, Wenjun Zeng, Hua Chen, Xin Jin | ๋ ์ง: 2025-06-25 | URL: https://arxiv.org/abs/2506.20487 📄 PDF
Essence
๋ณธ ๋
ผ๋ฌธ์ ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ์ ์ ์ ์ด(WBC)๋ฅผ ์ํ ํ๋ ๊ธฐ์ด ๋ชจ๋ธ(BFM)์ ๋ฐ์ ๊ณผ ์์ฉ์ ์ข
ํฉ์ ์ผ๋ก ์กฐ์ฌํ๋ฉฐ, ๋๊ท๋ชจ ์ฌ์ ํ์ต์ ํตํด ์ฌ์ฌ์ฉ ๊ฐ๋ฅํ ํ๋ ๊ธฐ์ด๋ฅผ ํ์ตํ์ฌ ๋ค์ํ ์์
์ ๋น ๋ฅด๊ฒ ์ ์ํ ์ ์๋ ์ฐจ์ธ๋ ์ ์ด ์์คํ
์ ์ ์ํ๋ค.
Motivation
- Known: ์ ํต์ MPC/WBOSC ๊ธฐ๋ฐ ๋ชจ๋ธ ์ ์ด๋ ๊ฐ๊ฑดํ์ง๋ง ์์
์ฌ์ค๊ณ๊ฐ ๋ฒ๊ฑฐ๋กญ๊ณ , RL/IL ๊ธฐ๋ฐ ํ์ต ์ ์ด๋ ์ ์ฐํ๋ ์ผ๋ฐํ ๋ฅ๋ ฅ์ด ์ ํ์ ์ด๋ฉฐ ์๋ฎฌ๋ ์ด์
-ํ์ค ๊ฐ๊ทน ๋ฌธ์ ๊ฐ ์๋ค.
- Gap: ๊ธฐ์กด ํ์ต ๊ธฐ๋ฐ ์ ์ด๊ธฐ๋ ์๋ก์ด ์์
๋ง๋ค ๋
ธ๋์ง์ฝ์ ์ธ ์ฌํ์ต์ ์๊ตฌํ๊ณ ํ์คํฌ ๊ฐ ์ผ๋ฐํ๊ฐ ์ฝํ์ฌ, ์ค์ ์ธ๊ณ์์ ํ์ฅ ๊ฐ๋ฅํ ํด๋จธ๋
ธ์ด๋ ์ ์ด์ ๊ธฐ๋ณธ ๋ณ๋ชฉ์ด ๋๊ณ ์๋ค.
- Why: ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ๋ณต์กํ ๋์ญํ, ์ ์ด ๋ณํ, ๋ค์ํ ์์
์๊ตฌ์ฌํญ์ ๋์์ ์ฒ๋ฆฌํด์ผ ํ๋ฏ๋ก ์ผ๋ฐํ ๊ฐ๋ฅํ๊ณ ํจ์จ์ ์ธ ์ ์ด ํจ๋ฌ๋ค์์ด ํ์์ ์ด๋ฉฐ, BFM์ ์ด๋ฌํ ์๊ตฌ๋ฅผ ์ถฉ์กฑํ ์ ์๋ ์ ๋งํ ์๋ก์ด ์ ๊ทผ ๋ฐฉ์์ด๋ค.
- Approach: ๋ณธ ๋
ผ๋ฌธ์ BFM์ ๊ฐ๋
์ ํ๋ ์ ์ํ์ฌ ๊ด๋ฒ์ํ ํ๋ ๋ฐ์ดํฐ์ ๋ํ ๋๊ท๋ชจ ์ฌ์ ํ์ต์ผ๋ก๋ถํฐ ํ๋ ๊ธฐ์ด๋ฅผ ํ์ตํ๊ณ , ์ด๋ฅผ ๋ค์ํ ๋ค์ด์คํธ๋ฆผ ์์
์ผ๋ก ์ ์ํ๊ฒ ์ ์์ํฌ ์ ์๋ ์ฒด๊ณ์ ๊ฐ์๋ฅผ ์ ๊ณตํ๋ค.
Achievement
Fig. 2. Evolution map of the whole-body controller for humanoid robots.
- ํฌ๊ด์ ์งํ ์ง๋: ๋ชจ๋ธ ๊ธฐ๋ฐ โ ํ์ต ๊ธฐ๋ฐ โ BFM์ผ๋ก ์งํํ๋ ํด๋จธ๋
ธ์ด๋ WBC ์ ์ด์ ์ญ์ฌ์ ๋ฐ์ ๊ณผ์ ์ ์๊ฐํํ๊ณ ๊ฐ ํจ๋ฌ๋ค์์ ์ฅ๋จ์ ์ ๋ถ์
- BFM ์ ์ ํ์ฅ: Foundation model์ ์๋ฆฌ๋ฅผ ๋ก๋ด ์ ์ด์ ์ ์ฉํ์ฌ vision-language-action(VLA) ๋ชจ๋ธ์ ํตํฉํ๋ ๋ค์ค๋ชจ๋ฌ ํ๋ ๊ธฐ์ด ๋ชจ๋ธ ๊ฐ๋
์ ๋ฆฝ
- ๋ค์ํ ์ฌ์ ํ์ต ํ์ดํ๋ผ์ธ ์ถ์ : ๋ฐ๋ชจ, ์ํธ์์ฉ, ์๋ฎฌ๋ ์ด์
, ํฉ์ฑ ๋ฑ ๋ค์ํ ๋ฐ์ดํฐ ์์ค์ RL/IL ๊ธฐ๋ฐ ์ฌ์ ํ์ต ๋ฐฉ์์ ๋ํฅ ๋ถ์
- ์ค์ธ๊ณ ์์ฉ ๋ฐ ๋์ ๊ณผ์ ๋
ผ์: BFM์ ์ค์ ์ ์ฉ ์ฌ๋ก, ํ์ฌ ์ ํ์ฌํญ, ๊ธด๊ธ ๊ณผ์ , ํฅํ ๊ธฐํ๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ์ ๋ฆฌ
How
- ์ ํต ๋ชจ๋ธ ๊ธฐ๋ฐ ์ ์ด(MPC, WBOSC, ๊ณ์ธต์ QP)์ ์ด๋ก ์ ๊ธฐ์ด์ ์ค์ ์ ์ฉ ์ฌ๋ก(Atlas, HRP-2) ๊ฒํ
- DeepMimic, AMP ๋ฑ RL/IL ๊ธฐ๋ฐ ํ์ต ์ ์ด์ ๊ธฐ์ ์ ์ง์ ๊ณผ ํ๊ณ์ (์ํ ๋นํจ์จ์ฑ, Sim2Real ๊ฐญ, ํ์คํฌ๋ณ ํนํ) ๋ถ์
- ํ๋ ๋ฐ์ดํฐ์ ๋ค์ค ์์ค(์ธ๊ฐ ์์ฐ, ์์ด์ ํธ-ํ๊ฒฝ ์ํธ์์ฉ, ์๋ฎฌ๋ ์ด์
)์์ ๊ด๋ฒ์ํ ํ๋ ๊ธฐ์ด๋ฅผ ํ์ตํ๋ ์ฌ์ ํ์ต ์ฒด๊ณ
- ํ์ต๋ ๊ธฐ์ด ๋ชจ๋ธ์ ๋ค์ํ ๋ค์ด์คํธ๋ฆผ ์์
(์์ง์ ์ถ์ , ๋ชฉํ ๋๋ฌ, ๋ช
๋ น ์ถ์ข
, ํ
์คํธ-๋ชจ์
) ์ ์ ๋ฉ์ปค๋์ฆ
- GitHub ์ ์ฅ์(awesome-bfm-papers)๋ฅผ ํตํ BFM ๊ด๋ จ ๋
ผ๋ฌธ๊ณผ ํ๋ก์ ํธ์ ์ง์์ ์์ง ๋ฐ ์
๋ฐ์ดํธ
Originality
- Foundation model์ ์๋ฆฌ๋ฅผ ๋ก๋ด ์ ์ ์ ์ด์ ์ฒด๊ณ์ ์ผ๋ก ์ ์ฉํ BFM ๊ฐ๋
์ ํ๋ ๋ฐ ์ฌ์ ์
- ํด๋จธ๋
ธ์ด๋ WBC์ 40๋
์ญ์ฌ๋ฅผ ๋ชจ๋ธ ๊ธฐ๋ฐโํ์ต ๊ธฐ๋ฐโBFM์ 3๋จ๊ณ ์งํ๋ก ๋ช
ํํ ๊ตฌ์กฐํ
- Vision-language-action(VLA) ๋ชจ๋ธ์ ํตํฉํ ๋ค์ค๋ชจ๋ฌ ํ๋ ๊ธฐ์ด ๋ชจ๋ธ์ ์๋ก์ด ํจ๋ฌ๋ค์ ์ ์
- ๋๊ท๋ชจ ๋ค์์ ๋ฐ์ดํฐ ์์ค(๋ฐ๋ชจ, ์ํธ์์ฉ, ์๋ฎฌ๋ ์ด์
, ํฉ์ฑ)๋ฅผ ํ์ฉํ ๋ค์ํ ์ฌ์ ํ์ต ํ์ดํ๋ผ์ธ ๋ถ๋ฅ ์ฒด๊ณ ๊ตฌ์ถ
Limitation & Further Study
- ์กฐ์ฌ ๋
ผ๋ฌธ์ ํ๊ณ: ๊ตฌ์ฒด์ ์ธ ์๋ก์ด ๋ฐฉ๋ฒ๋ก ์ด๋ ์๊ณ ๋ฆฌ์ฆ ์ ์ ๋ณด๋ค๋ ๊ธฐ์กด ์ฐ๊ตฌ์ ์ข
ํฉ์ด๋ฏ๋ก ๊ธฐ์ ์ ํ์ ์ฑ์ด ์ ํ์
- BFM์ ์คํ ์ฑ์๋: ๋
ผ๋ฌธ์์ ๋
ผ์ํ๋ BFM ์ ์ฉ ์ฌ๋ก๊ฐ ์ด๊ธฐ ๋จ๊ณ์ด๋ฉฐ, ์ค์ธ๊ณ ํด๋จธ๋
ธ์ด๋์์์ ์ฅ๊ธฐ์ ์ฑ๋ฅ ๊ฒ์ฆ ๋ถ์กฑ
- Sim2Real ๊ฐญ์ ํด๊ฒฐ์ฑ
๋ฏธํก: BFM์ด Sim2Real ๋ฌธ์ ๋ฅผ ๊ทผ๋ณธ์ ์ผ๋ก ํด๊ฒฐํ๋ ๋ฐฉ์์ ๋ํ ๊ตฌ์ฒด์ ๊ธฐ์ ๋ฐ ์ค์ฆ ๊ฒฐ๊ณผ ๋ถ์กฑ
- ์ผ๋ฐํ ํ๊ณ ๋
ผ์ ๋ถ์กฑ: ์ ํ๋ ๋ฐ์ดํฐ ๋๋ ๋ถํฌ ์ธ(OOD) ์ํฉ์์์ BFM ์ฑ๋ฅ ์ ํ ๋ฐ ๋์ฑ
์ ๋ํ ๊น์ด ์๋ ๋ถ์ ํ์
- ํ์ ์ฐ๊ตฌ: BFM์ ํ์ฅ์ฑ์ ๊ฒ์ฆํ๊ธฐ ์ํ ๋ค์ํ ํด๋จธ๋
ธ์ด๋ ํ๋ซํผ์์์ ๋๊ท๋ชจ ๋น๊ต ์คํ๊ณผ, ์ธ๊ฐ ์ ํธ๋ ๊ธฐ๋ฐ ๊ฐํํ์ต(RLHF) ๋ฑ ์ฑ๋ฅ ์ต์ ํ ๊ธฐ๋ฒ์ ์ฒด๊ณ์ ์ฐ๊ตฌ
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ ํด๋จธ๋
ธ์ด๋ ๋ก๋ด ์ ์ด์ ์ญ์ฌ์ ์งํ๋ฅผ ๋ช
ํํ ํ๊ณ BFM์ ์ฐจ์ธ๋ ํตํฉ ์ ์ด ํจ๋ฌ๋ค์์ผ๋ก ์ฒด๊ณ์ ์ผ๋ก ์ ์ํ์ฌ, ๋ก๋ด ์ ์ด ์ปค๋ฎค๋ํฐ์ ๋ช
ํํ ๋น์ ๊ณผ ๊ตฌ์กฐํ๋ ๊ฐ์๋ฅผ ์ ๊ณตํ๋ ๊ฐ์น ๋์ ์กฐ์ฌ ๋
ผ๋ฌธ์ด๋ค. ๋ค๋ง ๊ตฌ์ฒด์ ์ธ ๊ธฐ์ ์ ํ์ ๊ณผ ์ค์ธ๊ณ ๊ฒ์ฆ ๊ฒฐ๊ณผ๋ ์ถ๊ฐ ๊ฐ๋ฐ์ด ํ์ํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์