BFM-Zero: A Promptable Behavioral Foundation Model for Humanoid Control Using Unsupervised Reinforcement Learning
์ ์: Yitang Li, Zhengyi Luo, Tonghe Zhang, Cunxi Dai, Anssi Kanervisto, Andrea Tirinzoni, Haoyang Weng, Kris Kitani, Mateusz Guzek, Ahmed Touati, Alessandro Lazaric, Matteo Pirotta, Guanya Shi | ๋ ์ง: 2025-11-06 | DOI: 10.48550/arXiv.2511.04131 📄 PDF
Essence
Figure 2: An overview of the BFM-Zero framework. After the pre-training stage, BFM-Zero forms a latent
BFM-Zero๋ unsupervised RL๊ณผ Forward-Backward ๋ชจ๋ธ์ ํ์ฉํ์ฌ ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ๋ค์ํ ์ ์ด ์์
์ ๋จ์ผ ์ ์ฑ
์ผ๋ก ์ํํ ์ ์๋ promptable behavioral foundation model์ ์ ์ํ๋ค. ๊ณต์ ์ ์ฌ ๊ณต๊ฐ์ ๋ชจ์
, ๋ชฉํ, ๋ณด์์ ์๋ฒ ๋ฉํ์ฌ zero-shot ์ถ๋ก ๊ณผ few-shot ์ ์์ ๊ฐ๋ฅํ๊ฒ ํ๋ค.
Motivation
- Known: Vision-Language-Action ๋ชจ๋ธ๊ณผ ๊ฐ์ foundation model์ด ๋ก๋ด ์ ์ด์์ ์ฑ๊ณตํ๊ณ ์์ผ๋ฉฐ, sim-to-real ํ์ดํ๋ผ์ธ๊ณผ on-policy RL(PPO)์ ๊ธฐ๋ฐ์ผ๋ก ํ ๋ชจ์
์ถ์ ์ด ํด๋จธ๋
ธ์ด๋ ๋ก๋ด ์ ์ด์์ ์ง์ ์ ์ด๋ฃจ๊ณ ์๋ค.
- Gap: ๊ธฐ์กด ํด๋จธ๋
ธ์ด๋ ์ ์ด ๋ฐฉ์์ task-specific์ผ๋ก ์ค๊ณ๋๊ฑฐ๋ ์๋ฎฌ๋ ์ด์
์๋ง ์ ํ๋์ด ์์ผ๋ฉฐ, off-policy unsupervised RL์ด ์ค์ ๋ก๋ด์ sim-to-real ๊ฐญ๊ณผ ๋์ ๊ต๋์ ๋ํด ๊ฒฌ๊ณ ํ๊ฒ ์๋ํ ์ ์๋์ง ๋ถ๋ช
ํํ๋ค.
- Why: ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ด ๋ค์ํ ์ค์ ํ๊ฒฝ์์ ์ฌ๋ฌ ์์
์ ์ํํ๋ ค๋ฉด ์ฌํ์ต ์์ด ๋ค์ํ ๋ชฉํ์ ์ ์ํ ์ ์๋ ํตํฉ๋ ์ ์ฑ
์ด ํ์ํ๋ฉฐ, ์ด๋ ์ค์ฉ์ ์ธ ๋ฐฐํฌ๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ๋ค.
- Approach: BFM-Zero๋ motion capture ๋ฐ์ดํฐ๋ก ์ ๊ทํ๋ online off-policy unsupervised RL์ ํตํด ๊ณต์ ์ ์ฌ ํํ์ ํ์ตํ๊ณ , domain randomization, history-dependent asymmetric learning, auxiliary reward shaping์ ์ ์ฉํ์ฌ sim-to-real ๊ฐญ์ ํด์ํ๋ค.
Achievement
Figure 1: BFM-Zero enables versatile and robust whole-body skills. (A-C) Diverse zero-shot inference
- Zero-shot ์ถ๋ก ๋ค์ค ์ธํฐํ์ด์ค: motion tracking, goal reaching, reward optimization ๋ฑ ๋ค์ํ downstream task๋ฅผ ์ฌํ์ต ์์ด ์ํ ๊ฐ๋ฅ
- ์ค์ ๋ก๋ด ๊ฒ์ฆ: Unitree G1 ํด๋จธ๋
ธ์ด๋์์ ๋์ ๋์ฑ, ๋ณต๊ตฌ, ๋ค์ํ ์์ธ ๋๋ฌ ๋ฑ์ ์ฑ๊ณต์ ์ผ๋ก ์์ฐ
- Few-shot ์ ์: zero-shot ์ฑ๋ฅ์ด ๋ถ์กฑํ ๋ ์์์ ํ๊ฒฝ ์ํธ์์ฉ๋ง์ผ๋ก ํจ์จ์ ๊ฐ์ ๊ฐ๋ฅ
- ์ฒซ ๋ฒ์งธ off-policy unsupervised BFM: ํด๋จธ๋
ธ์ด๋ ์ค์ ๋ฐฐํฌ์์ unsupervised RL ๊ธฐ๋ฐ foundation model์ ์ฒซ ์ฌ๋ก
How
Figure 2: An overview of the BFM-Zero framework. After the pre-training stage, BFM-Zero forms a latent
- FB-CPR ์๊ณ ๋ฆฌ์ฆ ๊ธฐ๋ฐ: latent task feature ฯ, latent-conditioned policy ฯz, successor features Fz๋ฅผ ํ์ฉํ์ฌ ๊ณต์ ์ ์ฌ ๊ณต๊ฐ ํ์ต
- Pre-training ๋จ๊ณ: ์จ๋ผ์ธ reward-free ์ํธ์์ฉ๊ณผ unlabeled motion capture ๋ฐ์ดํฐ๋ฅผ ๊ฒฐํฉํ์ฌ ์ผ๋ฐํ๋ ํํ ํ์ต
- Domain randomization: ์๋ฎฌ๋ ์ด์
์์ ๋ค์ํ ํ๊ฒฝ ์กฐ๊ฑด์ ์ ์ฉํ์ฌ ๋ก๋ด์ ๊ฐ๊ฑด์ฑ ๊ฐํ
- History-dependent asymmetric learning: ์๋ฎฌ๋ ์ด์
์์๋ง ์ด์ฉ ๊ฐ๋ฅํ ํน๊ถ ์ ๋ณด(privileged information)๋ฅผ ํ์ฉํ ๋น๋์นญ ํ์ต
- Auxiliary reward: joint limit ๋ฑ ์์ ์ ์ฝ์ ์ํ auxiliary reward ์ถ๊ฐ
- Zero-shot ์ถ๋ก : ํ์ต๋ ์ ์ฑ
์ task-specific ์๋ฒ ๋ฉ(๋ชฉํ, ๋ชจ์
์ํ์ค, ๋ณด์)์ ์กฐ๊ฑด์ผ๋ก ์ฃผ์ด ๋ค์ํ ์์
์ํ
- Few-shot ์ ์: ์ ์ฌ ๊ณต๊ฐ์์ sampling-based optimization์ ํตํด post-training
Originality
- Off-policy unsupervised RL์ ํด๋จธ๋
ธ์ด๋ ์ค์ ๋ก๋ด ์ ์ด์ ์ ์ฉํ ์ฒซ ์๋๋ก, ๊ธฐ์กด on-policy PPO ๊ธฐ๋ฐ ์ ๊ทผ๊ณผ ๊ทผ๋ณธ์ ์ผ๋ก ๋ค๋ฅธ ํจ๋ฌ๋ค์ ์ ์
- Forward-Backward ๋ชจ๋ธ๊ณผ motion capture ์ ๊ทํ๋ฅผ ๊ฒฐํฉํ์ฌ objective-centric์ด๊ณ ์ค๋ช
๊ฐ๋ฅํ ์ ์ฌ ๊ณต๊ฐ ๊ตฌ์ฑ
- Single promptable policy๋ก multiple downstream task (tracking, goal reaching, reward optimization)๋ฅผ zero-shot์ผ๋ก ์ฒ๋ฆฌํ๋ ํตํฉ ์ธํฐํ์ด์ค ๊ตฌํ
- History-dependent asymmetric learning๊ณผ critical reward shaping์ ํตํ ์ค์ฉ์ sim-to-real ๊ฐญ ํด๊ฒฐ ์ ๋ต
Limitation & Further Study
- Motion capture ๋ฐ์ดํฐ์ ํ์ง๊ณผ ๋ค์์ฑ์ด ํ์ต๋ ํํ์ ํ์ง์ ๋ฏธ์น๋ ์ํฅ์ ๋ํ ๋ถ์ ๋ถ์กฑ
- Zero-shot ์ฑ๋ฅ์ด task complexity์ ๋ฐ๋ผ ๋ณ๋ํ๋ ๊ฒฝ์ฐ์ ๋ํ ์์ธํ ์คํจ ์ฌ๋ก ๋ถ์ ํ์
- Unitree G1 ํน์ ํ๋์จ์ด์ ๋ํ ์ต์ ํ๋ก ๋ค๋ฅธ ํด๋จธ๋
ธ์ด๋ ํ๋ซํผ์ผ๋ก์ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ ๋ฏธํ์ธ
- Few-shot ์ ์์ ํ์ํ ํ๊ฒฝ ์ํธ์์ฉ์ ์ํ ํจ์จ์ฑ ๊ฐ์ ๋ฐฉ์ ํ์ ํ์
- ๊ณ ์์ค ๊ณํ๊ณผ์ ํตํฉ์ด๋ ๋งค๋ํฐ๋ ์ด์
์์
ํ์ฅ์ ๋ํ ํ์ ์ฐ๊ตฌ ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: BFM-Zero๋ unsupervised RL์ ํตํด ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ์ค์ ๋ฐฐํฌ์์ ์ฒ์์ผ๋ก promptable foundation model์ ์ฑ๊ณต์ ์ผ๋ก ๊ตฌํํ์์ผ๋ฉฐ, zero-shot ๋ค์ค ์์
์ํ๊ณผ few-shot ์ ์์ ๊ท ํ์ ์ด๋ฃจ๋ ์ค์ฉ์ ์๋ฃจ์
์ ์ ์ํ๋ค. ์ด๋ ๋ก๋ด ์ ์ด์ ํจ๋ฌ๋ค์ ์ ํ์ ์ ์ํ๋ ์ค์ํ ๊ธฐ์ฌ์ด๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์