Zero-Shot Whole-Body Humanoid Control via Behavioral Foundation Models
์ ์: Andrea Tirinzoni, Ahmed Touati, Jesse Farebrother, Mateusz Guzek, Anssi Kanervisto, Yingchen Xu, Alessandro Lazaric, Matteo Pirotta | ๋ ์ง: 2025-04-15 | URL: https://arxiv.org/abs/2504.11054 📄 PDF
Essence
Figure 1 META MOTIVO is the first behavioral foundation model for humanoid agents that can solve whole-body control task
Forward-Backward representations with Conditional-Policy Regularization (FB-CPR)์ ํตํด unlabeled behavior dataset์ผ๋ก unsupervised RL์ ์ ๊ทํํ์ฌ, humanoid agent์ zero-shot whole-body control์ ๊ฐ๋ฅํ๊ฒ ํ๋ behavioral foundation model Meta Motivo๋ฅผ ๊ฐ๋ฐํ๋ค.
Motivation
- Known: Unsupervised RL๊ณผ behavior cloning ๊ธฐ๋ฐ ์ ๊ทผ๋ฒ๋ค์ ๊ฐ๊ฐ์ ์ฅ๋จ์ ์ด ์์ผ๋ฉฐ, ์ต๊ทผ demonstration์ ํ์ฉํ ์ ๊ทํ ๋ฐฉ๋ฒ๋ค์ด ๋ฑ์ฅํ๋ค. Foundation model์ ๊ฐ๋
์ ์ธ์ด์ vision ์์ญ์์ ์ฑ๊ณต์ ์ด๋ค.
- Gap: ๊ธฐ์กด zero-shot RL์ ๊ณ ์ฐจ์ ๋ถ์์ ์ ์ด(humanoid)์์ unsupervised exploration์ ํ๊ณ๋ก ์ฑ๋ฅ์ด ๋จ์ด์ง๋ฉฐ, behavior cloning์ dataset์ behavior ์ธ generalization์ด ์ ํ์ ์ด๋ค. ๋ ์ ๊ทผ๋ฒ์ ์ฅ์ ์ ๊ฒฐํฉํ ๋ฐฉ๋ฒ์ด ๋ถ์ฌํ๋ค.
- Why: Humanoid control์ ๋ก๋ณดํฑ์ค, ๊ฐ์ ์บ๋ฆญํฐ, NPC ๋ฑ ๊ด๋ฒ์ํ ์์ฉ๋ถ์ผ๊ฐ ์์ผ๋ฉฐ, ์ผ๋ฐํ๋ behavioral foundation model์ task-specific ํ์ต์ ํ์์ฑ์ ์ ๊ฑฐํ์ฌ ์ค๋ฌด์ ๊ฐ์น๊ฐ ํฌ๋ค.
- Approach: FB representation์ผ๋ก unlabeled trajectory๋ฅผ state-reward-policy ์ ์ฌ๊ณต๊ฐ์ embeddingํ๊ณ , latent-conditional discriminator๋ก dataset ์ํ ๋ถํฌ๋ฅผ coverํ๋๋ก ์ ์ฑ
์ ์ฅ๋ คํ์ฌ, imitation ์ ๊ทํ์ zero-shot ์ผ๋ฐํ๋ฅผ ๋์์ ๋ฌ์ฑํ๋ค.
Achievement
Figure 3 Human-evaluation. Left figure reports the percentage of times a behavior solved a reward-based (blue) or a goal
- FB-CPR ์๊ณ ๋ฆฌ์ฆ: Forward-Backward representation์ unlabeled behavior dataset์ผ๋ก ์ ๊ทํํ๋ online unsupervised RL ์๊ณ ๋ฆฌ์ฆ ์ ์
- Meta Motivo ๋ชจ๋ธ: SMPL ๊ธฐ๋ฐ humanoid์ ์ต์ด behavioral foundation model๋ก motion tracking, goal reaching, reward optimization์ zero-shot์ผ๋ก ์ํ
- ๊ฒฝ์๋ ฅ ์๋ ์ฑ๋ฅ: Task-specific ๋ฐฉ๋ฒ๊ณผ ์ ์ฌํ ์์ค์ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ฉด์ unsupervised RL ๋ฐ model-based baseline ์ด๊ณผ
- Human-like behavior ํํ: AMASS dataset์ ํ์ฉํ์ฌ ์ธ๊ฐ๋ค์ด ๋์์ ํ์ตํ๊ณ ํํ
- ์ฌํ์ฑ ๋ณด์ฅ: ํ๊ฒฝ, ์ฝ๋, ์ฌ์ ํ์ต ๋ชจ๋ธ ๊ณต๊ฐ
How
Figure 2 Illustration of the main components of FB-CPR: the discriminator is trained to estimate the ratio between the l
- Successor measure์ low-rank decomposition์ธ FB representation ํ์ฉํ์ฌ reward-policy factorization ๊ตฌํ
- Latent-conditional discriminator๋ฅผ ํตํด ํ์ต๋ ์ ์ฑ
์ด unlabeled dataset์ ์ํ ๋ถํฌ๋ฅผ 'cover'ํ๋๋ก ์ฅ๋ ค", 'Forward embedding F(s,a,z)์ backward embedding B(s)๋ฅผ ๋์ผํ ์ ์ฌ๊ณต๊ฐ์ ๋งคํํ์ฌ trajectory embedding
- Measure-valued Bellman equation (์ 2)์ temporal difference ์์คํจ์๋ก FB ํ์ต
- Actor network์ ํตํด ์ฐ์ action space์์ arg max ๊ทผ์ฌ
- AMASS ๋ชจ์
์บก์ฒ ๋ฐ์ดํฐ์
์ observation-only unlabeled behavior๋ก ํ์ฉํ์ฌ ์ ๊ทํ
Originality
- Unlabeled trajectory๋ฅผ ๊ฐ์ ์ ์ฌ๊ณต๊ฐ์ embeddingํ๊ณ latent-conditional discriminator๋ก ์ํ distribution ์ ๊ทํํ๋ ์์ด๋์ด๋ novel
- Zero-shot RL์ exploration ํ๊ณ๋ฅผ behavior dataset ์ ๊ทํ๋ก ํด๊ฒฐํ๋ ํตํฉ ํ๋ ์์ํฌ ์ ์
- ๊ณ ์ฐจ์ ๋ถ์์ ๋์ญํ์ ๊ฐ์ง humanoid ์ ์ด์ FB representation ์ต์ด ์ ์ฉ
- Behavioral foundation model ๊ฐ๋
์ embodied agent์ ์ฒ์ ์ฒด๊ณ์ ์ผ๋ก ๊ตฌํ
Limitation & Further Study
- AMASS ๊ฐ์ ๊ณ ํ์ง unlabeled behavior dataset์ availability์ ์์กด - ๋ค๋ฅธ ๋๋ฉ์ธ์ด๋ task-misaligned dataset์์์ ์ฑ๋ฅ ๋ถ๋ช
ํ
- Humanoid์ bipedal walker, ant maze์์๋ง ํ๊ฐ - ๋ ๋ค์ํ ์ ์ด ๋ฌธ์ ์ ๋ํ ์ผ๋ฐ์ฑ ๋ฏธ๊ฒ์ฆ
- Discriminator ๊ธฐ๋ฐ ์ ๊ทํ์ computational overhead์ scalability ๋
ผ์ ๋ถ์ฌ
- Zero-shot ์ฑ๋ฅ์ด task-specific ๋ฐฉ๋ฒ๋๋น ์ฌ์ ํ gap์ด ์์ - ๋ ๋์ in-context learning ๋ฉ์ปค๋์ฆ ํ์
- ํ์์ฐ๊ตฌ: (1) task-misaligned ๋ฐ์ดํฐ์
์ robustํ ๋ฐฉ๋ฒ ๊ฐ๋ฐ, (2) real robot ์ ์ดํ์ต ๊ฒ์ฆ, (3) ๋ค์ค embodiment ์ง์ BFM ํ์ฅ
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: FB-CPR์ unsupervised RL์ exploration ํ๊ณ๋ฅผ behavior dataset ์ ๊ทํ๋ก ์ฐฝ์์ ์ผ๋ก ํด๊ฒฐํ๊ณ , ๋ณต์กํ humanoid ์ ์ด์์ zero-shot generalization์ ๋ฌ์ฑํ ๊ธฐ์ ์ ์ผ๋ก ๊ฒฌ์คํ๊ณ ์๋ฏธ ์๋ ์ฐ๊ตฌ์ด๋ค. ์ฌํ์ฑ ๋ณด์ฅ๊ณผ ๋ค์ํ ํ๊ฐ๋ ๊ฐ์ ์ด๋, ๋ฐ์ดํฐ์
์์กด์ฑ๊ณผ ์ค์ ๋ก๋ด ๊ฒ์ฆ ๋ถ์ฌ๋ ํฅํ ๊ฐ์ ์ด ํ์ํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์