Towards Adaptive Humanoid Control via Multi-Behavior Distillation and Reinforced Fine-Tuning
์ ์: Yingnan Zhao, Xinmiao Wang, Dewei Wang, Xinzhe Liu, Dan Lu, Qilong Han, Peng Liu, Chenjia Bai | ๋ ์ง: 2025-11-11 | DOI: 10.48550/arXiv.2511.06371 📄 PDF
Essence
Figure 2: Overview of the proposed two-stage framework Adaptive Humanoid Control. In the first stage, we train two separ
ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ด ๋ค์ํ ์ด์กฑ๋ณดํ ํ๋(์๊ธฐ, ๊ฑท๊ธฐ, ๋ฐ๊ธฐ, ์ ํ)์ ํ์ตํ ์ ์๋๋ก ๋ค์คํ๋ ์ฆ๋ฅ(multi-behavior distillation)์ ๊ฐํํ์ต ๋ฏธ์ธ์กฐ์ ์ ํตํด ์ ์ํ ์ ์ด๊ธฐ๋ฅผ ๊ฐ๋ฐํ๋ค.
Motivation
- Known: ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ๊ฐ ๊ธฐ์ ๋ณ๋ก ๋
๋ฆฝ์ ์ธ ์ ์ฑ
์ ํ์ตํ์ฌ ํ๋ ํนํ ์ ์ด๊ธฐ๋ฅผ ์์ฑํ๋ฏ๋ก ์ผ๋ฐํ ๋ฅ๋ ฅ์ด ์ ํ์ ์ด๊ณ ๋ถ๊ท์นํ ์งํ์์ ์ฑ๋ฅ์ด ์ทจ์ฝํ๋ค.
- Gap: ๋ค์ค ํ๋์ ๋์์ ํ์ตํ๋ ๊ฒ์ ์๋ก ๋ค๋ฅธ ๋ณด์ ํจ์๋ก ์ธํ ์ ์ฑ
๊ทธ๋๋์ธํธ ์ถฉ๋ ๋ฌธ์ ๋ก ์ธํด ์ด๋ ต๊ณ , ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ๋ค์ค ๊ธฐ์ ํ์ต ์ฐ๊ตฌ๋ ์ฌ์ ํ ๋ถ์กฑํ๋ค.
- Why: ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ด ๋ค์ํ ํ๊ฒฝ๊ณผ ์ํฉ์์ ์ ์์ ์ผ๋ก ํ๋์ ์ ํํ๊ณ ๋ณต์กํ ์งํ์ ๊ฒฌ๊ณ ํ๊ฒ ๋์ํ ์ ์๋ ๋ฅ๋ ฅ์ ์ค์ ๋ฐฐํฌ์ ํ์์ ์ด๋ค.
- Approach: 2๋จ๊ณ ํ๋ ์์ํฌ๋ฅผ ์ฑํํ์ฌ ๋จผ์ ํ๋ ํนํ ์ ์ฑ
๋ค์ ํ์ตํ ํ ๋ค์คํ๋ ์ฆ๋ฅ๋ฅผ ํตํด ๊ธฐ๋ณธ ๋ค์คํ๋ ์ ์ด๊ธฐ๋ฅผ ์ป๊ณ , ๋ค์ํ ์งํ์์์ ์จ๋ผ์ธ ๊ฐํํ์ต ๋ฏธ์ธ์กฐ์ ์ผ๋ก ์งํ ์ ์์ฑ์ ํฅ์์ํจ๋ค.
Achievement
Figure 1: Comparison between multi-task RL and our pro-
- ๋ค์คํ๋ ์ฆ๋ฅ ๊ธฐ๋ฒ: ํ๋ ํนํ ์ ์ฑ
๋ค(recovery, walking)์ ๊ฐ๋
ํ์ต ๋ฐฉ์์ผ๋ก ๊ธฐ๋ณธ ๋ค์คํ๋ ์ ์ฑ
์ผ๋ก ์ฆ๋ฅํ์ฌ ์ง์ ์ ์ธ ๋ค์ค ์ ์ฑ
ํ์ต์ ์ด๋ ค์์ ์ฐํํ๋ค.
- ๊ทธ๋๋์ธํธ ์ถฉ๋ ํด๊ฒฐ: 2๋จ๊ณ ๋ฏธ์ธ์กฐ์ ์์ gradient surgery์ ํ๋ ํนํ critic์ ์ฌ์ฉํ์ฌ ๋ค์ค ํ์คํฌ ํ์ต ์ ๊ทธ๋๋์ธํธ ์ถฉ๋์ ์ํํ๋ค.
- Adversarial Motion Prior ํตํฉ: ์ธ๊ฐ ๋์ ์ฌ์ ์ ํตํด ์ธ๊ฐ๋ค์ด ์ ์ด๋ฅผ ํ์ตํ๋ฉด์๋ ๋ค์คํ๋ ํ์ฅ์ฑ์ ์ ์งํ๋ค.
- ์๋ฎฌ๋ ์ด์
๋ฐ ์ค๋ก๋ด ๊ฒ์ฆ: Unitree G1 ๋ก๋ด์์ ๋ณต์กํ ์งํ(๊ณ๋จ, ๊ฒฝ์ฌ๋ฉด)์์์ ๊ฐ๊ฑดํ ์ด๋์ฑ์ ๋ฌ์ฑํ๋ค.
How
Figure 2: Overview of the proposed two-stage framework Adaptive Humanoid Control. In the first stage, we train two separ
- 1๋จ๊ณ: ํ๋ณต ๋์(standing-up)๊ณผ ๋ณดํ ๋์์ ์ํ ํ๋ ํนํ ์ ์ฑ
ฯ_b^r, ฯ_b^w๋ฅผ PPO๋ก ๋ณ๋ ํ์ต
- 2๋จ๊ณ: ํ๋ ํนํ ์ ์ฑ
์ ์ถ๋ ฅ์ ๊ฐ๋
์ ํธ๋ก ํ์ฌ ๊ธฐ๋ณธ ๋ค์คํ๋ ์ ์ฑ
ฯ_d๋ก ์ฆ๋ฅ
- 3๋จ๊ณ: ๋ค์ํ ์งํ์์ ์ฆ๋ฅ๋ ์ ์ฑ
์ผ๋ก ๊ถค์ ์ ์์งํ๊ณ ์จ๋ผ์ธ ๊ฐํํ์ต์ผ๋ก ๋ฏธ์ธ์กฐ์
- ํน์ง: ๊ด์ฐฐ ๊ณต๊ฐ์ ํ๋ ํนํ(privileged information s_priv ํฌํจ) ์ ์ฑ
ํ์ต๊ณผ ์ค์ ๋ฐฐํฌ(proprioception s_prop๋ง ์ฌ์ฉ) ์ ์ฑ
์ผ๋ก ๊ตฌ๋ถ
- Gradient surgery๋ฅผ ํตํด ์๋ก ๋ค๋ฅธ ๋ณด์ ํจ์๋ก๋ถํฐ ๋ฐ์ํ๋ ๊ทธ๋๋์ธํธ ์ถฉ๋ ์ํ
- ํ๋ ํนํ critic์ ์ ์งํ์ฌ ๊ฐ ํ๋์ ๋ํ ์ ํํ ๊ฐ์น ์ถ์ ์ ๊ณต
Originality
- ๋ค์คํ๋ ์ฆ๋ฅ๋ฅผ ํตํ ์๋ก์ด ํด๋จธ๋
ธ์ด๋ ์ ์ด ์ ๊ทผ๋ฒ: ๊ธฐ์กด์ ์ง์ ๋ค์ค ์ ์ฑ
ํ์ต ๋์ ์ฆ๋ฅ ํ ๋ฏธ์ธ์กฐ์ ํ๋ 2๋จ๊ณ ํ๋ ์์ํฌ ์ ์
- Adversarial Motion Prior์ ๋ค์คํ๋ ํ์ต์ ๊ฒฐํฉ: ์ธ๊ฐ ๋์ ์ฌ์ ์ ๋ค์คํ๋ ํด๋จธ๋
ธ์ด๋ ์ ์ด์ ํตํฉํ๋ ๋ฐฉ๋ฒ๋ก
- Gradient surgery์ ํ๋ ํนํ critic์ ์กฐํฉ: ๋ค์ค ํ์คํฌ RL์์ ๊ทธ๋๋์ธํธ ์ถฉ๋ ์ํ๋ฅผ ์ํ ๊ตฌ์ฒด์ ๊ธฐ๋ฒ ์ ์
- ์ค๋ก๋ด ๊ฒ์ฆ์ ๊ฐํ: ์๋ฎฌ๋ ์ด์
๋ฟ๋ง ์๋๋ผ Unitree G1์์์ ์ค์ ๋ฐฐํฌ ์ฑ๊ณต ์ฌ๋ก ์ ์
Limitation & Further Study
- ํ์ฌ ๊ตฌํ์ ํ๋ณต๊ณผ ๋ณดํ ๋ ๊ฐ์ง ์ฃผ์ ํ๋์๋ง ์ง์ค๋์ด ์์ผ๋ฉฐ, ๋ฐ๊ธฐ๋ ์ ํ ๋ฑ ์ถ๊ฐ ํ๋์ผ๋ก์ ํ์ฅ์ฑ์ด ๋ช
ํํ์ง ์์
- ๋ค์คํ๋ ์ฆ๋ฅ ๊ณผ์ ์์ ๊ฐ๋ณ ์ ์ฑ
์ ํ์ง์ด ์ต์ข
๋ค์คํ๋ ์ ์ฑ
์ ๋ฏธ์น๋ ์ํฅ์ ๋ํ ๋ถ์ ๋ถ์กฑ
- ๊ทธ๋๋์ธํธ surgery์ ํฌ์ ๋ฉ์ปค๋์ฆ์ ๋ํ ์์ธํ ์ํ์ ์ ๋ ๋ฐ ์๋ ด ๋ณด์ฅ ์กฐ๊ฑด ๋ฏธ์ถฉ๋ถ
- ์งํ ์ ์์ฑ์ด ํ๋ จ์ ์ฌ์ฉ๋ ์งํ ์ ํ์ ์ ํ๋ ์ ์์ผ๋ฉฐ, ์์ ํ ์๋ก์ด ์งํ์ ๋ํ ์ผ๋ฐํ ๋ฅ๋ ฅ ๊ฒ์ฆ ํ์
- ํ์์ฐ๊ตฌ: ๋ ๋ง์ ํ๋์ผ๋ก์ ํ์ฅ, ๋ฉํํ์ต์ ํตํ ๋น ๋ฅธ ์งํ ์ ์, ์๋ฎฌ๋ ์ด์
-์ค์ ๊ฐญ ์ต์ํ ๊ธฐ๋ฒ ๊ฐ๋ฐ
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ๋ค์คํ๋ ์ฆ๋ฅ์ ๊ฐํํ์ต ๋ฏธ์ธ์กฐ์ ์ ๊ฒฐํฉํ 2๋จ๊ณ ํ๋ ์์ํฌ๋ ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ์ ์ํ ์ ์ด๋ผ๋ ์ค์ํ ๋ฌธ์ ์ ๋ํ ์ค์ฉ์ ์ด๊ณ ํจ๊ณผ์ ์ธ ํด๊ฒฐ์ฑ
์ ์ ์ํ๋ฉฐ, ์๋ฎฌ๋ ์ด์
๊ณผ ์ค๋ก๋ด ์คํ์ ํตํด ๊ทธ ํ๋น์ฑ์ ์
์ฆํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์