JAEGER: Dual-Level Humanoid Whole-Body Controller
์ ์: Ziluo Ding, Haobin Jiang, Yuxuan Wang, Zhenguo Sun, Yu Zhang, Xiaojie Niu, Ming Yang, Weishuai Zeng, Xinrun Xu, Zongqing Lu | ๋ ์ง: 2025-05-10 | URL: https://arxiv.org/abs/2505.06584 📄 PDF
Essence
Figure 2: The framework of JAEGER. The left shows the retargeting network, which uses an MLP
JAEGER๋ ์ธ๊ฐํ ๋ก๋ด์ ์์ฒด์ ํ์ฒด๋ฅผ ๋
๋ฆฝ์ ์ธ ๋ ๊ฐ์ ์ปจํธ๋กค๋ฌ๋ก ๋ถ๋ฆฌํ์ฌ ์ ์ดํ๋ dual-level whole-body controller๋ฅผ ์ ์ํ๋ฉฐ, root velocity tracking(coarse-grained)๊ณผ local joint angle tracking(fine-grained) ์ ์ด๋ฅผ ๋ชจ๋ ์ง์ํ๋ค.
Motivation
- Known: ๊ธฐ์กด์ whole-body control ๋ฐฉ๋ฒ๋ค์ ๋จ์ผ ์ปจํธ๋กค๋ฌ๋ก ์ํ์ฒด๋ฅผ ํตํฉ ์ ์ดํ๊ฑฐ๋, ์ธ๊ฐ ๋ชจ์
๋ฐ์ดํฐ(AMASS)๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ์ตํ๋ ๋ฐฉ์์ ์ฌ์ฉํด์๋ค. OmniH2O, HumanPlus ๋ฑ์ ๋ฐฉ๋ฒ๋ค์ด ์ด ๋ถ์ผ์ ์ ํ ์ฐ๊ตฌ๋ก ์๋ ค์ ธ ์๋ค.
- Gap: ๊ธฐ์กด ์ ๊ทผ๋ฒ์ ์์ฒด์ ์ถ์ ๊ฑฐ๋์ด ํ์ฒด ์์ ์ฑ์ ์ํด ๊ณผ๋ํ๊ฒ ๋ณด์์ ์ด ๋๊ฑฐ๋, coarse-grained ๋ฐ fine-grained ์ ์ด๋ฅผ ํจ๊ณผ์ ์ผ๋ก ๊ฒฐํฉํ์ง ๋ชปํ๋ ๋ฌธ์ ๊ฐ ์๋ค. ๋ํ ๋์ ์ฐจ์์ ํ๋ ๊ณต๊ฐ์ด ํ์ต์ ์ด๋ ต๊ฒ ํ๋ค.
- Why: ์ธ๊ฐํ ๋ก๋ด์ whole-body control์ ์ค์ ์์ฉ์ ์ํด ๊ฐ๊ฑด์ฑ๊ณผ ๋ค๋ชฉ์ ์ฑ์ด ํ์์ ์ด๋ฉฐ, ์์ฒด์ ํ์ฒด์ ์์ดํ ๊ธฐ๋ฅ์ ๊ฐ๊ฐ ์ต์ ํํ๋ ๊ฒ์ด ์ ์ด ์ฑ๋ฅ์ ํฌ๊ฒ ํฅ์์ํฌ ์ ์๋ค.
- Approach: ์์ฒด์ ํ์ฒด๋ฅผ ๋ถ๋ฆฌํ dual-level controller ์ํคํ
์ฒ๋ฅผ ์ ์ํ๊ณ , MLP ๊ธฐ๋ฐ์ retargeting network๋ก ์ธ๊ฐ ์์ธ๋ฅผ ์ธ๊ฐํ ๋ก๋ด ์์ธ๋ก ๋ณํํ ํ, supervised learning์ผ๋ก ์ด๊ธฐํํ๊ณ RL๋ก ์ต์ ํํ๋ curriculum learning ์ ๋ต์ ์ ์ฉํ๋ค.
Achievement
Figure 1: Some real-world demonstrations of JAEGER deployed on the H1-2. For the root-based
- MLP ๊ธฐ๋ฐ Retargeting: ์ต์ ํ ๊ธฐ๋ฐ IK ๋ฐฉ๋ฒ๋ณด๋ค ์ ํํ๊ณ ๋ถ๋๋ฌ์ด joint angle์ ์์ฑํ๋ฉฐ 1kHz์ ๋์ ์คํ ๋น๋๋ก ๋์
- Dual-level Controller: ์ํ์ฒด ๊ฐ ์ํธ๊ฐ์ญ์ ๊ฐ์์ํค๊ณ ๊ฐ ์ปจํธ๋กค๋ฌ๊ฐ ๊ณ ์ ์์
์ ์ง์คํ๊ฒ ํจ์ผ๋ก์จ ๊ฐ๊ฑด์ฑ ์ฆ๋
- ๊ตฌ์กฐํ๋ Curriculum Learning: supervised initialization๊ณผ RL์ ์กฐํฉํ์ฌ ์๋ ด ์๋ ๋ฐ ์ต์ ์ฑ ํฅ์
- ์ค์ ํ๊ฒฝ ๊ฒ์ฆ: ๋ ๊ฐ์ ์ธ๊ฐํ ๋ก๋ด ํ๋ซํผ์์ simulation ๋ฐ real-world ํ๊ฒฝ ๋ชจ๋์์ state-of-the-art ๋ฐฉ๋ฒ๋ค ๋๋น ์ฐ์์ฑ ์
์ฆ
How
Figure 2: The framework of JAEGER. The left shows the retargeting network, which uses an MLP
- AMASS ์ธ๊ฐ ๋ชจ์
๋ฐ์ดํฐ์
์์ human-humanoid pose pair๋ฅผ ์์ฑํ๊ณ lightweight three-layer MLP๋ก mapping ํ์ต
- ์์ฒด(upper-body) ์ปจํธ๋กค๋ฌ ฯ_upper์ ํ์ฒด(lower-body) ์ปจํธ๋กค๋ฌ ฯ_lower๋ฅผ ๋ถ๋ฆฌํ์ฌ ๋
๋ฆฝ์ ํ์ต
- Root-based mode(root velocity + upper body joint angle)์ pose-based mode(์ ์ฒด body joint angle)์ ๋ ๊ฐ์ง command ๋ชจ๋ ์ง์
- Stage 1: ํ์ฒด ์ปจํธ๋กค๋ฌ ๋จ๋
ํ์ต โ Stage 2: ์์ฒด ์ปจํธ๋กค๋ฌ supervised initialization โ Stage 3: PPO ๊ธฐ๋ฐ whole-body RL ํ์ต
- ๋ ์ปจํธ๋กค๋ฌ๊ฐ observations์ rewards๋ฅผ ๊ณต์ ํ์ฌ ํจ๊ณผ์ ์ธ ์กฐ์จ ๋ฌ์ฑ
- IsaacGym ์๋ฎฌ๋ ์ด์
ํ๊ฒฝ์์ ํ์ตํ๊ณ ์ค์ ๋ก๋ด ํ๋ซํผ์ผ๋ก ๋ฐฐํฌ
Originality
- ์ํ์ฒด ๋ถ๋ฆฌ ์ค๊ณ๋ฅผ ํตํ ์๋ก์ด ๊ด์ : ๊ธฐ์กด์ ํตํฉ ์ปจํธ๋กค๋ฌ ๋์ multi-agent ์์คํ
๊ด์ ์์ ๋ฌธ์ ๋ฅผ ์ฌ๊ตฌ์ฑ
- MLP ๊ธฐ๋ฐ retargeting์ ์ฐฝ์์ ์ ์ฉ: ๊ธฐ์กด ์ต์ ํ ๊ธฐ๋ฐ IK ๋ฐฉ์ ๋์ deep learning ํ์ฉ์ผ๋ก ์ค์๊ฐ์ฑ๊ณผ ์์ ์ฑ ๋์ ๋ฌ์ฑ
- Coarse-grained๊ณผ fine-grained ์ ์ด์ ํตํฉ: ๋ ๊ฐ์ ๋
๋ฆฝ ์ ์ฑ
์ distillํ์ฌ unified WBC ์ ์ฑ
์ผ๋ก ํตํฉํ๋ novel ์ ๊ทผ
- ๊ตฌ์กฐํ๋ curriculum learning: supervised learning์ผ๋ก ์ด๊ธฐํํ ํ RL๋ก ํ์ํ๋ staged training strategy์ ์ฒด๊ณ์ ์ค๊ณ
Limitation & Further Study
- ์ํ์ฒด ๋ถ๋ฆฌ ์ค๊ณ๊ฐ ๋์ ์ํธ์์ฉ์ด ํ์ํ ํน์ ๋์์์๋ ์ฑ๋ฅ ์ ํ ๊ฐ๋ฅ์ฑ
- ๋ ๊ฐ์ ๋
๋ฆฝ ์ปจํธ๋กค๋ฌ ์ ์ง๋ก ์ธํ ๋ชจ๋ธ ๋ณต์ก๋ ์ฆ๊ฐ ๋ฐ ๋๊ธฐํ ๋ฌธ์ ๊ฐ๋ฅ์ฑ
- AMASS ๋ฐ์ดํฐ์
์์กด์ฑ: ์ธ๊ฐํ ๋ก๋ด ์ฒดํ๊ณผ ๋ค๋ฅธ ์ธ๊ฐ ๋ฐ์ดํฐ์ ์ฒด๊ณ์ retargeting ์ค์ฐจ ๋์ ๊ฐ๋ฅ
- Real-world ๋ฐฐํฌ๋ ๋ ๊ฐ์ humanoid ํ๋ซํผ์์๋ง ๊ฒ์ฆ๋์ด ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ ๋ฏธ์ง์
- ํ์ ์ฐ๊ตฌ: ์ํ์ฒด ๊ฐ ๋์ ์ํธ์์ฉ์ด ํฐ ๋์(์ ํ, ๋ณต์กํ balancing)์ ๋ํ ๊ฐ์ ๋ฐฉ์, ๋ค์ํ ๋ก๋ด ์ฒดํ์ ๋ํ ์๋ ์ ์ ๋ฉ์ปค๋์ฆ, end-to-end vision-based ์ ์ด๋ก์ ํ์ฅ
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: JAEGER๋ ์ํ์ฒด ๋ถ๋ฆฌ ์ค๊ณ์ MLP ๊ธฐ๋ฐ retargeting, ์ฒด๊ณํ๋ curriculum learning์ ํตํด ์ธ๊ฐํ ๋ก๋ด์ whole-body control ๋ฌธ์ ์ ๋ํ ์ค์ง์ ์ด๊ณ ์ฐฝ์์ ์ธ ํด๊ฒฐ์ฑ
์ ์ ์ํ๋ฉฐ, ์ค์ ํ๊ฒฝ์์์ ๊ฒ์ฆ์ ํตํด ๋์ ์ค์ฉ์ฑ์ ์
์ฆํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์