Adversarial Locomotion and Motion Imitation for Humanoid Policy Learning
์ ์: Jiyuan Shi, Xinzhe Liu, Dewei Wang, Ouyang Lu, Sรถren Schwertfeger, Chi Zhang, Fuchun Sun, Chenjia Bai, Xuelong Li | ๋ ์ง: 2025-04-19 | URL: https://arxiv.org/abs/2504.14305 📄 PDF
Essence
์ธ๊ฐํ ๋ก๋ด์ ์๋ฐ์ ๊ณผ ํ๋ฐ์ ์ ์๋ก ๋ค๋ฅธ ์ญํ ์ ๋ถ๋ฆฌํ์ฌ ํ์ตํ๋ ๋์ ์ ํ์ต ํ๋ ์์ํฌ ALMI๋ฅผ ์ ์ํ๊ณ , ์๋ฎฌ๋ ์ด์
๊ณผ ์ค์ ๋ก๋ด์์ ๊ฐ๊ฑดํ ๋ณดํ๊ณผ ์ ํํ ๋ชจ์
์ถ์ ์ ๋ฌ์ฑํ๋ค.
Motivation
- Known: ์ธ๊ฐํ ๋ก๋ด์ ์ ์ ๋ชจ์
๋ชจ๋ฐฉ์ conventional ์ ๊ทผ๋ฒ์ผ๋ก ๊ฐ๋ฅํ์ง๋ง, ๋์ DoF๋ก ์ธํ ๊ณ์ฐ ๋น์ฉ์ด ํฌ๊ณ ์ค์ ํ๊ฒฝ์์ ๋ถ์์ ์ฑ๊ณผ ๋์ ๋ฌธ์ ๊ฐ ๋ฐ์ํ๋ค.
- Gap: ๊ธฐ์กด ์ฐ๊ตฌ๋ค์ ์ ์ ์ ์ฑ
์ ํต์ผ์ ์ผ๋ก ํ์ตํ๋ฉด์ ํ๋ฐ์ ์ ๊ฐ๊ฑดํ ๋ณดํ๊ณผ ์๋ฐ์ ์ ์ ํํ ๋ชจ์
์ถ์ ์ด๋ผ๋ ์์ถฉ๋๋ ๋ชฉํ๋ฅผ ๋์์ ๋ฌ์ฑํ๊ธฐ ์ด๋ ค์ํ๊ณ ์๋ค.
- Why: ์ธ๊ฐํ ๋ก๋ด์ ์์ ์ ์ด๊ณ ํํ๋ ฅ ์๋ ์ ์ ์ ์ด๋ ๋ก๋ด ์์ฉ์ ์ค์ฉ์ฑ์ ๋์ด๋ฉฐ, loco-manipulation ์์
์ ๊ธฐ๋ฐ์ด ๋๊ธฐ ๋๋ฌธ์ ์ค์ํ๋ค.
- Approach: ํ๋ฐ์ ์ agent๋ก, ์๋ฐ์ ์ adversary๋ก ํ๋ two-player zero-sum Markov game ๊ธฐ๋ฐ์ ๋์ ์ ํ์ต์ ํตํด ๊ฐ ๋ถ์๊ฐ ์๋ก ๋ค๋ฅธ ๋ชฉํ๋ฅผ ์ถ๊ตฌํ๋ฉด์๋ Nash equilibrium์ผ๋ก ์๋ ดํ๋ coordinated control์ ๋ฌ์ฑํ๋ค.
Achievement
Figure 3: The sim-to-real comparison of humanoid robot in tracking various motions.
- ALMI ํ๋ ์์ํฌ: ์๋ฐ์ ๊ณผ ํ๋ฐ์ ์ ๋ถ๋ฆฌํ์ฌ ๋์ ์ ์ผ๋ก ํ์ตํ๋ novel framework ์ ์, Theorem 3.1์ ํตํด ฮต-approximate Nash equilibrium ์๋ ด ๋ณด์ฅ
- ALMI-X ๋ฐ์ดํฐ์
: 80K ์ด์์ ๊ถค์ ๋ฐ์ดํฐ์ ์ธ์ด ์ค๋ช
์ ํฌํจํ ์ฒซ ๋ฒ์งธ ๋๊ท๋ชจ ์ ์ ์ ์ด ๋ฐ์ดํฐ์
๊ตฌ์ถ, foundation model ํ์ต ๊ธฐ๋ฐ ์ ๊ณต
- ์คํ ๊ฒ์ฆ: Unitree H1-2 ๋ก๋ด์์ robust locomotion๊ณผ precise motion tracking ๋ฌ์ฑ, ์๋ฎฌ๋ ์ด์
๊ณผ ์ค์ ๋ก๋ด ๊ฐ sim-to-real ์ฑ๊ณต ์
์ฆ
How
- State space S๋ฅผ ์๋ฐ์ ๊ณผ ํ๋ฐ์ ์ด ๊ณต์ ํ๋, ๊ฐ๊ฐ distinct action space Al๊ณผ Au๋ฅผ ๊ฐ์ง๋๋ก ์ค๊ณ
- Lower body policy ฯl์ velocity command following reward rl์ ์ต๋ํํ๋ฉด์ upper body์ disturbance์ ๊ฒฌ๋๋๋ก ํ์ต
- Upper body policy ฯu๋ reference motion tracking reward ru์ ์ต๋ํํ๋ฉด์ lower body์ ์์ง์์ ์ ์ํ๋๋ก ํ์ต
- Independent RL optimization process๋ก ๋ ์ ์ฑ
์ ๋ณ๋ ฌ ์
๋ฐ์ดํธํ๋, two-timescale learning rate rule๋ก ์์ ์ฑ ๋ณด์ฅ
- Phase parameter ฯt๋ฅผ ๋์
ํ์ฌ gaiting ์ ๋ณด๋ฅผ ์ธ์ฝ๋ฉ, PD controller๋ก target joint positions์ torques๋ก ๋ณํ
- Joystick commands์ velocity commands์ ์กฐํฉ์ผ๋ก teleoperation์ ํตํ loco-manipulation ํ์ฅ
Originality
- ์๋ฐ์ ๊ณผ ํ๋ฐ์ ์ separate control์ด ๊ธฐ์กด์๋ ์์ผ๋, adversarial training์ ํตํด coordination์ ๊ฐ์ ํ๋ novel approach๋ ์๋ก์ด contribution
- Two-player zero-sum Markov game์ humanoid control์ ์ ์ฉํ๋ฉด์ theoretical convergence guarantee (Theorem 3.1)๋ฅผ ์ ๊ณต
- Large-scale whole-body control dataset (ALMI-X)๋ฅผ language annotations์ ํจ๊ป ๊ณต๊ฐํ์ฌ foundation model ํ์ต ๊ธฐ๋ฐ ์ ๊ณต
- Separate action spaces๋ก ์ธํ ๋ชจ๋ํ๋ก ๊ฐ ๋ถ์์ ์ญํ ์ ๋ช
ํํ ํ๋ฉด์๋ coordinated behavior๋ฅผ ๋ฌ์ฑํ๋ ์ค๊ณ
Limitation & Further Study
- Theorem 3.1์ convergence guarantee๋ ฮต-greedy exploration๊ณผ specific two-timescale learning rate rule์ ์์กดํ๋ฏ๋ก ์ค์ ๊ตฌํ๊ณผ์ ๊ฐญ ์กด์ฌ ๊ฐ๋ฅ์ฑ
- ์๋ฐ์ ๊ณผ ํ๋ฐ์ ์ action space ๋ถ๋ฆฌ๋ก ์ธํด ํน์ ์ ์ coordination์ด ํ์ํ ๋ณต์กํ ๋์์ ํํ๋ ฅ ์ ํ ๊ฐ๋ฅ์ฑ
- Dataset์ด MuJoCo simulation์์๋ง ์์ฑ๋์์ผ๋ฏ๋ก real-world motion diversity ๋ถ์กฑ ๊ฐ๋ฅ์ฑ
- Foundation model์ preliminary study๋ง ์ ์๋์ด end-to-end control์ ์์ ํ ์ฑ๋ฅ ํ๊ฐ ๋ถ์ฌ
- Upper body๊ฐ joystick์ผ๋ก๋ง ์ ์ด๋๋ ์ ์ฝ์ด ์์ด ์์ ํ ์์จ์ ์ ์ ์ ์ด์์ ์ฐจ์ด ์กด์ฌ
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ์๋ฐ์ ๊ณผ ํ๋ฐ์ ์ ์ญํ ๋ถ๋ฆฌ๋ฅผ adversarial learning์ผ๋ก ๊ตฌํํ novel framework์ด๋ฉฐ, ์ด๋ก ์ ์๋ ด ๋ณด์ฅ๊ณผ ์ค์ ๋ก๋ด ๊ตฌํ์ ์ฑ๊ณต์ด ๊ฒฐํฉ๋์ด ๋์ ์ค์ฉ์ฑ์ ๋ณด์ ํ๊ณ ์๋ค. ๋๊ท๋ชจ dataset ๊ณต๊ฐ๋ก ํฅํ ์ฐ๊ตฌ์ ๊ธฐ๋ฐ์ ์ ๊ณตํ๋ ์ ๋ ์๋ฏธ ์๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์