Multi-Gait Learning for Humanoid Robots Using Reinforcement Learning with Selective Adversarial Motion Prior
์ ์: Yuanye Wu, Keyi Wang, Linqi Ye, Boyang Xing | ๋ ์ง: 2026-04-21 | URL: https://arxiv.org/abs/2604.19102 📄 PDF
Essence
Fig. 1.
๋ณธ ๋
ผ๋ฌธ์ humanoid robot์ด ๋ณดํ, ๊ฑฐ์๊ฑธ์, ๋ฌ๋ฆฌ๊ธฐ, ๊ณ๋จ ์ค๋ฅด๊ธฐ, ์ ํ ๋ฑ 5๊ฐ์ง ์๋ก ๋ค๋ฅธ ๋ณดํ ๋ฐฉ์์ ํต์ผ๋ ๊ฐํํ์ต ํ๋ ์์ํฌ๋ก ํ์ตํ ์ ์๋๋ก ํ๋ ์ ํ์ Adversarial Motion Prior (AMP) ์ ๋ต์ ์ ์ํ๋ค.
Motivation
- Known: ๊ฐํํ์ต์ humanoid robot์ ๋ณต์กํ ์ด๋ ๊ธฐ์ ํ์ต์ ํจ๊ณผ์ ์ด๋ฉฐ, AMP๋ ์ฐธ๊ณ ๋์ ๋ถํฌ๋ก๋ถํฐ ์ ์ฑ
์ ์ ๊ทํํ์ฌ ์์ฐ์ค๋ฝ๊ณ ์์ ์ ์ธ ๋์์ ์์ฑํ๋ค. ๊ทธ๋ฌ๋ ๊ธฐ์กด ์ฐ๊ตฌ๋ค์ ์ผ๋ฐ์ ์ผ๋ก ๊ฐ ๋ณดํ ๋ฐฉ์๋ง๋ค ๋ณ๋์ ์ ์ฑ
์ ํ์ตํ๊ณ ์๋ค.
- Gap: ํต์ผ๋ ํ๋ ์์ํฌ์์ ์ฌ๋ฌ ๋ณดํ ๋ฐฉ์์ ๋์์ ํ์ตํ ๋ ์์ ์ฑ๊ณผ ๋์ ํํ๋ ฅ ์ฌ์ด์ ์์ถฉ ๊ด๊ณ๋ฅผ ํด๊ฒฐํ๋ ๋ฐฉ๋ฒ์ด ๋ถ์กฑํ๋ฉฐ, AMP๊ฐ ๋ชจ๋ ๋ณดํ ๋ฐฉ์์ ์ผ๊ด๋๊ฒ ๋์์ด ๋๋์ง์ ๋ํ ์ค์ฆ์ ๊ฒ์ฆ์ด ์ด๋ฃจ์ด์ง์ง ์์๋ค.
- Why: Humanoid robot์ ์ค์ ๋ฐฐํฌ๋ฅผ ์ํด์๋ ๋ค์ํ ํ๊ฒฝ(ํ์ง, ๊ณ๋จ, ์ฅ์ ๋ฌผ ๋ฑ)์์ ์ ์์ ์ผ๋ก ์์ง์ผ ์ ์๋ ๋ฅ๋ ฅ์ด ํ์์ ์ด๋ฉฐ, ์ด๋ฅผ ํต์ผ๋ ์ ์ฑ
๊ตฌ์กฐ๋ก ๊ตฌํํ๋ฉด ์์คํ
์ ์ผ๊ด์ฑ๊ณผ ํ์ฅ์ฑ์ ํฌ๊ฒ ํฅ์์ํฌ ์ ์๋ค.
- Approach: ์ ํ์ AMP ์ ๋ต์ ๋์
ํ์ฌ ์ฃผ๊ธฐ์ ์ด๊ณ ์์ ์ฑ์ด ์ค์ํ ๋ณดํ(๋ณดํ, ๊ฑฐ์๊ฑธ์, ๊ณ๋จ ์ค๋ฅด๊ธฐ)์๋ AMP๋ฅผ ์ ์ฉํ๊ณ , ๋์ ์ด๊ณ ๋ฏผ์ฒฉ์ฑ์ด ํ์ํ ๋ณดํ(๋ฌ๋ฆฌ๊ธฐ, ์ ํ)์๋ AMP๋ฅผ ๋นํ์ฑํํ๋ค. PPO๋ก ํ์ตํ ์ ์ฑ
์ domain randomization์ผ๋ก ์๋ฎฌ๋ ์ด์
์์ ํ๋ จํ ํ zero-shot sim-to-real transfer๋ก ๋ฌผ๋ฆฌ์ 12-DOF humanoid robot์ ๋ฐฐํฌํ๋ค.
Achievement
Fig. 2. Representative real-robot image sequences for the five learned gaits:
- ํต์ผ๋ ํ์ต ํ๋ ์์ํฌ: 5๊ฐ์ง ๋ณดํ ๋ฐฉ์์ด ๋์ผํ observation space, action space, reward ๊ตฌ์กฐ๋ฅผ ๊ณต์ ํ๋ฉฐ ์ค์ง sinusoidal reference trajectory ํ๋ผ๋ฏธํฐ์ reward weight๋ก๋ง ๊ตฌ๋ถ๋จ
- ์ ํ์ AMP ์ ๋ต์ ํจ๊ณผ์ฑ: ์ฃผ๊ธฐ์ ๋ณดํ์์๋ ์๋ ด ์๋ ํฅ์๊ณผ ์ถ์ ์ค์ฐจ ๊ฐ์๋ฅผ ๋ฌ์ฑํ๋ฉด์, ๋์ ๋ณดํ์์๋ AMP ๋นํ์ฑํ๋ก ์ด๋ ๋ฒ์์ ํํ๋ ฅ์ ๋ณด์กดํจ
- ์ค๋ก๋ด ๊ฒ์ฆ: ๋ฌผ๋ฆฌ์ humanoid robot์์ 5๊ฐ์ง ๋ชจ๋ ๋ณดํ ๋ฐฉ์์ ์ฑ๊ณต์ ์ผ๋ก ๋ฐฐํฌํ๊ณ , ์ ๋์ ๋น๊ต(์ถ์ ์ค์ฐจ, ์๋ ด ์๋, ์ฑ๊ณต๋ฅ /๋ํ์จ)๋ฅผ ํตํด ์ฑ๋ฅ์ ์
์ฆํจ
- Zero-shot sim-to-real transfer: domain randomization์ ํตํด ์๋ฎฌ๋ ์ด์
ํ์ต ์ ์ฑ
์ ์ถ๊ฐ ํ๋ ์์ด ์ค์ ๋ก๋ด์ ์ง์ ์ ์ฉ ๊ฐ๋ฅ
How
Fig. 1.
- Markov Decision Process (MDP) ๊ธฐ๋ฐ ํต์ผ๋ RL ๊ณต์ํ๋ก ๋ชจ๋ ๋ณดํ ๋ฐฉ์์ ๋์ผํ MDP ๊ตฌ์กฐ ์ ์ฉ (๊ด์ฐฐ ๊ณต๊ฐ: ์ ์ฒด ์ ํ/๊ฐ์๋, ์๋ ๋ช
๋ น, ์์ ์ธ์ฝ๋ฉ, ์ค๋ ฅ ๋ฒกํฐ, ๊ด์ ์์น/์๋ ์ค์ฐจ ๋ฑ 50์ฐจ์)
- Phase variable ฯ_t โ [0, 1)๋ฅผ ์ด์ฉํ sinusoidal reference trajectory ์์ฑ: q_ref = sin(2ฯฯ_t)๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๊ฐ ๋ณดํ์ ์ฃผ๊ธฐ ๋ฐ stance ratio์ ๋ฐ๋ผ ์กฐ์
- Jumping ๋ณดํ์ ์ํ ํนํ๋ 4.0์ด ์ฃผ๊ธฐ ๊ถค์ ์ค๊ณ: squat โ takeoff โ flight โ landing โ stand 5๋จ๊ณ๋ก ๊ตฌ์ฑํ๊ณ curriculum learning์ผ๋ก squat depth ์ ์ง์ ์ฆ๊ฐ
- ์ ์ฑ
์ด N=21๊ฐ์ ์ฐ์ observation frame์ ์คํํ์ฌ 1050์ฐจ์ ์
๋ ฅ ์ฌ์ฉํ๋ฏ๋ก ๋ช
์์ ๋ฏธ๋ถ ๊ณ์ฐ ์์ด ์๊ฐ ๋์ญํ ํฌํจ
- Critic์ ์๋ฎฌ๋ ์ด์
์ ์ฉ privileged information (๋ง์ฐฐ๊ณ์, ์ ์ง ๋ง์คํฌ, ํธ์ ๋ ฅ ๋ฑ 73์ฐจ์)์ 5 frame์ ๊ฑธ์ณ ์คํํ๊ณ ์งํ ๋์ด ์ ๋ณด(187์ ) ์ถ๊ฐ
- ์ฃผ๊ธฐ์ ๋ณดํ(๋ณดํ, ๊ฑฐ์๊ฑธ์, ๊ณ๋จ)์๋ AMP ํ์ฑํ๋ก discriminator๊ฐ ์ฐธ๊ณ ๋์๊ณผ ๊ตฌ๋ณํ๋๋ก ์ ๊ทํ, ๋์ ๋ณดํ(๋ฌ๋ฆฌ๊ธฐ, ์ ํ)์๋ AMP ๋นํ์ฑํ
- PPO ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ์ ์ฑ
ํ๋ จ ์ domain randomization(์ง๋, ๋ง์ฐฐ, ์๋ฎฌ๋ ์ด์
ํ๋ผ๋ฏธํฐ ๋ณ๋)์ ์ ์ฉํ์ฌ sim-to-real ๊ฐ๊ฑด์ฑ ํ๋ณด
Originality
- ์ ํ์ AMP ๊ฐ๋
: ๊ธฐ์กด ์ฐ๊ตฌ์์ AMP๋ฅผ ์ผ๊ด ์ ์ฉํ๋ ๊ฒ๊ณผ ๋ฌ๋ฆฌ, ๋ณดํ ํน์ฑ์ ๋ฐ๋ผ AMP๋ฅผ ์ ํ์ ์ผ๋ก ํ์ฑํ/๋นํ์ฑํํ๋ ์๋ก์ด ์ ๊ทผ๋ฒ์ผ๋ก, AMP์ ํ๊ณ๋ฅผ ๋ช
ํํ ๊ท๋ช
ํ๊ณ ํด๊ฒฐ
- ๋ค์ค ๋ณดํ์ ํต์ผ๋ ํ๋ ์์ํฌ: 5๊ฐ์ง ์ด์ง์ ์ธ ๋ณดํ(์ฃผ๊ธฐ์ ๋ณดํ vs. ์ ํ ๊ฐ์ ๋น์ฃผ๊ธฐ์ ๋ณดํ)์ ๋จ์ผ ๊ด์ฐฐ/ํ๋ ๊ณต๊ฐ๊ณผ reward ํจ์๋ก ํตํฉ ํ์ตํ๋ ํต์ผ ์ค๊ณ๋ ์ด์ ์ฐ๊ตฌ์์ ์ฐพ๊ธฐ ์ด๋ ค์
- ์ ๋์ ์ ํ ๊ธฐ์ค ์ ์: ๋ณดํ์ ๋์ ํน์ฑ(์ฃผ๊ธฐ์ฑ, ๊ด์ ์งํญ, ๊ฐ์๋ ํ์์ฑ)์ ๋ฐ๋ผ AMP ์ ์ฉ ์ฌ๋ถ๋ฅผ ๋ช
ํํ ์๋ฆฌ ๊ธฐ๋ฐ์ผ๋ก ๊ฒฐ์ ํ๋ ์ฒด๊ณ์ ์ ๊ทผ
- ํฌ๊ด์ ์ค๋ก๋ด ๊ฒ์ฆ: ๋ชจ๋ 5๊ฐ์ง ๋ณดํ์ ๋ฌผ๋ฆฌ์ humanoid์์ ์ง์ ๊ฒ์ฆํ๊ณ ์ ๋์ ์ฑ๋ฅ ๋น๊ต๋ฅผ ์ ์ํ์ฌ ์ฌํ์ฑ ๋์ baseline ์ ๊ณต
Limitation & Further Study
- AMP ์ ์ฉ ๊ธฐ์ค์ ์ผ๋ฐํ ๋ถ์กฑ: ์ ํ์ AMP์ ๊ฒฝ๊ณ(์ฃผ๊ธฐ์ vs. ๋์ )๋ฅผ ์ ์ฑ์ ์ผ๋ก๋ง ์ค๋ช
ํ์์ผ๋ฉฐ, ๋ค๋ฅธ ๋ก๋ด ํํ๋ ๋ณดํ ๋ฐฉ์์ ์ ์ฉ ๊ฐ๋ฅ์ฑ ๊ฒํ ํ์
- ๋จ์ผ ๋ก๋ด ํ๋ซํผ ๊ฒ์ฆ: 12-DOF humanoid ํ๋์์๋ง ์คํํ์์ผ๋ฏ๋ก ๋ค์ํ ๋ก๋ด ๊ตฌ์กฐ(bipedal, quadrupedal ๋ฑ)์ ๋ํ ์ผ๋ฐํ ๋ฅ๋ ฅ ๋ฏธํ์ธ
- ํ๊ฒฝ ์ ์ ๋ถ์กฑ: ์๋ฎฌ๋ ์ด์
domain randomization์ผ๋ก ์ผ๋ฐํํ์ง๋ง, ์ค์ ๋ณตํฉ ์งํ(์ธํ๋ถํํจ, ๋ณ์ ๊ฒฝ์ฌ) ์ ์ ๋ฅ๋ ฅ์ ์ ์๋์ง ์์
- Reward ์ค๊ณ ๋ฏผ๊ฐ๋: ๊ฐ ๋ณดํ์ reward weight ์ค์ ์ด ์ฑ๋ฅ์ ๋ฏธ์น๋ ์ํฅ๋ ๋ถ์ ๋ฐ ์๋ํ ๋ฐฉ๋ฒ ์ ์ ํ์
- ๋์ ํด์ ๋ถ์กฑ: AMP ๋นํ์ฑํ ์ ์ ์ฑ
์ด ์ด๋ค ์๋ก์ด ์ ๋ต์ ๋ฐ๊ฒฌํ๋์ง์ ๋ํ ์ฌ์ธต ๋ถ์(์: ๊ด์ ๊ถค์ ๊ฐ์ํ, ์๋์ง ํจ์จ์ฑ ๋น๊ต) ๋ถ์ฌ
- ํ์ ์ฐ๊ตฌ ๋ฐฉํฅ: (1) AMP ์ ์ฉ ๊ธฐ์ค์ ์ ๋์ ๋ฉํธ๋ฆญ(์ฃผ๊ธฐ์ฑ ์ค์ฝ์ด, ๋์ ๋ณต์ก๋ ์ง์)์ผ๋ก ์๋ํ, (2) ๋ค์ข
๋ก๋ด ํ๋ซํผ์ผ๋ก ํ์ฅ, (3) ์ค์๊ฐ ๋ณดํ ์ ํ ๋ฐ ์ ์์ reward ์กฐ์ ๋ฉ์ปค๋์ฆ ๊ฐ๋ฐ
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ humanoid robot์ ๋ค์ค ๋ณดํ ํ์ต์์ AMP์ ์ ํ์ ์ ์ฉ์ด๋ผ๋ ์ฐฝ์์ ์ธ ์์ด๋์ด๋ฅผ ์ ์ํ๊ณ , ํต์ผ๋ ๊ฐํํ์ต ํ๋ ์์ํฌ๋ก 5๊ฐ์ง ์ด์ง์ ๋ณดํ์ ์ฑ๊ณต์ ์ผ๋ก ํ์ต ๋ฐ ์ค๋ก๋ด ๋ฐฐํฌํ ๊ฒ์ผ๋ก ์ค๋ฌด์ ๊ฐ์น๊ฐ ๋๋ค. ๋ค๋ง ์ ํ ๊ธฐ์ค์ ์ผ๋ฐํ ๋ถ์กฑ๊ณผ ๋จ์ผ ๋ก๋ด ํ๋ซํผ ๊ฒ์ฆ์ด๋ผ๋ ํ๊ณ๊ฐ ์์ด ์ถ๊ฐ ํ์ฅ ์ฐ๊ตฌ๊ฐ ํ์ํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์