Embedding Classical Balance Control Principles in Reinforcement Learning for Humanoid Recovery
์ ์: Nehar Poddar, Stephen McCrory, Luigi Penco, Geoffrey Clark, Hakki Erhan Svil, Robert Griffin | ๋ ์ง: 2026-03-09 | DOI: 10.48550/arXiv.2603.08619 📄 PDF
Essence
Fig. 1.
๊ณ ์ ์ ๊ท ํ ์ ์ด ์๋ฆฌ(capture point, center-of-mass, centroidal momentum)๋ฅผ ๊ฐํํ์ต์ privileged critic ์
๋ ฅ๊ณผ ๋ณด์ ํ์ฑ์ ์ง์ ์๋ฒ ๋ฉํ์ฌ, ์ธ๊ฐํ ๋ก๋ด์ ๋์ ํ๋ณต์ ์ํ ํตํฉ ์ ์ฑ
์ ํ์ตํ๋ค. ๋จ์ผ ์ ์ฑ
์ผ๋ก ๋ฐ๋ชฉ/์๋ฉ์ด ์ ๋ต, ๋ณด์ ์คํ
, ๋ค์ค์ ์ด ์ผ์ด์๊ธฐ๋ฅผ ํฌ๊ดํ๋ฉฐ 93.4% ํ๋ณต๋ฅ ์ ๋ฌ์ฑํ๋ค.
Motivation
- Known: ๊ฐํํ์ต์ ์ผ์ด์๊ธฐ ๋์์ ์
์ฆํ์ผ๋ ๊ธฐ์กด ์ ๊ทผ๋ฒ๋ค์ ํ๋ณต์ ์์ ์์
-๋ณด์ ๋ฌธ์ ๋ก ์ทจ๊ธํ์ฌ ๋ช
์์ ๊ท ํ ์ํ ํํ์ด ์๋ค. ๊ณ ์ ์ ์์ ์ฑ ๋ถ์(ZMP, capture point, DCM)์ ๋ชจ๋ธ ๊ธฐ๋ฐ ์ ์ด์์ ์ ํ๋ฆฝ๋์ด ์๋ค.
- Gap: ๊ท ํ ์ธ์ ์ ํธ ์์ด critic์ ๋ณด์ ์ด๋ ฅ๋ง์ผ๋ก ํ๋ณต ๊ฐ๋ฅ์ฑ์ ์ถ๋ก ํด์ผ ํ๋ฏ๋ก ๊ด๋ฒ์ํ ๊ต๋ ์คํํธ๋ผ์์ ์ผ๋ฐํ๊ฐ ์ ํ๋๋ค. ๊ธฐ์กด RL ๋ฐฉ๋ฒ๋ค์ ์ฐธ์กฐ ๊ถค์ ์ด๋ ์คํฌ๋ฆฝํธ๋ ์ ์ด ์์ด ์ ์ฒด ํ๋ณต ์คํํธ๋ผ์ ํฌ๊ดํ๋ ๋จ์ผ ์ ์ฑ
์ ๊ตฌํํ์ง ๋ชปํ๋ค.
- Why: ์ธ๊ฐํ ๋ก๋ด์ ๋์ ํ๋ณต ๋ถ๋ฅ์ ๋น๊ตฌ์กฐํ๋ ํ๊ฒฝ์์์ ์ค์ฉ์ ๋ฐฐ์น๋ฅผ ์ฌ๊ฐํ๊ฒ ์ ํํ๋ฏ๋ก, ๊ท ํ ๊ตฌ์กฐ๋ฅผ ํ์ต ํ๋ ์์ํฌ์ ๋ช
์์ ์ผ๋ก ์๋ฒ ๋ฉํ๋ฉด ํ์ต ํจ์จ์ฑ๊ณผ ์ผ๋ฐํ๋ฅผ ๋์์ ๊ฐ์ ํ ์ ์๋ค.
- Approach: ๋น๋์นญ actor-critic ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํ์ฌ actor๋ proprioception๋ง ์
๋ ฅ๋ฐ๊ณ , critic์ capture point, CoM ์ํ, centroidal momentum์ privileged ์
๋ ฅ์ผ๋ก ๋ฐ์ผ๋ฉฐ ์ด๋ค ๋ฉํธ๋ฆญ์ ๋ณด์ ํ์ฑ์ ์ง์ ํ์ฉํ๋ค. ๋์ ์ ๋์ ์ผ์ด์๊ธฐ๋ฅผ ๋ช
์์ ์ผ๋ก ์ํํ๋ curriculum์ ํตํด ์ ์ฒด ํ๋ณต ์ํ์ค๋ฅผ ํ์ตํ๋ค.
Achievement
Fig. 1.
- ํตํฉ ์ ์ฑ
๋ฒ์: ๋ฐ๋ชฉ/์๋ฉ์ด ์์ ํ, ์คํ
ํ๋ณต, ์์ํ ๋์, ์/ํ๊ฟ์น/๋ฌด๋ฆ์ ์ด์ฉํ ๋ค์ค์ ์ด ์ผ์ด์๊ธฐ๊น์ง ์ ์ฒด ํ๋ณต ์คํํธ๋ผ์ ๋จ์ผ ์ ์ฑ
์ผ๋ก ๊ตฌํ
- ๋์ ์ฑ๊ณต๋ฅ : Unitree H1-2์์ ๋ฌด์์ ์ด๊ธฐ ์์ธ์ ์์ธก ๋ถ๊ฐ๋ฅํ ๋์ ๊ตฌ์ฑ์ ๋ํด 93.4% ํ๋ณต๋ฅ ๋ฌ์ฑ
- ๊ท ํ ๊ตฌ์กฐ์ ํ์์ฑ: ablation ์ฐ๊ตฌ์์ privileged critic ์
๋ ฅ๊ณผ capture point ๋ณด์ ์ ๊ฑฐ ์ ์ผ์ด์๊ธฐ ํ์ต์ด ์์ ํ ์คํจ(stuck-low ์ข
๋ฃ์จ 0.067โ1.0), ์ด๋ค์ด ์ฐ์ฐ์ ๊ตฌ์กฐ๊ฐ ์๋ ์๋ฏธ ์๋ ํ์ต ์ ํธ์์ ์
์ฆ
- ์ ๋ก์ท ํ๋์จ์ด ์ด์ : ์ ์ฑ
์์ ์์ด Unitree H1-2 ํ๋์จ์ด 10ํ ์ํ๊ณผ MuJoCo๋ก์ sim-to-sim ์ด์ ์์ ๊ตํ ํ๊ฒฝ ์ผ๋ฐํ ๊ฒ์ฆ
- ์ฐธ์กฐ ๋ถํ์ํ ํ์ต: ๋ชจ์
์ฐธ์กฐ, ํคํ๋ ์, ์คํฌ๋ฆฝํธ๋ ์ ์ด ์์ด ํ์ต
How
- PPO ๊ธฐ๋ฐ on-policy actor-critic ํ๋ ์์ํฌ ์ฌ์ฉ
- Actor: ๋ชจ๋ ์์ ๋์ ๋ํ ์๋ ๊ด์ ์์น ๋ชฉํ ์ถ๋ ฅ, ์ ์์ค PD ์ ์ด๊ธฐ๊ฐ ์ถ์
- Critic: capture point, CoM ์ํ(์์น/์๋), centroidal momentum์ privileged ์
๋ ฅ์ผ๋ก ์์
- ๋ณด์ ํ์ฑ: ์ด๋ค ๊ท ํ ๋ฉํธ๋ฆญ ์ฃผ์์ ์ง์ ๊ตฌ์ฑ๋ ๋ณด์ํญ ํฌํจ
- Curriculum: ๋์ ์ ๋์ ์ผ์ด์๊ธฐ๋ฅผ ๋ช
์์ ์ผ๋ก ์ํํ์ฌ ์ ์ฒด ํ๋ณต ์ํ์ค ํ์ต
- Unitree H1-2์์ Isaac Lab ์๋ฎฌ๋ ์ดํฐ๋ก ํ๋ จ
- ๋ฐฐํฌ ์ ์ฑ
์ proprioceptive ๊ด์ฐฐ๋ง ์ฌ์ฉํ์ฌ ํ๋์จ์ด ์ด์ ๊ฐ๋ฅ
Originality
- ๊ท ํ ๋ฉํธ๋ฆญ์ privileged critic ์
๋ ฅ์ผ๋ก ์ง์ ์๋ฒ ๋ฉํ๋ ๋น๋์นญ actor-critic ๊ตฌ์กฐ์ novel ์ค๊ณ
- capture point, CoM ์ํ, centroidal momentum์ ๋ณด์ ํ์ฑ์ ์ง์ ํตํฉํ๋ balance-informed ๋ณด์ ์ค๊ณ
- ์ฐธ์กฐ ๊ถค์ , ์คํฌ๋ฆฝํธ๋ ์ ์ด, ํคํ๋ ์ ์์ด ์ ์ฒด ํ๋ณต ์คํํธ๋ผ(๋ฐ๋ชฉโ์๋ฉ์ดโ์คํ
โ๋ค์ค์ ์ด)์ ํฌ๊ดํ๋ ๋จ์ผ ์ ์ฑ
- ๋์ ์ ๋-์ผ์ด์๊ธฐ ์ํ curriculum์ ๋ช
์์ ์ค๊ณ๋ก ๋น์ฃผ๊ธฐ์ ๋ณตํฉ ์ ์ด ์๋๋ฆฌ์ค ์ปค๋ฒ
- ablation์ ํตํด ๊ท ํ ๊ตฌ์กฐ๊ฐ ์ฐ์ฐ์ด ์๋ ํ์ ํ์ต ์ ํธ์์ ์ ๋์ ์ผ๋ก ์
์ฆ
Limitation & Further Study
- ํ๋์จ์ด ๊ฒ์ฆ์ด 10ํ ์ํ์ผ๋ก ์ ํ์ ์ด๋ฉฐ ์ฅ๊ธฐ ์์ ์ฑ ๋ฐ์ดํฐ ๋ถ์กฑ
- Capture point ์ถ์ ๋ฑ ๊ท ํ ๋ฉํธ๋ฆญ ๊ณ์ฐ์ด simulation์์ ์๋ฒฝํ ๊ฐ๋ฅํ๋ ์ค์ ํ๋์จ์ด์์์ ์ถ์ ์ ํ๋ ๋ฐ ๊ณ์ฐ ๋น์ฉ์ ๋ํ ์์ธ ๋ถ์ ๋ฏธํก
- MuJoCo๋ก์ sim-to-sim ์ด์ ์ ๊ฒ์ฆํ์ผ๋ ๋ค๋ฅธ ๋ก๋ด ํ๋ซํผ(์: ๋ค๋ฅธ anthropomorphic ๋์์ธ)์ผ๋ก์ ์ผ๋ฐํ ๋ฏธ๊ฒ์ฆ
- ๋ค์ํ ๋ฐ๋ฅ ์ฌ์ง, ๊ทนํ ํ๊ฒฝ(๋ฏธ๋๋ฌ์ด ํ๋ฉด, ๋ถ๊ท์น ์งํ) ๋ฑ์์์ ๊ฐ๊ฑด์ฑ ํ๊ฐ ๋ถ์ฌ
- Curriculum ์ค๊ณ์ ์์ธํ ํ์ดํผํ๋ผ๋ฏธํฐ ์ ํ ๋ฐ ๋ค๋ฅธ curriculum ์ ๋ต๊ณผ์ ๋น๊ต ๋ถ์ ์ ํ์
- ํ์ ์ฐ๊ตฌ: ํ๋์จ์ด์์ ๊ท ํ ๋ฉํธ๋ฆญ ์ค์๊ฐ ์ถ์ ๋ฐฉ๋ฒ ๊ฐ๋ฐ, ๋ค์ํ ๋ก๋ด ํ๋ซํผ ๋ฐ ์งํ์ ๋ํ ์ผ๋ฐํ ํ๊ฐ, ๊ทนํ ํ๊ฒฝ์์์ ๊ฐ๊ฑด์ฑ ๊ฒ์ฆ
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ ๊ณ ์ ์ ๊ท ํ ์ ์ด ์๋ฆฌ๋ฅผ ๊ฐํํ์ต์ ์ฒด๊ณ์ ์ผ๋ก ์๋ฒ ๋ฉํ๋ creativeํ ์ ๊ทผ์ผ๋ก, ablation์ ํตํด ์ด ๊ตฌ์กฐ์ ํ์์ฑ์ ์
์ฆํ๊ณ 93.4% ํ๋ณต๋ฅ ๋ก ๊ฐ๋ ฅํ ์ค์ฆ ๊ฒฐ๊ณผ๋ฅผ ์ ์ํ๋ค. ๋ค๋ง ํ๋์จ์ด ๊ฒ์ฆ ๊ท๋ชจ์ ๋ค์ํ ํ๊ฒฝ์์์ ์ผ๋ฐํ ํ๊ฐ๊ฐ ๋ณด๊ฐ๋๋ฉด ๋์ฑ ์ค๋๋ ฅ ์์ ๊ฒ์ด๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์