RuN: Residual Policy for Natural Humanoid Locomotion
์ ์: Qingpeng Li, Chengrui Zhu, Yanming Wu, Xin Yuan, Zhen Zhang, Jian Yang, Yong Liu | ๋ ์ง: 2025-09-25 | URL: https://arxiv.org/abs/2509.20696 📄 PDF
Essence
Fig. 2: Overview of the RuN framework. (a) Motion Retargeting: Raw human motions are converted into a kinematically feas
RuN์ Conditional Motion Generator๋ฅผ ํตํ ์ด๋ํ์ ๋ชจ์
ํ๋ผ์ด์ด์ ๊ฐํํ์ต ๊ธฐ๋ฐ residual policy๋ฅผ ๋ถ๋ฆฌํ์ฌ, ์ธํ๋ก๋ด์ ์์ฐ์ค๋ฌ์ด ๋ณดํ-๋ฌ๋ฆฌ๊ธฐ ์ ํ์ ์คํํ๋ decoupled residual learning ํ๋ ์์ํฌ์ด๋ค.
Motivation
- Known: Deep Reinforcement Learning์ ์ธํ๋ก๋ด ์ ์ด์ ๊ฐ๋ ฅํ์ง๋ง, ๋จ์ผ ์ ์ฑ
์ด ์ด๋ ๋ชจ๋ฐฉ, ์๋ ์ถ์ , ์์ ์ฑ์ ๋์์ ํ์ตํด์ผ ํ๋ ๋ณต์ก์ฑ์ด ์๋ค. Generative Motion Prior ๋ฐฉ์์ด ์์ฐ์ค๋ฌ์ด ๋์์ ์ ๊ณตํ์ง๋ง ์ง์ ์ถ์ (direct tracking) ์ ๋ต์ ํ์ต ๋ณต์ก์ฑ์ด ์ฌ์ ํ ๋๋ค.
- Gap: ๊ธฐ์กด DRL ๊ธฐ๋ฐ ๋ฐฉ๋ฒ๋ค์ motion imitation, velocity tracking, stability maintenance์ ์ธ ๊ฐ์ง ๋ชฉํ๊ฐ ์ถฉ๋ํ์ฌ ์ฑ๋ฅ๊ณผ ํ์ต ํจ์จ์ฑ์ ํธ๋ ์ด๋์คํ๊ฐ ๋ฐ์ํ๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ decoupled ๊ตฌ์กฐ์ ์ฒด๊ณ์ ์ ๊ทผ์ด ๋ถ์กฑํ๋ค.
- Why: ์ธํ๋ก๋ด์ด ์ธ๊ฐ ์ค์ฌ ํ๊ฒฝ์์ ๋ค์ํ ์๋์์ ์์ฐ์ค๋ฝ๊ณ ๋์ ์ธ ๋ณดํ์ ์ํํ ์ ์์ด์ผ ํ๋ฉฐ, ํนํ ๋ณดํ-๋ฌ๋ฆฌ๊ธฐ ๊ฐ ๋งค๋๋ฌ์ด ์ ํ์ ์ค์ฉ์ ๋ฐฐํฌ์ ํ์์ ์ด๋ค.
- Approach: CMG๋ฅผ ํตํด kinematically natural motion prior๋ฅผ ์์ฑํ๊ณ , ๊ฒฝ๋์ residual policy๊ฐ ๋์ญํ์ ์ํธ์์ฉ์ ๋ณด์ ํ๋ ๋ฐฉ์์ผ๋ก ์ ์ด ํ์คํฌ๋ฅผ ๋ถํดํ๋ค.
Achievement
Fig. 5: Performance comparison of different algorithms. This figure shows
- Decoupled Residual Learning Framework: ์ด๋ ์ ์ด๋ฅผ motion prior์ residual correction์ผ๋ก ๋ถ๋ฆฌํ์ฌ ํ์ต ๊ณต๊ฐ์ ๋ํญ ์ถ์
- Conditional Motion Generator: ์ธ๊ฐ ๋ชจ์
๋ฐ์ดํฐ์
์ผ๋ก ํ์ต๋ autoregressive ์์ฑ ๋ชจ๋ธ๋ก ๋ณดํ-๋ฌ๋ฆฌ๊ธฐ ๋ฒ์์ ์์ฐ์ค๋ฌ์ด ์ด๋ ์์ฑ
- ๊ด๋ฒ์ํ ์๋ ๋ฒ์ ์ปค๋ฒ: 0-2.5 m/s ๋ฒ์์์ ์์ ์ ์ด๊ณ ์์ฐ์ค๋ฌ์ด ๋ณดํ๊ณผ ๋งค๋๋ฌ์ด ์ ํ ๋ฌ์ฑ
- ์ค์ ๋ก๋ด ๊ฒ์ฆ: Unitree G1 ์ธํ๋ก๋ด์์ ์๋ฎฌ๋ ์ด์
๊ณผ ํ์ค ์คํ์ ํตํด state-of-the-art ๋๋น ์ฐ์ํ ์ฑ๋ฅ ์
์ฆ
- ํ์ต ํจ์จ์ฑ ๊ฐ์ : ๊ธฐ์กด ๋ฐฉ๋ฒ ๋๋น ํจ์ฌ ๋น ๋ฅธ training ์๋ ด
How
Fig. 2: Overview of the RuN framework. (a) Motion Retargeting: Raw human motions are converted into a kinematically feas
- ๋๊ท๋ชจ ์ธ๊ฐ ๋ชจ์
๋ฐ์ดํฐ์
์ motion retargeting์ ํตํด kinematically feasible ์ฐธ์กฐ ๋ฐ์ดํฐ๋ก ๋ณํ
- ๋ณํ๋ ๋ฐ์ดํฐ๋ก autoregressive CMG๋ฅผ offline์ผ๋ก ํ์ตํ์ฌ frozen motion prior ์์ฑ
- PPO ๊ฐํํ์ต์ผ๋ก ๊ฒฝ๋ residual policy ํ๋ จํ๋ฉฐ, imitation rewards, task rewards, regularization rewards์ ์กฐํฉ ์ฌ์ฉ
- ์ต์ข
์ ์ด ๋ช
๋ น = CMG ์ถ๋ ฅ + residual policy ์ถ๋ ฅ์ ๊ฐ์ฐ ๊ตฌ์กฐ
- ์๋ฎฌ๋ ์ด์
ํ๊ฒฝ์์ ํ์ต ํ ์ค์ ๋ก๋ด์ผ๋ก sim-to-real ์ ์ด
Originality
- ๊ธฐ์กด direct tracking ๊ธฐ๋ฐ GMP ๋ฐฉ์๊ณผ ๋ฌ๋ฆฌ residual learning์ผ๋ก ๊ตฌ์กฐ์ ๋ถ๋ฆฌ๋ฅผ ๋ฌ์ฑํ novelํ ์ ๊ทผ
- Autoregressive CMG๋ฅผ humanoid locomotion ๋ถ์ผ์ ์ ์ฉํ์ฌ ์กฐ๊ฑด๋ถ ์ด๋ ์์ฑ์ ์๋ก์ด ํ์ฉ
- Multi-objective ์ถฉ๋์ ํด๊ฒฐํ๊ธฐ ์ํ principled decomposition์ผ๋ก ํ์ต ๋ณต์ก์ฑ ๋ํญ ๊ฐ์
- ๋ณดํ-๋ฌ๋ฆฌ๊ธฐ์ ๋ถ๋๋ฌ์ด ์ ํ์ residual policy ํ๋ ์์ํฌ๋ก ์คํํ ์ต์ด ์ฌ๋ก
Limitation & Further Study
- CMG๊ฐ offline ๋ฐ์ดํฐ์
์ ์์กดํ๋ฏ๋ก ๋ฐ์ดํฐ์
ํ์ง๊ณผ ๋ค์์ฑ์ด ์ต์ข
์ฑ๋ฅ์ ์ํ์ ๊ฒฐ์
- Residual policy์ ๋ณด์ ๋ฒ์๊ฐ ์ ํ๋์ด ์์ด ๊ทน๋จ์ ์ธ ์ธ๋ถ ์ญ๋์ด๋ ์์ ๋ฐ์ ๋์ญํ์ ๋ํ ์ ์์ฑ ๋ฏธ๊ฒ์ฆ
- ์คํ์ด Unitree G1 ๋จ์ผ ํ๋ซํผ์์๋ง ์ํ๋์ด ๋ค๋ฅธ ์ธํ๋ก๋ด ์ํคํ
์ฒ๋ก์ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ ๋ถ๋ช
ํ
- ํ์ ์ฐ๊ตฌ: (1) ์ ์ํ residual policy๋ฅผ ํตํ ์ค์๊ฐ CMG ์ฌ์กฐ์ , (2) ์๊ฐ ์ ๋ณด๋ฅผ ํ์ฉํ ๋ ๋ณต์กํ ํ๊ฒฝ ๋ค๋น๊ฒ์ด์
, (3) ๋ ๋ง์ ๋ก๋ด ํ๋ซํผ์์์ ๊ฒ์ฆ
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: RuN์ humanoid locomotion ์ ์ด์ ๊ทผ๋ณธ์ ์ธ ๋ณต์ก์ฑ์ elegantํ๊ฒ ํด๊ฒฐํ well-motivated ํ๋ ์์ํฌ๋ก, decoupled residual learning ์ ๊ทผ์ด ํ์ต ํจ์จ์ฑ๊ณผ ์ต์ข
์ฑ๋ฅ์ ๋ชจ๋ ๊ฐ์ ํ๋ฉฐ ์ค์ ๋ก๋ด์์ ๊ฒ์ฆ๋ ๊ฐ๋ ฅํ ๋ฐฉ๋ฒ๋ก ์ด๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์