RobotDancing: Residual-Action Reinforcement Learning Enables Robust Long-Horizon Humanoid Motion Tracking
์ ์: Zhenguo Sun, Yibo Peng, Yuan Meng, Xukun Li, Bo-Sheng Huang, Zhenshan Bing, Xinlong Wang, Alois Knoll | ๋ ์ง: 2025-09-25 | URL: https://arxiv.org/abs/2509.20717 📄 PDF
Essence
Fig. 1.
RobotDancing์ ์์ฐจ ๋์(residual action) ๊ฐํํ์ต์ ํตํด ์ธ๊ฐํ ๋ก๋ด์ด ์ฅ๊ธฐ๊ฐ ๊ณ ์ญ๋ ์ถค ๋์์ ์ถ์ ํ ์ ์๋๋ก ํ๋ ํ๋ ์์ํฌ๋ก, ๋ชจ๋ธ-์ค์ ๊ฐ์ ๋์ญํ ๋ถ์ผ์น๋ฅผ ๋ช
์์ ์ผ๋ก ๋ณด์ ํ๋ค.
Motivation
- Known: DeepMimic ์ดํ ๋ฌผ๋ฆฌ ๊ธฐ๋ฐ ์ธ๊ฐํ ๋ก๋ด ์ ์ด๋ ์๋นํ ๋ฐ์ ํ์ผ๋, ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ์ ๋ ๊ด์ ๋ช
๋ น(absolute joint commands)์ ์ถ๋ ฅํ๋ฏ๋ก ์ฅ๊ธฐ๊ฐ ๊ณ ์๋์ง ๋์์์ ์ค์ฐจ๊ฐ ๋์ ๋์ด ๋ถ์์ ํ๋ค.
- Gap: ๊ธฐ์กด ์ฐ๊ตฌ๋ค์ ์ฐธ์กฐ ๊ถค์ ๊ณผ ๋ก๋ด์ ์ค์ ๋์ญํ ๊ฐ์ ๋ถ์ผ์น๋ฅผ ๋ช
์์ ์ผ๋ก ๋ชจ๋ธ๋งํ์ง ์์ผ๋ฉฐ, ์ฅ๊ธฐ ์ถ์ ์์ ์ฑ์ ์ถฉ๋ถํ ๋ค๋ฃจ์ง ๋ชปํ๋ค.
- Why: ์ถค, ์ ํ, ํ์ ๋ฑ ๊ณ ์ญ๋ ์ธ๊ฐํ ๋ก๋ด ํ๋์ ์ฐ์
, ์ํฐํ
์ธ๋จผํธ, ์ฌํ ๋ก๋ด์ ์ค์ํ๋ฉฐ, ๋ค์ค ๋ก๋ด ํ๋ซํผ์ผ๋ก์ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ์ด ์๋ค.
- Approach: ๊ด์ ์์น ํธ์ฐจ๋ฅผ ํ์ตํ๋ ์์ฐจ ๋์ ์ ์ฑ
์ ์ฌ์ฉํ๊ณ , ๋ถํฌ ์ธ์ ์ํ๋ง๊ณผ ์คํจ ์ธ์ ์ฐ์ ์์ ์ ์์ ๊ฒฐํฉํ์ฌ ์ฅ๊ธฐ ์ถ์ ์ค์ฐจ ๋์ ์ ์ค์ธ๋ค.
Achievement
Fig. 1.
- ์์ฐจ ๋์ ํ์ต: ์ ๋ ๋ช
๋ น ๋์ ์ฐธ์กฐ ๊ด์ ์ ์์ ๊ฐ์ ํ์ตํ์ฌ ๋์ญํ ๋ถ์ผ์น๋ฅผ ๋ช
์์ ์ผ๋ก ๋ณด์
- ๋จ์ผ ๋จ๊ณ RL ํ์ดํ๋ผ์ธ: ๋ค์ค ๋จ๊ณ ์ฆ๋ฅ๋ teacher-student ๊ธฐ๋ฒ ์์ด ํตํฉ ๊ด์ฐฐ, ๋ณด์, ํ์ดํผํ๋ผ๋ฏธํฐ๋ก ํ๋ จ
- ์ฅ๊ธฐ ๊ณ ์ญ๋ ์ถ์ : Unitree G1์์ ๋ถ ๋จ์์ ์ถค ๋์(์ ํ, ํ์ , ์์ง๊ณ ์์ผ๋ก ๊ตฌ๋ฅด๊ธฐ)์ ์ถ์
- ์์ ์๋ฎฌ๋ ์ด์
-์ค์ ์ ๋ฌ: ํน๋ณํ ์ถ๊ฐ ์กฐ์ ์์ด H1, H1-2 ๋ฑ ๋ค์ค ์ธ๊ฐํ ๋ก๋ด์ผ๋ก ์ ๋ฌ ๊ฐ๋ฅ
How
Fig. 1.
- ๋ถํฌ ์ธ์ ์ํ๋ง: ๋๋ฌผ์ง๋ง ์ ๋ณด๊ฐ ๋ง์ ์์ธ์ ์ปค๋ฒ๋ฆฌ์ง๋ฅผ ์ฆ๊ฐ์ํค๊ธฐ ์ํด ์ฐธ์กฐ ๊ถค์ ์ ๋ค์ ์ํ๋ง
- ์คํจ ์ธ์ ์ฐ์ ์์ ์ ์: ํ๋ จ ์ค ์ง์์ ์ผ๋ก ์ด๋ ค์ด ๋์ ์ธ๊ทธ๋จผํธ์ ํ์ต ์์ ํ ๋น
- Domain randomization: ์งํ ๋ง์ฐฐ, ๋ก๋ด ํน์ฑ, ์ผ์ ๋
ธ์ด์ฆ, ์ ์ด ์ง์ฐ ๋ฑ์ ๋ฌด์์ํํ์ฌ ๋ก๋ฒ์คํธ์ฑ ํฅ์
- ์์ ๋ฌด๊ด ์ฐธ์กฐ ์กฐ๊ฑดํ: ์๊ฐ ์ธ๋ฑ์ค๋ฅผ ์ง์ ์ฌ์ฉํ์ง ์๊ณ ์ฐธ์กฐ ๋์ ๋ฌธ๋งฅ์ ํตํด ์ผ๋ฐํ ๊ฐ์
- ์ ํ์ ์์ฐจ ๋์: ์ผ๋ถ ๊ด์ ์๋ง ์์ฐจ๋ฅผ ์ ์ฉํ์ฌ ๋ชจ๋ธ ์ฉ๋์ ๋์ญํ ๋ณด์ ์ ์ง์ค
- ์ปค๋ฆฌํ๋ผ ํ์ต: ์ ์ด ๋์ด๋๋ฅผ ์ ์ง์ ์ผ๋ก ์ฆ๊ฐ์์ผ ์๋ ด ๊ฐ์ํ
Originality
- ๋ชจ์
์ถ์ ์ ๋ช
์์ ์์ฐจ ๋์ ํ์ต ์ ์ฉ: ๊ธฐ์กด I-CTRL๊ณผ ๋ฌ๋ฆฌ ์ ์ฝ ์๋ RL๋ก ์ ์ฒด ์ ์ฒด ์ถค ๋์์ ์ฒ๋ฆฌ
- ๋ถํฌ-์คํจ ์ด์ ์ํ๋ง ์ ๋ต: ๋๋ฌธ ์์ธ ์ปค๋ฒ๋ฆฌ์ง์ ์ด๋ ค์ด ์ธ๊ทธ๋จผํธ ๋ชจ๋๋ฅผ ๋ค๋ฃจ๋ ํ์ ์ ์ ๊ทผ
- ๋ค์ค ์ ์ฒด ํฌ๊ธฐ ๋ก๋ด ํ๋ซํผ์ผ๋ก์ ์ผ๋ฐํ: ๋จ์ผ ํ์ดํผํ๋ผ๋ฏธํฐ ์ธํธ๋ก ์ฌ๋ฌ ๋ก๋ด์ ์ ๋ฌ ๊ฐ๋ฅํ ์ฒซ ์์ฐ
Limitation & Further Study
- ํ๊ฐ๊ฐ ์ฃผ๋ก ์ถค ๋์์ ์ง์ค๋์ด ์์ผ๋ฉฐ, ๋ค๋ฅธ ๊ณ ์ญ๋ ์์
(์: ๋ฏผ์ฒฉํ ์ด๋)์ ๋ํ ๊ฒ์ฆ ๋ถ์กฑ
- ์ค์ ๋ก๋ด์์์ ์์ ์ฑ ๋ฉํธ๋ฆญ๊ณผ ์คํจ ์ฌ๋ก์ ๋ํ ์์ธํ ๋ถ์ ๋ถ์กฑ
- ๋ค์ํ ์ ์ฒด ํํ, ๊ตฌ๋๊ธฐ ํน์ฑ, ํ๊ฒฝ ์กฐ๊ฑด์์์ ์ผ๋ฐํ ๋ฒ์๊ฐ ๋ช
ํํ์ง ์์
- ํ์ ์ฐ๊ตฌ: ์กฐ์ ์์
, ์ธ๋ถ ๊ต๋ ๋ก๋ฒ์คํธ์ฑ, ๋ ๋์ ์์ ๋ ์์คํ
์ผ๋ก์ ํ์ฅ์ด ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: RobotDancing์ ์์ฐจ ๋์ ํ์ต๊ณผ ์ด์ ์ํ๋ง ์ ๋ต์ ํตํด ์ธ๊ฐํ ๋ก๋ด์ ์ฅ๊ธฐ ๊ณ ์ญ๋ ๋ชจ์
์ถ์ ๋ฌธ์ ๋ฅผ ์ฐ์ํ๊ฒ ํด๊ฒฐํ๋ฉฐ, ์ค์ ๋ก๋ด์ผ๋ก์ ์์ ์ ๋ฌ ์ฑ๊ณต์ ์ค๋ฌด์ ๊ฐ์น๊ฐ ๋๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์