RL from Physical Feedback: Aligning Large Motion Models with Humanoid Control
์ ์: Junpeng Yue, Zepeng Wang, Yuxuan Wang, Weishuai Zeng, Jiangxing Wang, Xinrun Xu, Yu Zhang, Sipeng Zheng, Ziluo Ding, Zongqing Lu | ๋ ์ง: 2025-06-15 | URL: https://arxiv.org/abs/2506.12769 📄 PDF
Essence
Figure 2: Overview of RLPF, which consists of three key components: i) Motion Tracking Policy
๋ณธ ๋
ผ๋ฌธ์ ํ
์คํธ ๊ธฐ๋ฐ ์ธ๊ฐ ๋์์ ์ค์ ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ์คํ ๊ฐ๋ฅํ ํํ๋ก ๋ณํํ๋ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ดํฐ์์์ ํผ๋๋ฐฑ์ ๊ธฐ๋ฐ์ผ๋ก ๋๊ท๋ชจ ๋ชจ์
์์ฑ ๋ชจ๋ธ์ ๊ฐํํ์ต์ผ๋ก ๋ฏธ์ธ์กฐ์ ํ๋ RLPF ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค.
Motivation
- Known: ๊ธฐ์กด text-to-motion ์์ฑ ๋ชจ๋ธ๋ค์ ํ
์คํธ-๋์ ์๋ฏธ ์ ๋ ฌ์๋ ์ฑ๊ณตํ์ผ๋, ๋๋ถ๋ถ ์ปดํจํฐ ๊ทธ๋ํฝ์ค ๋ถ์ผ์์ ๋น๋กฏ๋์ด ์๊ฐ์ ํ์ง์ ์ฐ์ ์ํ๋ฉฐ ๋ฌผ๋ฆฌ์ ์คํ๊ฐ๋ฅ์ฑ์ ๊ฐ๊ณผํ๋ค.
- Gap: ์์ฑ๋ ๋์์ด ๋ฐ ์ฌ๋ผ์ด๋ฉ, ์ง๋ฉด ๊ดํต, ๋์ ๋ถ์์ ์ฑ ๋ฑ ๋ฌผ๋ฆฌ ๋ฒ์น ์๋ฐ์ผ๋ก ์ธํด ์ค์ ๋ก๋ด ๋ฐฐํฌ์ ์คํจํ๋ฉฐ, ์ธ๊ฐ๊ณผ ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ํํ ์ฐจ์ด๋ก ์ธํ ๋ชจ์
๋ณํ ๋ฌธ์ ๊ฐ ํด๊ฒฐ๋์ง ์์๋ค.
- Why: ํด๋จธ๋
ธ์ด๋ ๋ก๋ด ๊ธฐ์ ์ ๋ฐ์ ์ผ๋ก ๋ค์ํ ๋์์ ์ํํ ์ ์๊ฒ ๋์์ผ๋, ๊ฐ ๋์๋ง๋ค ๋
ธ๋์ง์ฝ์ ์ธ ํ๋ผ๋ฏธํฐ ํ๋์ด ํ์ํ๋ฏ๋ก, ํ
์คํธ ๋ช
๋ น์ผ๋ก๋ถํฐ ๋ฌผ๋ฆฌ์ ์ผ๋ก ์คํ๊ฐ๋ฅํ ๋์์ ์๋ ์์ฑํ ์ ์๋ค๋ฉด ๋ก๋ด ํ์ต์ ํ์ฅ์ฑ๊ณผ ํจ์จ์ฑ์ ํฌ๊ฒ ํฅ์์ํฌ ์ ์๋ค.
- Approach: Motion Tracking Policy๋ฅผ ํตํด ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ดํฐ์์ ์์ฑ๋ ๋์์ ์คํ๊ฐ๋ฅ์ฑ์ ํ๊ฐํ๊ณ ๋ณด์ ์ ํธ๋ฅผ ์์ฑํ๋ฉฐ, Alignment Verification Module๋ก ํ
์คํธ์์ ์๋ฏธ์ ์ผ์น๋ฅผ ๊ฒ์ฆํ๊ณ , ๋ ์ ํธ๋ฅผ ๊ฒฐํฉํ์ฌ PPO ๊ธฐ๋ฐ RL๋ก ๋๊ท๋ชจ ๋ชจ์
๋ชจ๋ธ์ ๋ฏธ์ธ์กฐ์ ํ๋ค.
Achievement
Figure 3: Visualizations of RLPF-w/o align. Since training relies solely on the motion tracking
- ๋ฌผ๋ฆฌ์ ์คํ๊ฐ๋ฅ์ฑ ๋ฌ์ฑ: RLPF๋ ๊ธฐ์กด baseline ๋๋น ๋ฌผ๋ฆฌ์ ์ผ๋ก ์คํ ๊ฐ๋ฅํ ๋์ ์์ฑ์์ ํ์ ํ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ด๋ฉฐ, ์ค์ Unitree G1 ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ์ฑ๊ณต์ ์ผ๋ก ๋ฐฐํฌ๋์๋ค.
- ์๋ฏธ ์ถฉ์ค๋ ๋ณด์กด: ์ ์๋ Alignment Verification Module์ด ํ
์คํธ ์ง์์์ ์๋ฏธ์ ๋์์ ์ ๋์ ์ผ๋ก ํ๊ฐํ์ฌ, ๋ฌผ๋ฆฌ์ ์ต์ ํ ๊ณผ์ ์์๋ ๋์ ์๋ฏธ ์ ๋ ฌ๋๋ฅผ ์ ์งํ๋ค.
- ํตํฉ ์ต์ ํ ํ๋ ์์ํฌ: Motion Tracking Policy์ ํผ๋๋ฐฑ๊ณผ Alignment Verification์ ์ ํธ๋ฅผ jointly ์ต์ ํํ์ฌ ๋ฌผ๋ฆฌ์ ์คํ๊ฐ๋ฅ์ฑ๊ณผ ์๋ฏธ์ ์ ํ์ฑ ๊ฐ์ ๊ท ํ์ ๋ฌ์ฑํ๋ค.
How
Figure 2: Overview of RLPF, which consists of three key components: i) Motion Tracking Policy
- ๋๊ท๋ชจ ๋ชจ์
๋ชจ๋ธ(์: MotionGPT)์ ๊ธฐ๋ฐ์ผ๋ก ํ์ฌ ํ
์คํธ ์
๋ ฅ์ผ๋ก๋ถํฐ ์ด๊ธฐ ๋์ ์ํ์ค๋ฅผ ์์ฑํ๋ค.
- Motion Retargeting์ ํตํด ์ธ๊ฐ ๋์์ ๋ก๋ด์ ์ด๋ํ์ ์ ์ฝ ์กฐ๊ฑด์ ๋ง๊ฒ ๋ณํํ๋ค.
- IsaacGym ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ดํฐ์์ Motion Tracking Policy๋ฅผ ์ด์ฉํ์ฌ ์์ฑ๋ ๋์์ ์ถ์ ์ฑ๋ฅ์ ํ๊ฐํ๊ณ physical feasibility reward๋ฅผ ๊ณ์ฐํ๋ค.
- CLIP ๋๋ ํ
์คํธ ์ธ์ฝ๋๋ฅผ ํ์ฉํ Alignment Verification Module์ด ์์ฑ๋ ๋์๊ณผ ์๋ณธ ํ
์คํธ ์ง์ ๊ฐ์ ์๋ฏธ์ ๊ฑฐ๋ฆฌ๋ฅผ ์ธก์ ํ๋ค.
- ๋ ๋ณด์ ์ ํธ(physical + semantic)๋ฅผ ๊ฒฐํฉํ์ฌ PPO ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ๋๊ท๋ชจ ๋ชจ์
๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ๋ฅผ ๋ฏธ์ธ์กฐ์ ํ๋ค.
- PD ์ปจํธ๋กค๋ฌ๋ฅผ ํตํด ์๋ฎฌ๋ ์ด์
๊ฒฐ๊ณผ๋ฅผ ์ค์ ๋ก๋ด์ ์ ์ฉํ๊ณ ์คํ ๊ฐ๋ฅ์ฑ์ ๊ฒ์ฆํ๋ค.
Originality
- ๋ฌผ๋ฆฌ ํผ๋๋ฐฑ ๊ธฐ๋ฐ RL ๋ฏธ์ธ์กฐ์ : RLHF์ ์ ์ฌํ๊ฒ ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ดํฐ์์์ ์ค์ ํผ๋๋ฐฑ์ ๋ณด์์ผ๋ก ์ฌ์ฉํ์ฌ ์์ฑ ๋ชจ๋ธ์ ์ต์ ํํ๋ ์ ๊ทผ์ text-to-motion ๋ถ์ผ์์ ์ฒ์ ์๋๋ ๊ฒ์ผ๋ก ๋ณด์ธ๋ค.
- Dual-objective ์ต์ ํ: ๋ฌผ๋ฆฌ์ ์คํ๊ฐ๋ฅ์ฑ๊ณผ ์๋ฏธ์ ์ถฉ์ค๋๋ฅผ ๋์์ ๋ณด์ฅํ๋ unified ํ๋ ์์ํฌ๋ก sim-to-real gap์ ์ฒด๊ณ์ ์ผ๋ก ํด๊ฒฐํ๋ค.
- Motion Tracking Policy์ ์๋ก์ด ํ์ฉ: Exbody2๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ Motion Tracking Policy๋ฅผ ๋จ์ ์คํ ๋๊ตฌ๊ฐ ์๋ ๋ณด์ ์ ํธ ์์ฑ ๋ฉ์ปค๋์ฆ์ผ๋ก ํ์ ์ ์ผ๋ก ํ์ฉํ๋ค.
Limitation & Further Study
- ๊ณ์ฐ ๋ณต์ก์ฑ: ๋งค RL ๋ฐ๋ณต ๋จ๊ณ๋ง๋ค ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ด์
๊ณผ ๋์ ์ถ์ ์ ์ํํด์ผ ํ๋ฏ๋ก ํ์ต ์๊ฐ์ด ๊ธธ ์ ์์ผ๋ฉฐ, ํ์ฅ์ฑ ๋ถ์์ด ๋ถ์กฑํ๋ค.
- Alignment Verification Module์ ์์กด์ฑ: ํ
์คํธ-๋์ ์๋ฏธ ์ ๋ ฌ์ ์ํด ์ฌ์ ํ์ต๋ ์ธ์ฝ๋(CLIP ๋ฑ)์ ์์กดํ๋ฏ๋ก, ํน์ ๋๋ฉ์ธ์ด๋ ์ธ์ด์ ๋ํ ์ผ๋ฐํ ์ฑ๋ฅ์ด ์ ํ๋ ์ ์๋ค.
- ํํ์ ์์ ์ ํ์ฑ: ์ ์๋ Motion Retargeting์ด ๋ค์ํ ํด๋จธ๋
ธ์ด๋ ๋ก๋ด ํ๋ซํผ(์์ดํ DoF, ์ฒดํ ๋ฑ)์ ์ ์ํ๋ ๋ฅ๋ ฅ์ ๋ํ ํ๊ฐ๊ฐ ๋ถ์ถฉ๋ถํ๋ค.
- ํ๊ฐ ์งํ์ ํ๊ณ: ๋ฌผ๋ฆฌ์ ์คํ๊ฐ๋ฅ์ฑ์ ์ฃผ๋ก motion tracking success rate๋ก ์ธก์ ํ๋๋ฐ, ์๋์ง ํจ์จ์ฑ์ด๋ ์์ ์ฑ ๋ง์ง ๋ฑ ๋ค๋ฅธ ์ค์ํ ์ธก๋ฉด์ด ์ถฉ๋ถํ ๋ค๋ฃจ์ด์ง์ง ์์๋ค.
- ํ์ ์ฐ๊ตฌ ๋ฐฉํฅ: (1) ๋ ํจ์จ์ ์ธ ๋ณด์ ๊ณ์ฐ ๋ฉ์ปค๋์ฆ ๊ฐ๋ฐ, (2) ๋ค์ํ ๋ก๋ด ํ๋ซํผ์ ๋ํ ๊ด๋ฒ์ํ ํ๊ฐ, (3) ์ค์๊ฐ ํ
์คํธ ํผ๋๋ฐฑ์ ๊ธฐ๋ฐ์ผ๋ก ํ ์จ๋ผ์ธ ํ์ต ํ์ฅ, (4) ๋ฌผ๋ฆฌ์ ์์ ์ฑ ๋ง์ง์ ๋ช
์์ ์ผ๋ก ๊ณ ๋ คํ๋ ๋ณด์ ์ค๊ณ.
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ text-to-motion ์์ฑ ๋ชจ๋ธ๊ณผ ๋ก๋ด ์ ์ด ๊ฐ์ ์ค๋ ๊ฐ๊ทน์ ๋ฌผ๋ฆฌ์ ํผ๋๋ฐฑ ๊ธฐ๋ฐ RL๋ก ์ฒด๊ณ์ ์ผ๋ก ํด๊ฒฐํ๋ ์ฐฝ์์ ์ ๊ทผ์ ์ ์ํ๋ฉฐ, ์ค์ ๋ก๋ด ๋ฐฐํฌ ์ฑ๊ณต์ ํตํด ์ค์ฉ์ ๊ฐ์น๋ฅผ ์
์ฆํ๋ค. ๋ค๋ง ๊ณ์ฐ ํจ์จ์ฑ๊ณผ ํ๊ฐ ๋ฒ์ ํ๋์ ๋ํ ์ถ๊ฐ ์ฐ๊ตฌ๊ฐ ํ์ํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์