Unleashing Humanoid Reaching Potential via Real-world-Ready Skill Space
์ ์: Zhikai Zhang, Chao Chen, Han Xue, Jilong Wang, Sikai Liang, Yun Liu, Zongzhang Zhang, He Wang, Li Yi | ๋ ์ง: 2025-05-16 | URL: https://arxiv.org/abs/2505.10918 📄 PDF
Essence
Fig. 1: (a) The humanoid showcases multiple real-world-ready primitive skills, including locomotion and body-pose-adjust
ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ๋๊ท๋ชจ ๋๋ฌ ๊ณต๊ฐ ํ๋ณด๋ฅผ ์ํด ์ฌ์ ํ์ต๋ ์์ ์คํฌ๋ค์ ํตํฉํ๋ Real-world-Ready Skill Space (R2S2)๋ฅผ ์ ์ํ๋ฉฐ, CVAE ๊ธฐ๋ฐ์ ํต์ผ๋ ์ ๊ฒฝ ์คํฌ ํํ์ ํตํด ํจ์จ์ ์ด๊ณ sim2real ์ ์ด ๊ฐ๋ฅํ ์ ์ ์ ์ด๋ฅผ ์คํํ๋ค.
Motivation
- Known: ์ต๊ทผ RL ๊ธฐ๋ฐ ํด๋จธ๋
ธ์ด๋ ์ ์ ์ ์ด(WBC)๋ ๋ก์ฝ๋ชจ์
๊ณผ ์ ์ฒด ์์ธ ์กฐ์ ์ ๊ฒฐํฉํ์ฌ ๋๋ฌ ๋ฅ๋ ฅ์ ์์ฐํ์ผ๋, ๋ณต์กํ ๋ณด์ ์์ง๋์ด๋ง๊ณผ ๊ถค์ ์ต์ ํ์ ์์กดํ๊ณ ์๋ค.
- Gap: ๊ฐ๋ณ ์คํฌ๋ค์ ๋
๋ฆฝ์ ์ผ๋ก ํ์ตํ๋ฉด ์คํฌ ๊ฐ ํ๋ ฅ๊ณผ ์ ํ์ด ๋ถํฌ ๋ฐ์ด ๋๊ณ , ์ด์ง์ ์คํฌ๋ค์ด ๋ถ์ผ์นํ๋ ๋ช
๋ น ๊ณต๊ฐ์ ๊ฐ์ง๊ณ ์์ด ํต์ผ๋ ํํ์ด ๋ถ์กฑํ๋ค.
- Why: ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ด ์ผ์ ์์
์ ์ํํ๋ ค๋ฉด ์ธ๊ฐ ์์ค์ ๋๊ท๋ชจ ๋๋ฌ ๊ณต๊ฐ์ด ํ์์ ์ด๋ฉฐ, ๋ณด์ ์์ง๋์ด๋ง ์ต์ํ์ ๊ฐํ sim2real ์ ์ด ๊ฐ๋ฅ์ฑ์ด ์ค์ ๋ฐฐํฌ์ ํต์ฌ ์๊ตฌ์ฌํญ์ด๋ค.
- Approach: ์์ ์คํฌ ๋ผ์ด๋ธ๋ฌ๋ฆฌ ๊ตฌ์ถ โ ์ด์ง์ ์คํฌ ํตํฉ(heterogeneous skill ensembling)์ ํตํ CVAE ๊ธฐ๋ฐ ํต์ผ ํํ ํ์ต โ R2S2๋ก๋ถํฐ ์ํ๋งํ๋ ๊ณ ์์ค ๊ณํ๊ธฐ ํ๋ จ์ผ๋ก ๋ชฉํ ๋๋ฌ ํ์คํฌ ์คํ.
Achievement
Fig. 1: (a) The humanoid showcases multiple real-world-ready primitive skills, including locomotion and body-pose-adjust
- R2S2 ํ๋ ์์ํฌ ์ ์: ์ฌ์ ํ์ต๋ ์์ ์คํฌ๋ก๋ถํฐ ์ง์์ ์์๋ฐ์ผ๋ฉด์ ํต์ผ๋ ์ ๊ฒฝ ์คํฌ ํํ์ผ๋ก ํ์ฅํ๋ ๊ตฌ์กฐ์ ์คํฌ ์ฌ์ ์ ๊ฐ๋ฐ
- ์ต์ ๋ณด์ ์์ง๋์ด๋ง: ๊ธฐ์กด AMO, HOMIE์ ๋ฌ๋ฆฌ ๋ณต์กํ ๋ณด์ ์ค๊ณ๋ ์ธ๊ฐ ์์ฐ ์์ด RL ํ์ ํ์ฉ
- Dual ํด๋จธ๋
ธ์ด๋ ํ๋ซํผ ๊ฒ์ฆ: Unitree G1(29 DoF)๊ณผ Unitree H1(1.8m ๋์ด)์์ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ ์
์ฆ
- ์ค์ ๋ฐฐํฌ ์ฑ๊ณผ: ์์จ ๋ชฉํ ๋๋ฌ ํ์คํฌ์ ๋๊ท๋ชจ ๋๋ฌ ๊ณต๊ฐ์ ์ง์ํ๋ ์ ์ ํ
๋ ์คํผ๋ ์ด์
์์คํ
๊ตฌํ
- Zero-shot Sim2Real ์ ์ด: ๊ด๋ฒ์ํ ํ์ค ์ธ๊ณ ์คํ์ ํตํด ๊ฐํ ์ ์ด ๊ฐ๋ฅ์ฑ ๊ฒ์ฆ
How
Fig. 2: We present R2S2, a structural skill prior that helps autonomous WBC task execution in an efficient and sim2real
- ์์ ์คํฌ ๋ผ์ด๋ธ๋ฌ๋ฆฌ ๊ตฌ์ถ: locomotion, body-pose-adjustment, end-effector ์ ์ด ๋ฑ ๊ฐ๋ณ ์คํฌ์ ์ค์ ๋ฐฐํฌ ๊ฐ๋ฅํ๋๋ก ๋ณ๋ ํ๋ ๋ฐ sim2real ํ๊ฐ
- ์ด์ง์ ์คํฌ ํตํฉ: heterogeneous skill training environment์์ Imitation Learning๊ณผ Reinforcement Learning์ ๋์ ์ผ๋ก ์กฐํฉ
- CVAE ๊ธฐ๋ฐ ํ์ ์ ์ฑ
: ์ฌ์ ํ์ต๋ ๊ต์ฌ ์ ์ฑ
๋ค๋ก๋ถํฐ ์ค์ ๋ฐฐํฌ ๊ฐ๋ฅ ์คํฌ ์ฌ์ ์ ์์๋ฐ์ผ๋ฉด์ ์๋ก์ด ์คํฌ ํ๋ ฅ๊ณผ ์ ํ ํ์
- ํต์ผ ์คํฌ ํํ: proprioception์ ์กฐ๊ฑดํ๋ ์ด๋ ์คํฌ ๋ถํฌ๋ฅผ ์ ๊ฒฝ๋ง์ผ๋ก ๋ชจ๋ธ๋งํ์ฌ ๋ค์ค ์คํฌ ๊ณํ์ ์ํ ํจ์จ์ ํํ ์ ๊ณต
- ๊ณ ์์ค ๊ณํ๊ธฐ ํ๋ จ: R2S2๋ก๋ถํฐ ์คํฌ ์ํ๋ง์ ์ํํ๋ ๊ณํ ์ ์ฑ
์ ํ์คํฌ๋ณ๋ก ํ์ตํ์ฌ ์์จ ์คํ
Originality
- ๊ธฐ์กด ๊ณ์ธต์ ํด๋จธ๋
ธ์ด๋ ์ ์ด ํ๋ ์์ํฌ(AMO, HOMIE)์ ๋ฌ๋ฆฌ MLP ๊ธฐ๋ฐ ์ ์์ค ์ ์ด๊ธฐ์ 1์ฐจ ๋ช
๋ น ๊ณต๊ฐ์ด ์๋ CVAE ์ ๊ฒฝ ์คํฌ ๊ณต๊ฐ์์ ๊ณํ์ ์ํํ๋ ์ฐธ์ ํ ์ค๊ณ
- ์บ๋ฆญํฐ ์ ๋๋ฉ์ด์
์ ์ธ๊ฐ ๋์ ์ฌ์ ๊ณผ ๋ฌ๋ฆฌ ์ค์ ๋ฐฐํฌ ๊ฐ๋ฅํ ์์ ์คํฌ๋ก๋ถํฐ ์คํฌ ๊ณต๊ฐ์ ๊ตฌ์ถํ๋ ์ค์ฉ์ ์ ๊ทผ
- ์คํฌ ๊ฐ ํ๋ ฅ๊ณผ ์ ํ ๋ฌธ์ ๋ฅผ ์ด์ง์ ์คํฌ ํตํฉ ๋จ๊ณ์์ ๋ช
์์ ์ผ๋ก ํด๊ฒฐํ๋ ๋ฐ์ปคํ๋ง ์ ๋ต
- RL ํ์๊ณผ IL ์์์ ๋์ ์ผ๋ก ์กฐํฉํ์ฌ ๋ณด์ ์์ง๋์ด๋ง๊ณผ ์ธ๊ฐ ์์ฐ ์์ด๋ ๋ค์ค ์คํฌ ํ์ต์ ํจ์จ์ ์ผ๋ก ์ํ
Limitation & Further Study
- ์์ ์คํฌ ๋ผ์ด๋ธ๋ฌ๋ฆฌ์ ์ด๊ธฐ ๊ตฌ์ถ์ด ์๋์ผ๋ก ์ด๋ฃจ์ด์ง๋ฏ๋ก, ์๋ก์ด ์คํฌ ์ถ๊ฐ ์ ๊ฐ๋ณ ํ๋ ๋ฐ sim2real ํ๊ฐ ํ์
- CVAE ๊ธฐ๋ฐ ํํ์ ๊ณํ ํจ์จ์ฑ๊ณผ ๋ค์์ฑ์ ๊ท ํ์ ๋ํ ์์ธํ ๋ถ์ ๋ถ์กฑ
- ๋ณต์กํ ํ๊ฒฝ(๋์ ์ฅ์ ๋ฌผ, ํ๋ ฅ ๊ฐ์ฒด ์กฐ์ ๋ฑ) ํ์ฅ์ฑ์ ๋ํ ํ๊ฐ ๋ฏธํก
- ํ์์ฐ๊ตฌ: ์๋ ์คํฌ ๋ฐ๊ฒฌ ๋ฉ์ปค๋์ฆ, ๋ ๋ณต์กํ ๋ค์ฒด ์กฐ์ ํ์คํฌ๋ก์ ํ์ฅ, ์ค์๊ฐ ํ๊ฒฝ ์ ์ ๋ฅ๋ ฅ ๊ฐํ
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ์ด ๋
ผ๋ฌธ์ ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ๋๊ท๋ชจ ๋๋ฌ ๊ณต๊ฐ ์คํ์ด๋ผ๋ ์ค์ํ ๋ฌธ์ ๋ฅผ ์ค์ฉ์ ๊ด์ ์์ ํด๊ฒฐํ๋ฉฐ, ์ด์ง์ ์คํฌ ํตํฉ๊ณผ CVAE ๊ธฐ๋ฐ ์ ๊ฒฝ ์คํฌ ํํ์ด๋ผ๋ ์ฐธ์ ํ ๊ธฐ์ ์ ํตํด ๋ณด์ ์์ง๋์ด๋ง ์ต์ํ์ ๊ฐํ sim2real ์ ์ด๋ฅผ ๋์์ ๋ฌ์ฑํ ์ฐ์ํ ์ฐ๊ตฌ์ด๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์