Embracing Bulky Objects with Humanoid Robots: Whole-Body Manipulation with Reinforcement Learning
์ ์: Chunxin Zheng, Kai Chen, Zhihai Bi, Yulin Li, Liang Pan, Jinni Zhou, Haoang Li, Jun Ma | ๋ ์ง: 2025-09-16 | DOI: 10.48550/arXiv.2509.13534 📄 PDF
Essence
Fig. 1.
๋ณธ ๋
ผ๋ฌธ์ ์ธ๊ฐ์ ๋์ ์ฌ์ (human motion prior)๊ณผ neural signed distance field(NSDF)๋ฅผ ํตํฉํ ๊ฐํํ์ต ํ๋ ์์ํฌ๋ฅผ ์ ์ํ์ฌ ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ด ํ๊ณผ ๋ชธํต์ ์กฐ์จํด ๋ถํผ๊ฐ ํฐ ๋ฌผ์ฒด๋ฅผ ์ ์ ์ผ๋ก ํฌ์ฉํ๊ณ ์ด๋ฐํ ์ ์๋๋ก ํ๋ ๋ฐฉ๋ฒ์ ์ ์ํ๋ค.
Motivation
- Known: ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ์ ์ ์กฐ์(WBM)์ ๋ค์ค ์ ์ด ์ ๋ต์ ํตํด ๋ถํผ๊ฐ ํฐ ๋ฌผ์ฒด๋ฅผ ์์ ์ ์ผ๋ก ์กฐ์ํ ์ ์์ผ๋ฉฐ, ๊ฐํํ์ต๊ณผ ํ๋ ๋ณต์ (behavior cloning)๋ ์ธ๊ฐ ๋ชจ์
๋ฐ์ดํฐ๋ฅผ ํ์ฉํด ์์ฐ์ค๋ฌ์ด ๋ก๋ด ์ ์ด๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ๋ค.
- Gap: ๊ธฐ์กด์ ๋ชจ๋ธ ๊ธฐ๋ฐ WBM ๋ฐฉ๋ฒ์ ๊ณ์ฐ ๋น์ฉ์ด ๋๊ณ ์ ํํ ๊ธฐํํ์ ์ธ์ง์ ์คํจํ๋ฉฐ, ํ์ต ๊ธฐ๋ฐ ๋ฐฉ๋ฒ๋ค์ ์ ์คํ๊ฒ ์ค๊ณ๋ ๋ณด์์ ์์กดํ๋ฉด์๋ ์ ์ด์ด ๋ง๊ณ ๋์ ์ผ๋ก ๋ถ์์ ํ ์๋๋ฆฌ์ค์์ ๊ฐ๊ฑดํ ํ๋์ ์์ฑํ์ง ๋ชปํ๋ค.
- Why: ๋ถํผ๊ฐ ํฐ ๋ฌผ์ฒด์ ์ ์ ํฌ์ฉ ์์
์ ์ค๋ ์งํ์ ์ ์กฐ์จ๋ ๋์์ ์๊ตฌํ๋ฉฐ, ์ด๋ฅผ ์ฑ๊ณต์ ์ผ๋ก ์ํํ๋ ๊ฒ์ ์ฐ์
์์ฉ ๋ฐ ๊ฐ์ ์๋น์ค ๋ก๋ด์ ๋ฐฐ์น์ ํ์์ ์ด๋ค.
- Approach: Teacher-student ์ํคํ
์ฒ๋ฅผ ํตํด ๋๊ท๋ชจ ์ธ๊ฐ ๋ชจ์
๋ฐ์ดํฐ(AMASS)์์ ์๋ฌผํ์ ์ผ๋ก ํ๋นํ ์ด๋ํ์ ๋ถํฌ๋ฅผ ์ถ์ถํ๊ณ , NSDF๋ฅผ ์ด์ฉํด ์ ํํ ๊ธฐํํ์ ์ธ์ง์ ์ ์ด ์ธ์์ ์ ๊ณตํ๋ฉฐ, ์ด ๋ ์์๋ฅผ RL ์ ์ฑ
ํ์ต์ ํตํฉํ๋ค.
Achievement
Fig. 1.
- ์ฒซ ํด๋จธ๋
ธ์ด๋ WBM RL ํ๋ ์์ํฌ: ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ด ํ๊ณผ ๋ชธํต์ ๋์์ ํ์ฉํด ๋ฌผ์ฒด๋ฅผ ํฌ์ฉํ๋ ์ต์ด์ ๊ฐํํ์ต ํ๋ ์์ํฌ ์ ์
- ์๋ ด์ฑ ํฅ์: ์ธ๊ฐ ๋ชจ์
์ฌ์ ์ ๋์
ํด ๋ค์ค ์ ์ด ๋ฐ ์ฅ๊ธฐ ์งํ์ ์์
์์ ์ ์ฑ
ํ์ต์ ์๋ ด ์๋๋ฅผ ๊ฐ์ํํ๊ณ ์ธ๊ฐํ(anthropomorphic) ๊ธฐ์ ์ต๋ ์ด์ง
- ๊ฐ๊ฑดํ ์ ์ด ์ธ์ง: NSDF ํํ์ผ๋ก ๋ก๋ด-๋ฌผ์ฒด ์ํธ์์ฉ์ ์ ๋ฐํ๊ฒ ์ธ์งํ์ฌ ๊ด์ฐฐ ๊ณต๊ฐ๊ณผ ๋ณด์ ํจ์ ์ค๊ณ์ ํ์ฉ, ์ฅ์๊ฐ ์ ์ด ์ ์ง ๊ฐํ
- ๋์ ์ ์์ฑ ๋ฐ ํ์ค ์ด์ : ๋ค์ํ ํํ์ ํฌ๊ธฐ์ ๋ฌผ์ฒด์ ์ฐ์ํ ์ ์์ฑ์ ๋ณด์ด๋ฉฐ ์๋ฎฌ๋ ์ด์
์์ ํ์ค๋ก์ ์ ์ด(sim-to-real transfer) ์ฑ๊ณต ์
์ฆ
How
Fig. 2.
- AMASS ๋ชจ์
์บก์ฒ ๋ฐ์ดํฐ์
์์ ์์ํ์ฌ MaskedMimic์ ์ฌ์ฉํด ์ด๋ํ์ ์ ์ฝ ์๋ฐ(์๊ธฐ ์ถฉ๋, ๋ฐ ๋ฏธ๋๋ฌ์ง) ์ํ์ค ์ ๊ฑฐ
- ํํฐ๋ง๋ ๋ชจ์
์ ๋ก๋ด ํํ๋ก ์ฌํ์ ํ(retarget)ํ์ฌ ๋ก๋ด ์ฐธ์กฐ ๊ถค์ ์์ง
- Teacher-student ์ฆ๋ฅ ์ํคํ
์ฒ๋ก ํ๋ ๋ณต์ ์ ์ฑ
์ ํตํด ๋ชจ์
์ฌ์ ํ์ต
- Neural signed distance field ๊ตฌ์ฑ์ผ๋ก ๋ก๋ด ์ ์ฒด์ ์ ํํ ๊ธฐํํ์ ํํ ์์ฑ
- ๋ชจ์
์ฌ์ ๊ณผ NSDF ๊ธฐ๋ฐ ๊ด์ฐฐ ๋ฐ ๋ณด์์ ํ์ฉํ RL ์ ์ฑ
ํ์ต
- ์๋ฎฌ๋ ์ด์
ํ๊ฒฝ์์ ์ ์ฑ
ํ์ต ํ ์ค์ ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ๋ฐฐํฌ ๋ฐ ๊ฒ์ฆ
Originality
- ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ์ ์ ํฌ์ฉ ์กฐ์์ ์ํ ์ต์ด์ RL ํ๋ ์์ํฌ ์ ์
- ์ธ๊ฐ ๋ชจ์
์ฌ์ ์ RL ์ ์ฑ
์ ํตํฉํ์ฌ ํ์ต ์์ ์ฑ๊ณผ ์๋ ด์ฑ์ ๋์์ ํฅ์์ํค๋ novelํ ์ ๊ทผ
- NSDF๋ฅผ ์๊ธฐ ๋ชจ๋ธ๋ง(self-modeling) ๋ฐ ์ ์ด ์ธ์ ํฅ์์ ์ง์ ํ์ฉํ ๋ฐฉ๋ฒ๋ก ํ์
- Teacher-student ๊ตฌ์กฐ๋ฅผ ํตํ ๋ชจ์
์ฌ์ ์ถ์ถ๋ก ๊ธฐ์กด BC ๊ธฐ๋ฐ ์ ๊ทผ์ ํ๊ณ(ํ๊ฒฝ ์ ๋ณด ๋ถ์กฑ) ๊ทน๋ณต
Limitation & Further Study
- ๋
ผ๋ฌธ์์๋ ํน์ ํด๋จธ๋
ธ์ด๋ ๋ก๋ด ํ๋ซํผ(๊ตฌ์ฒด์ ๋ช
์ ํ์)์ ๋ํด์๋ง ๊ฒ์ฆ๋์ด ๋ค๋ฅธ ํ๋ซํผ์ผ๋ก์ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ ๋ถ๋ช
ํ
- NSDF ๊ณ์ฐ ์ค๋ฒํค๋ ๋ฐ ์ค์๊ฐ ์ฑ๋ฅ์ ๋ํ ์์ธ ๋ถ์ ๋ถ์กฑ
- ์ฅ์๊ฐ ์ด๋ฐ ์์
์ ๋ํ ์๋์ง ํจ์จ์ฑ ๋ฐ ์์ ์ฑ ํ๊ฐ ๋ฏธํก
- ๋ค์ํ ํ๊ฒฝ(๋ถ๊ท ๋ฑํ ๋ฐ๋ฅ, ์ฅ์ ๋ฌผ์ด ๋ง์ ๊ณต๊ฐ) ์กฐ๊ฑด์์์ ๊ฐ๊ฑด์ฑ ํ๊ฐ ํ์
- ํ์ ์ฐ๊ตฌ๋ก ๋ค์ค ๋ก๋ด ํ๋ ฅ ์ ์ ์กฐ์, ๋์ฑ ๋ณต์กํ ๊ธฐํํ์ ๋ฌผ์ฒด ์ฒ๋ฆฌ, ๋์ ํ๊ฒฝ์์์ ์ ์ ๋ฅ๋ ฅ ๊ฐ์ ๊ธฐ๋
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ์ ์ ๋ฌผ์ฒด ํฌ์ฉ ์กฐ์์ ์ํ ์ต์ด์ RL ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ฉฐ, ์ธ๊ฐ ๋ชจ์
์ฌ์ ๊ณผ NSDF์ ํตํฉ์ ํตํด ํ์ต ํจ์จ์ฑ๊ณผ ์ ์ด ๊ฐ๊ฑด์ฑ์ ๋์์ ๋ฌ์ฑํ ํ์ ์ ์ธ ์ฐ๊ตฌ๋ค. ์๋ฎฌ๋ ์ด์
๊ณผ ์ค์ ๋ก๋ด ์คํ์ ํตํ ๊ฒ์ฆ์ด ์ถฉ๋ถํ๊ณ ์ค์ฉ์ ๊ฐ์น๊ฐ ๋๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์