One-shot Adaptation of Humanoid Whole-body Motion with Walking Priors
์ ์: Hao Huang, Geeta Chandra Raju Bethala, Shuaihang Yuan, Congcong Wen, Mengyu Wang, Anthony Tzes, Yi Fang | ๋ ์ง: 2026-04-07 | DOI: 10.48550/arXiv.2510.25241 📄 PDF
Essence
Figure 2. Given a sequence of walking motion pose skeletons and a target sequence comprising non-walking motions, we emp
๋จ์ผ ๋น๋ณดํ ๋์ ์ํ๊ณผ ๋ณดํ ์ฌ์ ์ง์์ ํ์ฉํ์ฌ ํด๋จธ๋
ธ์ด๋ ์ ์ ์ด๋์ ์์ท ์ ์ํ๋ ๋ฐ์ดํฐ ํจ์จ์ ๋ฐฉ๋ฒ์ ์ ์ํ๋ค. Order-preserving optimal transport๋ฅผ ํตํด ๋ณดํ๊ณผ ๋น๋ณดํ ์ํ์ค ๊ฐ ๊ฑฐ๋ฆฌ๋ฅผ ๊ณ์ฐํ๊ณ geodesic ๋ณด๊ฐ์ผ๋ก ์ค๊ฐ ํฌ์ฆ๋ฅผ ์์ฑํ ํ ๊ฐํํ์ต์ผ๋ก ์ ์ฑ
์ ์ ์ํ๋ค.
Motivation
- Known: ์ต๊ทผ ์ฌํ ๊ฐํํ์ต ๊ธฐ๋ฐ ํด๋จธ๋
ธ์ด๋ ์ด๋ ๋ฐฉ๋ฒ๋ค์ Transformer ์ ์ฑ
, world model, ๊ณ์ธต์ ์ ์ด ๋ฑ์ผ๋ก ๋ค์ํ ์ ์ ์ด๋์ ์ํํ ์ ์์ผ๋, ๋ชจ๋ ๋๊ท๋ชจ ๋ชจ์
๋ฐ์ดํฐ์
(์: CMU MoCap, AMASS)์ ๋ค์ค ์ํ์ ํ์๋ก ํ๋ค.
- Gap: ํด๋จธ๋
ธ์ด๋ ์ ์ ์ด๋์์ ๋จ์ผ ๋์ ์ํ๋ก๋ถํฐ์ ์์ท ํ์ต์ ๋์ ๊ท ํ๊ณผ ๋ค์ค ๊ด์ ์กฐ์ ์ด ํ์ํด ๊ฑฐ์ ๋ฏธํ์ ์ํ์ด๋ฉฐ, ๋๊ท๋ชจ ๋ชจ์
๋ฐ์ดํฐ ์์ง์ ๋์ ๋น์ฉ๊ณผ ๋
ธ๋๋ ฅ ๋ฌธ์ ๊ฐ ์กด์ฌํ๋ค.
- Why: ๋ณดํ ์ธ ๋ณต์กํ ๋ชจ์
(๋์ค, ์ ํ, ํ์น ๋ฑ) ๋น๋์ค๋ ์ธํฐ๋ท์์ ์์งํ๊ธฐ ์ด๋ ค์ ๋ฐ์ดํฐ ํจ์จ์ ์ ์ ๊ธฐ๋ฒ์ด ํ์์ด๋ฉฐ, ์ด๋ฅผ ํตํด ๋ชจ์
์บก์ฒ ๋ฐ์ดํฐ์
๊ตฌ์ถ์ ๋ถ๋ด์ ๋ํญ ๊ฐ์์ํฌ ์ ์๋ค.
- Approach: ์ฌ์ ํ์ต๋ ๋ณดํ ๊ธฐ๋ฐ ๋ชจ๋ธ๊ณผ ๋จ์ผ ๋์ ๋ชจ์
ํด๋ฆฝ์ผ๋ก๋ถํฐ order-preserving optimal transport๋ฅผ ์ด์ฉํด ์ค๊ฐ ํฌ์ฆ ๊ณจ๊ฒฉ์ ์์ฑํ๊ณ , manifold ์ต์ ํ๋ก ์ถฉ๋ ํํผ๋ฅผ ๋ณด์ฅํ ํ ๊ฐํํ์ต์ผ๋ก ๋ฏธ์ธ์กฐ์ ํ๋ค.
Achievement
Figure 1. Sampled frames from motion sequences of a humanoid (Unitree H1) performing four distinct actions in sim-to-sim
- ๋ฐ์ดํฐ ํจ์จ์ฑ: ๋จ์ผ ๋น๋ณดํ ์ท๋ง์ผ๋ก ์๋ก์ด ํด๋จธ๋
ธ์ด๋ ์ด๋์ ์ ์ ๊ฐ๋ฅํ๋ฉฐ, ๋๋ ๋ชจ์
๋ฐ์ดํฐ ์์ง์ ํ์์ฑ์ ์ ๊ฑฐ
- ๊ฒฝ๋ ์์ฑ ๋ฐฉ์: ์ ๊ฒฝ๋ง ํ๋ จ ์์ด order-preserving optimal transport์ manifold ์ต์ ํ๋ง์ผ๋ก ํฉ์ฑ ํ์ต ์ํ ์์ฑ
- ์ฐ์ํ ์ฑ๋ฅ: CMU MoCap ๋ฐ์ดํฐ์
์์ ๊ธฐ์ค์ ๋๋น ์ผ๊ด๋๊ฒ ๊ฐ์ ๋ ์ฑ๋ฅ ๋ฌ์ฑ
- ๊ฒฌ๊ณ ์ฑ: Isaac Gym์์ MuJoCo๋ก์ ์๋ฎฌ๋ ์ดํฐ ๊ฐ ์ ์ด(sim-to-sim transfer) ์ฑ๊ณต
How
Figure 2. Given a sequence of walking motion pose skeletons and a target sequence comprising non-walking motions, we emp
- Base Model: ์ฝ 130๊ฐ์ ๋ณดํ ๋ชจ์
ํด๋ฆฝ์ผ๋ก ๋ณดํ ๊ธฐ๋ฐ ์ ์ฑ
์ฌ์ ํ์ต (PPO)
- OPOT ๊ฑฐ๋ฆฌ ๊ณ์ฐ: Order-preserving optimal transport๋ก ๋ณดํ๊ณผ ๋์ ์ํ์ค ๊ฐ Wasserstein ๊ฑฐ๋ฆฌ ๊ณ์ฐํ์ฌ ์๊ฐ์ ์ผ๊ด์ฑ ๋ณด์กด
- Geodesic ๋ณด๊ฐ: ๊ณ์ฐ๋ ๊ฑฐ๋ฆฌ๋ฅผ ๋ฐ๋ผ ์ค๊ฐ ํฌ์ฆ ๊ณจ๊ฒฉ ์์ฑ์ผ๋ก pose skeleton manifold ์์์ ๋ถ๋๋ฌ์ด ์ ์ด
- Manifold ์ต์ ํ: ์์ฑ๋ ๋ชจ์
์ ์ ์ฒด ๋ถ์ ๊ฐ ์ถฉ๋ ์ ๊ฑฐ ๋ฐ ์ด๋ํ์ ํ๋น์ฑ ํ๋ณด
- Retargeting: ์ต์ ํ๋ ๊ณจ๊ฒฉ์ ํด๋จธ๋
ธ์ด๋(Unitree H1, 19 DoF)์ ๊ด์ ๊ตฌ์กฐ๋ก ๋ณํ
- ์ ์ฑ
๋ฏธ์ธ์กฐ์ : Base Model์ ์์ฑ๋ ํฉ์ฑ ๋ฐ์ดํฐ๋ก ๊ฐํํ์ต(PPO)์ผ๋ก ์ฌํ๋ จ
Originality
- ํด๋จธ๋
ธ์ด๋ ์ ์ ์ด๋์ ์์ท ํ์ต ๊ฐ๋
์ ์ต์ด๋ก ์ ์ฉํ๋ฉฐ, ๊ธฐ์กด ์กฐ์ ๊ณผ์ ์ ๋ฌ๋ฆฌ ๋์ ๊ท ํ๊ณผ ๋ณดํ ์ฌ์ ์ง์์ ๊ณ ๋ คํ ์ฐจ๋ณํ๋ ์ ๊ทผ
- Order-preserving optimal transport๋ฅผ ๋ชจ์
์์ฑ์ ํ์ฉํ์ฌ ์๊ฐ์ ์์๋ฅผ ๋ณด์กดํ๋ฉด์ pose skeleton manifold์์ geodesic ๋ณด๊ฐ ๊ตฌํ
- ์ ๊ฒฝ๋ง ํ๋ จ ์๋ ๊ฒฝ๋ ์์ฑ ๋ฐฉ์์ผ๋ก ๊ธฐ์กด diffusion model ๊ธฐ๋ฐ ๋ฐฉ๋ฒ๊ณผ ์ฐจ๋ณํ
- ๋ณดํ ์ฌ์ ๋ชจ๋ธ์ ํ์ฉํ ์ ์ง์ ์ ์ ์ ๋ต์ผ๋ก ๋จ์ผ ์ท ํ์ต์ ๋ถ์์ ์ฑ ๊ทน๋ณต
Limitation & Further Study
- Base Model ํ๋ จ์ ์ฝ 130๊ฐ์ ๋ณดํ ํด๋ฆฝ์ด ํ์ํ๋ฏ๋ก ์์ ํ ์์ท ํ์ต์ด ์๋๋ฉฐ, ๋ณดํ์ด ์๋ ๋ค๋ฅธ ๋ณด์กฐ ๋ชจ์
์ผ๋ก ํ์ฅํ ์ ๋ฐ์ดํฐ ์์ง ํ์์ฑ ์กด์ฌ
- ๋์ ๋ชจ์
๊ณผ ๋ณดํ ์ฌ์ด์ ๊ฑฐ๋ฆฌ๊ฐ ๋๋ฌด ํด ๊ฒฝ์ฐ geodesic ๋ณด๊ฐ์ ํจ๊ณผ ์ ๊ฐ ๊ฐ๋ฅ์ฑ
- ํ์ฌ CMU MoCap ๋ฐ์ดํฐ์
์์๋ง ํ๊ฐ๋์์ผ๋ฉฐ, ์ค์ ๋ก๋ด ํ๋์จ์ด ์คํ์ ๋ถ์ฌ๋ก sim-to-real transfer ์ฑ๋ฅ ๋ฏธํ์ธ
- ์ถฉ๋ ํํผ์ ์ด๋ํ์ ํ๋น์ฑ์ ์ํ manifold ์ต์ ํ ๊ณ์ฐ ๋น์ฉ์ด ๋ช
์๋์ง ์์
- ํ์ ์ฐ๊ตฌ: ๋ค์ํ ๋ณด์กฐ ๋ชจ์
์งํฉ์ ํ์ฉ, real-world transfer learning, ๋ ๋ณต์กํ ๋ค์ค-์์ฒด ์ํธ์์ฉ ๋ชจ์
ํ์ฅ, ์จ๋ผ์ธ ์ ์ ๋ฉ์ปค๋์ฆ ๊ฐ๋ฐ
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ํด๋จธ๋
ธ์ด๋ ์ ์ ์ด๋์ ์์ท ํ์ต์ ํจ๊ณผ์ ์ผ๋ก ์ ์ฉํ๊ณ , order-preserving optimal transport์ manifold ์ต์ ํ๋ฅผ ํตํด ๊ฒฝ๋์ ๋ฐ์ดํฐ ํจ์จ์ ์๋ฃจ์
์ ์ ์ํ๋ ๋์ ๊ฐ์น์ ์ฐ๊ตฌ์ด๋ค. ๋ค๋ง ์ค์ ๋ก๋ด ๊ฒ์ฆ๊ณผ ๋ ๋ค์ํ ๋ณด์กฐ ๋ชจ์
ํ์ฅ์ด ํ์ ๊ณผ์ ์ด๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์