Perceptive Humanoid Parkour: Chaining Dynamic Human Skills via Motion Matching
์ ์: Zhen Wu, Xiaoyu Huang, Lujie Yang, Yuanhang Zhang, Koushil Sreenath, Xi Chen, Pieter Abbeel, Rocky Duan, Angjoo Kanazawa, Carmelo Sferrazza, Guanya Shi, C. Karen Liu | ๋ ์ง: 2026-02-17 | DOI: 10.48550/arXiv.2602.15827 📄 PDF
Essence
Fig. 2: Perceptive Humanoid Parkour overview. Atomic parkour skills are composed into long-horizon kinematic reference
Motion matching์ ํตํด ์ธ๊ฐ์ ๋์ ๋ฐ์ดํฐ๋ฅผ ์์์ ๊ธฐ์ ๋ก ํฉ์ฑํ๊ณ , DAgger์ RL์ ๊ฒฐํฉํ teacher-student ํ์ดํ๋ผ์ธ์ผ๋ก ๋จ์ผ ๊น์ด ๊ธฐ๋ฐ ์ ์ฑ
์ผ๋ก ์ฆ๋ฅํ์ฌ ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ด ๋ณต์กํ ์ฅ์ ๋ฌผ ์ฝ์ค์์ ์์จ์ ์ผ๋ก ์ฅ์๊ฐ ํ์ฟ ๋ฅด๋ฅผ ์ํํ๋๋ก ํ๋ค.
Motivation
- Known: ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ์์ ์ ์ธ ๋ณดํ์ ๋ค์ํ ์งํ์์ ๊ตฌํ๋์์ง๋ง, ๋์ ์ญํ์ ๋์์ ๋ฏผ์ฒฉ์ฑ๊ณผ ์ ์์ฑ์ ํฌ์ฐฉํ๋ ๊ฒ๊ณผ ํ๊ฒฝ์ ๋ํ ์ธ์ ๊ธฐ๋ฐ์ ์ฅ์๊ฐ ๊ธฐ์ ํฉ์ฑ์ ์ฌ์ ํ ๋ฏธํด๊ฒฐ ๊ณผ์ ์ด๋ค.
- Gap: ์ธ๊ฐ์ ๋์ ๋ฐ์ดํฐ๋ ์ผ๋ฐ์ ์ผ๋ก ๋งค์ฐ ํฌ์ํ๋ฉฐ(๊ธฐ์ ๋น 1-2๊ฐ ๋ฐ๋ชจ), ๊ธฐ์ ๊ฐ ๋ถ๋๋ฌ์ด ์ ํ๊ณผ ์ฅ์๊ฐ ๊ณผ์ ์์์ ์ ์์ ๋ณํ ์์ฑ์ด ์ด๋ ต๊ณ , ์ฌ๋ฌ ๋์ ๊ธฐ์ ์ ๋จ์ผ ์ ์ฑ
์ผ๋ก ํตํฉํ ๋ ์์ DAgger ์ฆ๋ฅ์ ํ๊ณ๊ฐ ์๋ค.
- Why: ํ์ฟ ๋ฅด๋ ๋์ ์ฐจ์์ ์ ์ด ๊ณต๊ฐ์์ ๋์ ๊ธฐ์ ์คํ, ์๊ฐ ์ธ์์ ํตํ ํ๊ฒฝ ์ ์, ๋ค์ํ ๊ธฐ์ ์ ์๋ ์ ํ๊ณผ ์ ํ์ด ํ์ํ ๋ณตํฉ์ ๋์ ์ด๋ฉฐ, ์ด๋ฅผ ํด๊ฒฐํ๋ฉด ๋ถ๊ท์นํ ์งํ์์ ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ๋ฏผ์ฒฉ์ฑ์ ํ๊ธฐ์ ์ผ๋ก ํฅ์์ํฌ ์ ์๋ค.
- Approach: Motion matching์ nearest-neighbor search ๊ธฐ๋ฐ์ผ๋ก ์์์ ๊ธฐ์ ๋ค์ ์ฅ์๊ฐ ์ด๋ํ ๊ถค์ ์ผ๋ก ํฉ์ฑํ๊ณ , privileged state๋ก training๋ motion-tracking RL expert policies๋ฅผ depth-conditioned student policy๋ก DAgger์ RL ๋ชฉ์ ํจ์์ ๊ฒฐํฉ์ ํตํด ์ฆ๋ฅํ๋ค.
Achievement
Fig. 1: Perceptive Humanoid Parkour (PHP) enables a Unitree G1 humanoid robot to execute highly dynamic, long-horizon
- Motion matching ๊ธฐ๋ฐ ๊ธฐ์ ํฉ์ฑ: OmniRetarget์ผ๋ก ์ธ๊ฐ ๋์์ ์ฌํ๊ฒํ
ํ ์์์ ๊ธฐ์ ๋ค์ feature space์์์ nearest-neighbor search๋ก ๊ตฌ์ฑํ์ฌ ๋ค์ํ ์ ๊ทผ ๊ฑฐ๋ฆฌ์ ์๊ฐ์ ์ ์์ ์ธ ์ฅ์๊ฐ ๊ถค์ ์์ฑ
- ํ์ฅ ๊ฐ๋ฅํ ์ฆ๋ฅ ํ์ดํ๋ผ์ธ: DAgger์ RL์ ๊ฒฐํฉํ hybrid ๋ชฉ์ ํจ์๋ก ์ฌ๋ฌ expert policies๋ฅผ ๋จ์ผ depth ๊ธฐ๋ฐ multi-skill ์ ์ฑ
์ผ๋ก ํจ์จ์ ์ผ๋ก ์ฆ๋ฅ
- ์ค์ ๋ก๋ด ๊ตฌํ: Unitree G1 ํด๋จธ๋
ธ์ด๋์์ 1.25m(๋ก๋ด ๋์ด์ 96%) ๋์ด์ ์ฅ์ ๋ฌผ ๋ฑ๋ฐ, ~3m/s ์๋์ vault, 60์ด ์ฐ์ ๋ณตํฉ ํ์ฟ ๋ฅด ์ฝ์ค ์์จ ์ํ ์ค์ฆ
- Zero-shot sim-to-real transfer: ์๋ฎฌ๋ ์ด์
์์ ํ์ตํ depth ์ ์ฑ
์ด ์ค์ ๋ก๋ด์์ ์ถ๊ฐ fine-tuning ์์ด ์๋ํ๋ฉฐ, ์ค์๊ฐ ์ฅ์ ๋ฌผ ๊ต๋์ ๋ํ closed-loop ์ ์ ๋ฌ์ฑ
How
Fig. 2: Perceptive Humanoid Parkour overview. Atomic parkour skills are composed into long-horizon kinematic reference
- OmniRetarget์ ์ฌ์ฉํ์ฌ ์ธ๊ฐ ๋ชจ์
์บก์ฒ ๋ฐ์ดํฐ๋ฅผ ๋ก๋ด ํธํ ํํ๋ก ์ฌํ๊ฒํ
- Motion matching ์๊ณ ๋ฆฌ์ฆ์ผ๋ก feature space์์ nearest-neighbor search๋ฅผ ์ํํ์ฌ ๊ธฐ์ ๊ฐ ๋ถ๋๋ฌ์ด ์ ํ์ ํฌํจํ ์ฅ์๊ฐ kinematic ๊ถค์ ์์ฑ
- ๊ฐ ๊ธฐ์ ๋ณ๋ก motion-tracking RL expert policies๋ฅผ proprioception๊ณผ heightmap์ผ๋ก trainingํ์ฌ ์ ํํ ๊ถค์ ์ถ์ข
ํ์ต
- DAgger๋ฅผ ํตํ behavior cloning์ผ๋ก ์ด๊ธฐ depth ๊ธฐ๋ฐ student policy ๋ถํธ์คํธ๋ฉ
- RL ๋ณด์ ์ ํธ(task-level ์ฑ๊ณต๋)๋ฅผ ์ถ๊ฐํ์ฌ student policy ์ต์ ํ ๋ฐ compounding error ๊ฐ์
- ํ์ต๋ ์ ์ฑ
์์ depth image์ discrete 2D velocity command๋ก๋ถํฐ ์๋ ๊ธฐ์ ์ ํ ๋ฐ ์คํ ๋ฉ์ปค๋์ฆ ๊ตฌํ
Originality
- ํ์ฟ ๋ฅด ๊ฐ์ ๊ณ ๋๋ก ๋์ ์ธ ํด๋จธ๋
ธ์ด๋ ๋์์ motion matching์ ์ต์ด๋ก ์ ์ฉํ์ฌ ํฌ์ํ ์ธ๊ฐ ๋์ ๋ฐ์ดํฐ์ ํจ์จ์ ํ์ฉ
- DAgger์ RL์ ๊ฒฐํฉํ hybrid ์ฆ๋ฅ ๋ฐฉ์์ผ๋ก pure imitation์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ณ ๋์ ์ญํ์ ๊ธฐ์ ํ์ต ์ฑ๋ฅ ํฅ์
- ๋จ์ผ depth ๊ธฐ๋ฐ ์ ์ฑ
์ผ๋ก ์์ญ ๊ฐ์ ์๋ก ๋ค๋ฅธ ๋์ ํ์ฟ ๋ฅด ๊ธฐ์ ์ ํตํฉํ๊ณ ์๋ ๊ธฐ์ ์ ํ ๋ฐ ๋ถ๋๋ฌ์ด ์ ํ ์คํ
- ๋ณต์กํ ์ฅ์ ๋ฌผ ๊ณผ์ ์์์ ์ค์๊ฐ ํ๋ฃจํ ์ ์ ๋ฐ zero-shot sim-to-real ์ ์ด ๋ฌ์ฑ
Limitation & Further Study
- Motion matching์ ๊ธฐ์กด ์ธ๊ฐ ๋์ ๋ฐ์ดํฐ์ ์ง๊ณผ ๋ค์์ฑ์ ์ ํ์ ์ด๋ฉฐ, ์บก์ฒ๋์ง ์์ ์๋ก์ด ๊ธฐ์ ๊ฐ๋ฐ ๋ถ๊ฐ
- ํ์ฌ ํ๋ ์์ํฌ๋ discrete velocity command ๊ธฐ๋ฐ์ผ๋ก ๋์ ์์ค์ ์์จ ๊ณํ ๊ธฐ๋ฅ(์: ๋ณต์กํ ๊ฒฝ๋ก ๊ณํ)์ด ๋ถ์กฑ
- ๊น์ด ์ผ์๋ง ์ฌ์ฉํ๋ฏ๋ก ํ์๋ ๊ณต๊ฐ์ด๋ ์
๊ด ํ๊ฒฝ์์์ ์ฑ๋ฅ ์ ํ ๊ฐ๋ฅ์ฑ
- ํ์ต ๊ณผ์ ์์ privileged state(heightmap) ์ ๋ณด๊ฐ ํ์ํ๋ฏ๋ก ํ์ฅ ๋ฐ์ดํฐ ์์ง ์ ์ ํํ ํ๊ฒฝ ๋งต ๊ตฌ์ฑ์ ์ด๋ ค์
- ํ์ ์ฐ๊ตฌ: ๋ค์ํ ๋ก๋ด ํํ๋ก์ ์ผ๋ฐํ, ์ฅ์๊ฐ ๋ณตํฉ ๊ณํ ๋ฅ๋ ฅ ํตํฉ, ๋ค์ค ์ผ์ ๊ธฐ๋ฐ ์ ์ฑ
ํ์ฅ ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ๋ณธ ์ฐ๊ตฌ๋ motion matching๊ณผ hybrid DAgger-RL ์ฆ๋ฅ๋ฅผ ํตํด ํฌ์ํ ์ธ๊ฐ ๋์ ๋ฐ์ดํฐ๋ก๋ถํฐ ๋ณต์กํ ํ์ฟ ๋ฅด ๊ธฐ์ ์ ํจ๊ณผ์ ์ผ๋ก ํฉ์ฑ ๋ฐ ํ์ตํ์ฌ ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ๋์ ํ๊ฒฝ ์ ์ ๋ฅ๋ ฅ์ ํ๊ธฐ์ ์ผ๋ก ํฅ์์์ผฐ์ผ๋ฉฐ, ์ค์ ๋ก๋ด์์์ ๊ฐ์ธํ ๊ตฌํ๊ณผ zero-shot sim-to-real ์ ์ด๋ ๋์ ์ค์ฉ์ ๊ฐ์น๋ฅผ ์
์ฆํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์