APEX: Learning Adaptive High-Platform Traversal for Humanoid Robots
์ ์: Yikai Wang, Tingxuan Leng, Changyi Lin, Shiqi Liu, Shir Simon, Bingqing Chen, Jonathan Francis, Ding Zhao | ๋ ์ง: 2026-02-11 | URL: https://arxiv.org/abs/2602.11143 📄 PDF
Essence
Fig. 1: The robot adaptively traverses high platforms of up to 0.8 m (โ114% of leg length) by leveraging diverse full-bo
APEX๋ humanoid ๋ก๋ด์ด ๋ค๋ฆฌ ๊ธธ์ด์ 114%์ ๋ฌํ๋ ๋์ ํ๋ซํผ์ traversalํ ์ ์๋๋ก ํ๋ ์์คํ
์ผ๋ก, ratchet progress reward๋ฅผ ํตํด ํ์ตํ 6๊ฐ์ง ๊ธฐ์ (climb-up, climb-down, stand-up, lie-down, walking, crawling)์ ํ๋์ ์ ์ฑ
์ผ๋ก ํตํฉํ๋ค.
Motivation
- Known: Deep reinforcement learning์ ํตํด humanoid ๋ก๋ด์ ๋ฐ ๊ธฐ๋ฐ ์ด๋์ฑ์ด ๋ถ๊ท์นํ ์งํ์์ ๊ฐ์ ๋์๊ณ , ์ ํ ๊ธฐ๋ฐ ์๋ฃจ์
์ ๋ค๋ฆฌ ๊ธธ์ด์ 63% ์ ๋๊น์ง ๋์ด๋ฅผ ๋ฌ์ฑํ๋ค.
- Gap: ํ์ฌ RL ํ๋ จ ํจ๋ฌ๋ค์์ ๋์ ์ํฉํธ์ ๋์ ํ ํฌ๊ฐ ํ์ํ ์ ํ ๊ฐ์ ์๋ฃจ์
์ผ๋ก ์๋ ดํ์ฌ ๋ค๋ฆฌ ๊ธธ์ด๋ฅผ ์ด๊ณผํ๋ ํ๋ซํผ traversal์ด ์ด๋ ต๊ณ , ์ฌ๋ฌ ์์ดํ ๊ธฐ์ ์ ๋จ์ผ ์ ์ฑ
์ผ๋ก ํตํฉํ๋ฉด์๋ seamlessํ๊ฒ ์ ํํ๋ ๋ฌธ์ ๊ฐ ๋ฏธํด๊ฒฐ๋์ด ์๋ค.
- Why: Humanoid ๋ก๋ด์ด ๊ฑด์คํ์ฅ, ์ฌ๋ ๊ตฌ์กฐ, ๋ณต์กํ ํ๊ฒฝ ํ์ ๋ฑ ์ค์ ์์ฉ ํ๊ฒฝ์์ ๋์ ์ฅ์ ๋ฌผ์ ๋์ ์ ์์ด์ผ ํ๋ฏ๋ก ์์ ํ๊ณ ์ ์๋ ฅ ์๋ ๊ณ ํ๋ซํผ traversal ๋ฅ๋ ฅ์ด ์ค์ํ๋ค.
- Approach: APEX๋ ๋ ๋จ๊ณ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋๋ฐ: (1) ratchet progress reward๋ฅผ ์ฌ์ฉํ์ฌ 6๊ฐ์ง skill์ ๊ฐ๋ณ์ ์ผ๋ก ํ์ตํ๊ณ , (2) ์ด๋ค์ teacher-student distillation์ ํตํด ๋จ์ผ ์ ์ฑ
์ผ๋ก ํตํฉํ๋ฉฐ, LiDAR ๊ธฐ๋ฐ elevation mapping๊ณผ sim-to-real ๊ฐ๊ทน ๊ฐ์ ์ ๋ต์ ์ ์ฉํ๋ค.
Achievement
Fig. 1: The robot adaptively traverses high platforms of up to 0.8 m (โ114% of leg length) by leveraging diverse full-bo
- ๊ณ ํ๋ซํผ traversal: 0.8m(๋ค๋ฆฌ ๊ธธ์ด์ ์ฝ 114%)์ ๋ฌํ๋ ํ๋ซํผ์ zero-shot sim-to-real transfer๋ก traversalํ๋ ๊ฒ์ ๋ฌ์ฑ
- ๋ค์ค ๊ธฐ์ ํตํฉ: climb-up, climb-down, stand-up, lie-down, walking, crawling์ 6๊ฐ์ง ๊ธฐ์ ์ ํ๋์ ์ ์ฑ
์ผ๋ก ํตํฉ
- ๊ฒฌ๊ณ ํ ์ ์์ฑ: ํ๋ซํผ ๋์ด์ ์ด๊ธฐ ๋ก๋ด ์์ธ ๋ณ๋์ ๋ํ robust adaptation ๋ฐ smoothํ ๋ค์ค ๊ธฐ์ ์ ํ ์คํ
- ์ค์ ๋ก๋ด ๊ฒ์ฆ: 29-DoF Unitree G1 humanoid ๋ก๋ด์์ ์ค์ ์คํ์ผ๋ก ๊ฒ์ฆ
- contact-rich ํ์ต: ratchet progress reward๋ฅผ ํตํด ์ ์ด์ด ๋ง์ goal-reaching ๊ธฐ๋์ ํจ์จ์ ์ผ๋ก ํ์ต
How
Fig. 2: Learning pipeline for high-platform traversal: Teacher Training uses RL with the Ratchet Progress Reward, where
- Ratchet Progress Reward: best-so-far ์์
์ํ๋ฅผ ์ถ์ ํ๊ณ ๊ฐ์ ๋์ง ์๋ ๋จ๊ณ๋ฅผ ํ๋ํฐ ๋ถ์ฌํ์ฌ ๋ฐ๋ ์๊ณ ์๋-๋ฌด๊ดํ ๊ฐ๋
์ ํธ ์ ๊ณต
- Teacher Training: ๊ฐ skill์ DRL๋ก ๊ฐ๋ณ ํ์ตํ๋, reward shaping๊ณผ data sampling ์ ๋ต์ผ๋ก predecessor์ successor ๊ฐ ์ํ ๋ถํฌ ๋งค์นญ ๊ฐ์
- LiDAR-based Perception: LiDAR elevation mapping์ ์ฌ์ฉํ์ฌ ์งํ ์ธ์, ํ๋ จ ์์ ์๋ mapping artifacts ๋ชจ๋ธ๋ง, ๋ฐฐํฌ ์์ ์๋ filtering๊ณผ inpainting ์ ์ฉ
- Policy Distillation: 6๊ฐ์ teacher ์ ์ฑ
์ single student ์ ์ฑ
์ผ๋ก distillํ๋, skill-focused์ transition-focused ํ๊ฒฝ์ ํผํฉ ์ฌ์ฉ
- Autonomous Behavior Selection: ํ์ต๋ ์ ์ฑ
์ด local geometry์ ์ฌ์ฉ์ ๋ช
๋ น์ด์ ๊ธฐ๋ฐํ์ฌ ์๋์ผ๋ก ํ๋ ์ ํ ๋ฐ ์ ํ
Originality
- Generalized Ratchet Progress Reward: Contact-rich, goal-reaching maneuver ํ์ต์ ์ํ ์๋ก์ด reward ๊ณต์์ผ๋ก, ๊ธฐ์กด์ tracking ๊ธฐ๋ฐ reward์๋ ๋ฌ๋ฆฌ velocity-free์ด๋ฉด์๋ dense supervision ์ ๊ณต
- Heterogeneous Multi-Skill Integration: Humanoid์ full-body maneuver์ cyclic locomotion์ ๋ชจ๋ ํฌํจํ์ฌ distillํ๋ ๊ฒ์ ๊ธฐ์กด์ quadruped ๋ค์ค๊ธฐ์ ์ ์ฑ
๋ณด๋ค ๋ณต์กํจ
- Dual Sim-to-Real Strategy: Training-time artifact modeling๊ณผ deployment-time filtering/inpainting์ ์กฐํฉํ perception gap ๊ฐ์ ์ ๋ต
- Reference-Free Climbing: Motion tracking์ด๋ ์ฌ์ ๋
นํ๋ ๊ถค์ ์ ์์กดํ์ง ์๊ณ ์งํ ์ธ์ ๊ธฐ๋ฐ์ adaptive climbing ์ ์ฑ
ํ์ต
Limitation & Further Study
- ํ๋ซํผ ๊ตฌ์กฐ ์ ํ: ํ
์คํธ๋ ์ฃผ๋ก ๋จ์ํ ์์ง ๋ชจ์๋ฆฌ์ ํ๋ซํผ์ ์ ํ๋์ด ์์ผ๋ฉฐ, ๋ณต์กํ ํํ์ ์ฅ์ ๋ฌผ์ด๋ ์ฌ๋กํ ํํ์ ๋์ ๊ตฌ์กฐ์ ๋ํ ์ผ๋ฐํ ์ฑ๋ฅ์ ๋ฏธํ๊ฐ
- ์งํ ์ธ์ ๋ฒ์: LiDAR ๊ธฐ๋ฐ elevation mapping์ ์ ํจ ๋ฒ์์ ์ ํ๋์ ๋ฐ๋ฅธ ์ฑ๋ฅ ์ ํ ๊ฐ๋ฅ์ฑ
- ๋์ญํญ ์ ์ฝ: ์ค์๊ฐ policy ํ๊ฐ ์ ๊ณ์ฐ ๋ณต์ก๋์ ๋ก๋ด์ onboard ์ฒ๋ฆฌ ๋ฅ๋ ฅ์ด ์ถฉ๋ถํ์ง ๋ช
ํํ์ง ์์
- ํ์ ์ฐ๊ตฌ ๋ฐฉํฅ: ๋ ๋ณต์กํ 3D ๊ตฌ์กฐ, ๋์ ์ฅ์ ๋ฌผ, ์
์ฒํ ํ๊ฒฝ์ ๋ํ ํ์ฅ; multi-robot coordination์ด๋ ํ๋ ฅ์ ๋์ ํ๋ซํผ traversal ์ฐ๊ตฌ
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: APEX๋ humanoid ๋ก๋ด์ ๊ณ ํ๋ซํผ traversal์ ๋ํ ์ค์ง์ ํด๊ฒฐ์ฑ
์ ์ ์ํ๋ ๋
ผ๋ฌธ์ผ๋ก, ์๋ก์ด ratchet progress reward ๊ณต์๊ณผ ๋ค์ค๊ธฐ์ ํตํฉ framework๊ฐ ์ฐฝ์์ ์ด๋ฉฐ, ์ค์ ๋ก๋ด์์ ๋ค๋ฆฌ ๊ธธ์ด์ 114%์ ๋ฌํ๋ ๋์ด๋ฅผ ๋ฌ์ฑํ ์ ์ด ๋งค์ฐ ์ธ์์ ์ด๋ค. ๋ค๋ง ํ๊ฐ ํ๊ฒฝ์ด ์๋์ ์ผ๋ก ์ ํ์ ์ด๊ณ ๋ ๋ณต์กํ ์ค์ ํ๊ฒฝ์ผ๋ก์ ํ์ฅ์ฑ์ ๋ํ ๊ฒ์ฆ์ด ํ์ํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์