RPL: Learning Robust Humanoid Perceptive Locomotion on Challenging Terrains
์ ์: Yuanhang Zhang, Younggyo Seo, Juyue Chen, Yifu Yuan, Koushil Sreenath, Pieter Abbeel, Carmelo Sferrazza, Karen Liu, Rocky Duan, Guanya Shi | ๋ ์ง: 2026-02-03 | URL: https://arxiv.org/abs/2602.03002 📄 PDF
Essence
Fig. 2.
RPL์ ๋ ๋จ๊ณ ํ์ต ํ๋ ์์ํฌ๋ก terrain-specific ์ ๋ฌธ๊ฐ ์ ์ฑ
์ depth ์นด๋ฉ๋ผ ๊ธฐ๋ฐ transformer ์ ์ฑ
์ผ๋ก ์ฆ๋ฅํ์ฌ, ๋ณต์กํ ์งํ์์ payload๋ฅผ ํ์ฌํ ์ํ์ ๊ฒฌ๊ณ ํ ๋ค๋ฐฉํฅ ์ธํ๋ก๋ด ๋ณดํ์ ์คํํ๋ค.
Motivation
- Known: ์ธํ๋ก๋ด ๋ณดํ ๋ถ์ผ์์๋ forward ์นด๋ฉ๋ผ ๊ธฐ๋ฐ ๋จ์ผ ๋ฐฉํฅ ์ด๋์ด ์ฃผ๋ก ์ฐ๊ตฌ๋์์ผ๋ฉฐ, ์ ํต์ ์ธ LiDAR ๊ธฐ๋ฐ ๋งคํ ๋ฐฉ์์ ์ํ ์ถ์ ์ ๋
ธ์ด์ฆ์ ์ง์ฐ ๋ฌธ์ ๋ฅผ ์ผ๊ธฐํ๋ค.
- Gap: ๋น๋์นญ์ ๋ค์ค ์นด๋ฉ๋ผ ์
๋ ฅ ์กฐ๊ฑด์์์ ๋ค๋ฐฉํฅ ๋ณดํ ๋ฐ ๋ณดํ๊ณผ ์กฐ์์ ๋์์ ์ํํ๋ฉด์ payload ๊ฒฌ๊ณ ์ฑ์ ์ ์งํ๋ ์ฐ๊ตฌ๊ฐ ๋ฏธํกํ๋ฉฐ, ๋ค์ค depth ๋ ๋๋ง์ ๊ณ์ฐ ํจ์จ์ฑ๋ ์ ํ์ ์ด๋ค.
- Why: ์ธํ๋ก๋ด์ด ์ค์ ํ๊ฒฝ์์ ๋ค์ํ ์งํ์ ํจ์จ์ ์ผ๋ก ํก๋จํ๋ฉด์ ๋ฌผํ์ ์ด๋ฐํ๋ ๋ฅ๋ ฅ์ ์ผ์ ์์
์ํ์ ํ์ ์์์ด๊ธฐ ๋๋ฌธ์ด๋ค.
- Approach: Stage 1์์ privileged height map์ ์ฌ์ฉํ terrain-specific ์ ๋ฌธ๊ฐ ์ ์ฑ
๋ค์ ํ์ตํ๊ณ , Stage 2์์ ์ด๋ค์ multi-view depth ์
๋ ฅ ๊ธฐ๋ฐ์ ํตํฉ transformer ์ ์ฑ
์ผ๋ก ์ฆ๋ฅํ๋ฉฐ, ์ฆ๋ฅ ๊ณผ์ ์์ depth feature scaling based on velocity commands(DFSV)์ random side masking(RSM) ๊ธฐ๋ฒ์ ์ ์ฉํ๋ค.
Achievement
Fig. 1.
- ํจ์จ์ ๋ค์ค depth ๋ ๋๋ง ์์คํ
: dynamic robot mesh์ static terrain mesh์ ๋ํด ray-casting์ ์ํํ๋ฉด์ ํ์ค์ ์ธ ์ผ์ ์ง์ฐ, ๋
ธ์ด์ฆ, dropout์ ๋ชจ๋ธ๋งํ์ฌ ๊ธฐ์กด ์๋ฎฌ๋ ์ดํฐ ๋๋น 5๋ฐฐ ์๋ ํฅ์ ๋ฌ์ฑ
- ๊ฒฌ๊ณ ํ ๋ค๋ฐฉํฅ ๋ณดํ: DFSV์ RSM ๊ธฐ๋ฒ์ ํตํด ๋น๋์นญ depth ๊ด์ธก๊ณผ ๋ฏธํ์ต ์งํ ๋๋น์์๋ ์์ ์ ์ธ ์๋ฐฉํฅ ๋ณดํ ์คํ
- ์ค์ ๋ก๋ด ๊ฒ์ฆ: Unitree G1 ์ธํ๋ก๋ด์์ 20ยฐ ๊ฒฝ์ฌ๋ฉด, 22-30cm ๋ค์ํ ๊ณ๋จ, 60cm ๊ฐ๊ฒฉ stepping stones ๋ฑ ๋ณต์กํ ์งํ์์ 2kg payload ํ์ฌ ์ํ์ ์์ ์ ๋ณดํ ์
์ฆ
- decoupled ์ ์ด ๊ตฌ์กฐ: FALCON ํ๋ ์์ํฌ ๊ธฐ๋ฐ์ผ๋ก lower-body ๋ณดํ ์ ์ฑ
๊ณผ upper-body ์กฐ์ ์ ์ฑ
์ ๋ถ๋ฆฌํ์ฌ ์ ์ฒด ์ ์ฒด ์ ์ด์ ํจ์จ์ฑ ๋ฐ ์ฑ๋ฅ ํฅ์
How
Fig. 2.
- Stage 1: Terrain-specific ์ ๋ฌธ๊ฐ ์ ์ฑ
ํ์ต - ๊ฐ ์งํ ์ ํ(๊ฒฝ์ฌ๋ฉด, ๊ณ๋จ ์ํ/ํํ, stepping stones)๋ณ๋ก privileged height-map ๊ด์ธก์ ์ฌ์ฉํ์ฌ end-effector force perturbation ํ์์ decoupled locomotion๊ณผ manipulation ๊ธฐ์ ์ต๋
- Stage 2: Knowledge distillation - ์ ๋ฌธ๊ฐ ์ ์ฑ
๋ค์ front/back dual depth cameras ์
๋ ฅ์ ๋ฐ๋ unified transformer ์ ์ฑ
์ผ๋ก ์์ถ
- Depth feature scaling based on velocity commands (DFSV): ๋ช
๋ น๋ ์๋์ ๋ฐ๋ผ ์ง๊ฐ ํน์ฑ์ ์ ์์ ์ผ๋ก ์กฐ์ ํ์ฌ ๋น๋์นญ ์๊ฐ ์
๋ ฅ ๊ฐ์ ๋ถํฌ ํธ์ด(distribution shift) ๊ฐ์
- Random side masking (RSM): ๊น์ด ์ด๋ฏธ์ง์ ์์ธก ์งํ ์์ญ์ ๋ณ๋ํ๋ ๋๋น๋ก ๋๋คํ๊ฒ ๋ง์คํนํ์ฌ ๋ฏธํ์ต ์งํ ๋๋น์ ๋ํ ๊ฒฌ๊ณ ์ฑ ํฅ์
- Multi-depth rendering ์ต์ ํ: NVIDIA Warp ๊ธฐ๋ฐ์ ๋ณ๋ ฌ ray-casting์ผ๋ก dynamic mesh(์๊ธฐ ํ์ ์ฒ๋ฆฌ)์ static mesh ๋์ ์ฒ๋ฆฌ, ํ์ค์ ์ผ์ ํน์ฑ ๋ชจ๋ธ๋ง
Originality
- ๋น๋์นญ ๋ค์ค ์นด๋ฉ๋ผ ์
๋ ฅ ์ฒ๋ฆฌ์ ์ฒด๊ณ์ ์ ๊ทผ - DFSV์ RSM์ ํตํด ์๋ก ๋ค๋ฅธ ์นด๋ฉ๋ผ๊ฐ ๋ณด๋ ์งํ ๊ตฌ์กฐ์ ์ฐจ์ด๋ฅผ ์ ์ฑ
ํ์ต ๋จ๊ณ์์ ๋ช
์์ ์ผ๋ก ์ฒ๋ฆฌ
- Dynamic mesh๋ฅผ ํฌํจํ ํ์ฅ๋ depth ๋ ๋๋ง - ๋ก์ฝ-์กฐ์(loco-manipulation) ์ค ๋ฐ์ํ๋ ์๊ธฐ ํ์์ ์๋ฎฌ๋ ์ด์
์์ ์ ํํ ๋ชจ๋ธ๋ง
- Privileged information ํ์ฉ์ ํจ๊ณผ์ ์ค๊ณ - Stage 1์์๋ง height map์ ์ฌ์ฉํ๊ณ Stage 2์์๋ ์ผ๋ฐํ ๊ฐ๋ฅํ depth ๊ธฐ๋ฐ ์ ์ฑ
์ผ๋ก ์ ํํ๋ ์ด์์ ํ์ต ๊ตฌ์กฐ
- ์ค์ ๋ก๋ด ๊ฒ์ฆ์ ํฌ๊ด์ฑ - ๋ค์ํ terrain width ๋ฐ payload ์กฐ๊ฑด์์์ ๊ฒฌ๊ณ ์ฑ ํ๊ฐ
Limitation & Further Study
- Depth camera ๊ธฐ๋ฐ ์ ์ฑ
์ ๋ณธ์ง์ ํ๊ณ - ํฌ์ํ๊ณ ๋ถ์ฐ์์ ์ธ footholds(stepping stones)์ ๋ํด ์ ํ๋ ์ ๋ฐฉ ์์ผ(lookahead)๋ก ์ธํ ์ ์ฌ์ ์คํจ ์ผ์ด์ค ์กด์ฌ ๊ฐ๋ฅ
- Sim-to-real gap ํด์์ ์์ ์ฑ - ์๋ฎฌ๋ ์ด์
์์ ๋ชจ๋ธ๋งํ ์ผ์ ๋
ธ์ด์ฆ์ ํ์ค์ ์ค์ depth ์ผ์ ์ค๋ฅ ๊ฐ ๋ถ์ผ์น ๊ฐ๋ฅ์ฑ
- ํ์ฅ์ฑ ์ ์ฝ - ํ์ฌ Unitree G1 ๋ก๋ด ํ๋ซํผ ์ค์ฌ์ผ๋ก ๊ฒ์ฆ๋์์ผ๋ฏ๋ก ๋ค๋ฅธ ์ธํ๋ก๋ด ๋ชจ๋ธ๋ก์ ์ผ๋ฐํ ์ ๋ ๋ฏธ์
- ํ์ ์ฐ๊ตฌ ๋ฐฉํฅ: (1) LiDAR ๋ฑ ์ถ๊ฐ ์ผ์ modality์์ ๊ฒฐํฉ, (2) ๋ ๊ทน๋จ์ ์งํ(์๋ฒฝ, ๋น์ ํ ์งํ)์ผ๋ก์ ํ์ฅ, (3) ๋ ๋ฌด๊ฑฐ์ด payload ์กฐ๊ฑด์์์ ๊ฒฌ๊ณ ์ฑ ๊ฐ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ ๋ค๋จ๊ณ ํ์ต๊ณผ ํจ์จ์ ์๋ฎฌ๋ ์ด์
์ ํตํด ์ธํ๋ก๋ด์ ๋ณต์ก ์งํ ๋ค๋ฐฉํฅ ๋ณดํ ๋ฌธ์ ๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ํด๊ฒฐํ๋ฉฐ, ํนํ ๋น๋์นญ ๋ค์ค ์ผ์ ์
๋ ฅ ์ฒ๋ฆฌ ๊ธฐ๋ฒ๊ณผ payload ๊ฒฌ๊ณ ์ฑ ๊ฒ์ฆ์์ ์ค์ง์ ๊ธฐ์ฌ๋ฅผ ์ ์ํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์