Learning Perceptive Humanoid Locomotion over Challenging Terrain
๐ง Audio Overview ์์ฑ
์ ์ : Wandong Sun, Baoshi Cao, Long Chen, Yongbo Su, Yang Liu, Zongwu Xie, Hong Liu | ๋ ์ง : 2025-03-02 | URL : https://arxiv.org/abs/2503.00692 📄 PDF
Essence
Fig. 2: Training of Humanoid Perception Controller consists of two stages: (1) Oracle Policy Training generates referenc
์ธ๊ฐํ ๋ก๋ด์ด ์์์ด ์๋ ์ผ์ ๋ฐ์ดํฐ๋ก๋ถํฐ ์งํ์ ์ธ์ํ๊ณ ๊ฑฐ์น ์งํ์ ์์ ์ ์ผ๋ก ๋ณดํํ ์ ์๋๋ก, teacher-student distillation๊ณผ variational information bottleneck์ ๊ฒฐํฉํ ์ธ๊ณ ๋ชจ๋ธ ๊ธฐ๋ฐ ๋ฐฉ๋ฒ์ ์ ์ํ๋ค.
Motivation
Known : ์ต๊ทผ ๊ฐํํ์ต ๊ธฐ๋ฐ ์ธ๊ฐํ ๋ก๋ด ๋ณดํ ์ ์ด๊ธฐ๋ ๋์ด ๋งต(height map)์ ํตํ ์งํ ์ธ์์ ํตํฉํ์ฌ ์ฑ๋ฅ์ ํฅ์์์ผฐ๋ค. ๊ทธ๋ฌ๋ ์ค์ธ๊ณ ์ผ์์ ๋
ธ์ด์ฆ๋ก ์ธํ ์งํ ์ธ์ ์ค๋ฅ๋ ์ฌ์ ํ ํด๊ฒฐ๋์ง ์์ ๋ฌธ์ ์ด๋ค.
Gap : ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ๋
ธ์ด์ฆ๊ฐ ์๋ ์ผ์ ์
๋ ฅ์ ๊ฐ์ ํ๊ฑฐ๋ domain randomization๋ง์ผ๋ก ์ผ์ ๋
ธ์ด์ฆ๋ฅผ ์ฒ๋ฆฌํ๋๋ฐ, ์ค์ ์ผ์ ์ค๋ฅ(์: ์์์ผ๋ก ์ธํ ๋์ด ์ค๋ฅ)๋ฅผ ์ถฉ๋ถํ ๋ฐ์ํ์ง ๋ชปํ๋ค. ๋ฐ๋ผ์ ์๋ฎฌ๋ ์ด์
-์ค์ ๊ฐ์ ๊ฐญ์ด ์ฌ์ ํ ํฌ๋ค.
Why : ์ธ๊ฐํ ๋ก๋ด์ด ๊ณ๋จ, ๋, ๊ฑฐ์น ์งํ ๋ฑ ์ค์ ํ๊ฒฝ์์ ์์ ์ ์ผ๋ก ์ด๋ํ๋ ค๋ฉด noisy ์ผ์ ๋ฐ์ดํฐ๋ก๋ถํฐ ์งํ์ ์ ํํ ์ถ์ ํ๊ณ ์ด๋ฅผ ๋ณดํ ๊ณํ์ ๋ฐ์ํด์ผ ํ๋ค. ์ด๋ ๋ก๋ด์ ์ค์ ๋ฐฐํฌ ์์ ์ฑ๊ณผ ์ ๋ขฐ์ฑ์ ํฌ๊ฒ ์ข์ฐํ๋ค.
Approach : ๋ ๋จ๊ณ ํ์ต ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค: (1) ์ฒซ ๋จ๊ณ์์๋ ๋
ธ์ด์ฆ ์๋ privileged state๋ก oracle policy๋ฅผ ํ์ตํ๊ณ , (2) ๋ ๋ฒ์งธ ๋จ๊ณ์์๋ student policy๊ฐ VAE encoder-decoder๋ก ๊ตฌ์ฑ๋ world model์ ํ์ตํ๋ฉด์ ๋์์ oracle policy์ ํ๋์ ๋ชจ๋ฐฉ(imitation loss)ํ๊ณ ์
๋ ฅ์ ์ฌ๊ตฌ์ฑ(reconstruction loss)ํ๋ค.
Achievement
Fig. 1: Deployment to outdoor environments. We deployed the model in outdoor challenging terrains. Our controller can
์ผ์ ๋
ธ์ด์ฆ ๊ฐ๊ฑด์ฑ : Variational information bottleneck์ ํตํ world model์ด noisy ์งํ ์ ๋ณด๋ฅผ ํจ๊ณผ์ ์ผ๋ก ๋๋
ธ์ด์งํ์ฌ, ์ ๋ขฐํ ์ ์๋ ์งํ ์ถ์ ํ๊ฒฝ์์๋ ์ฑ๋ฅ ์ ํ๋ฅผ ์ต์ํํ๋ค.
์ค์ ํ๊ฒฝ ์ฑ๋ฅ : ์ค์ ์ค๋ด ๊ณ๋จ, ์ค์ธ ๋, ํ, ๊ฑฐ์น ์งํ ๋ฑ ๋ค์ํ ํ๊ฒฝ์์ 2 km์ ์งํ์ ์ถ๊ฐ ๋ฏธ์ธ์กฐ์ ์์ด ์ฑ๊ณต์ ์ผ๋ก ํก๋จํ๋ค.
์ธ๊ณ ๋ชจ๋ธ ํตํฉ : ์ธ๊ฐ์ฒ๋ผ ๋์ ๋ ๊ฒฝํ์ผ๋ก๋ถํฐ ํ๊ฒฝ๊ณผ ์์ ์ ์ํ๋ฅผ ์ง์์ ์ผ๋ก ๊ฐ์ ํ๋ world model์ ํตํด deformable surface(๊น์ ๋ ๋ฑ)์์์ ์ฐฉ์ง ์ ๋ต์ ๊ฐ์ ํ๋ค.
๋ฐฐํฌ ํจ์จ์ฑ : ํ์ต ํ decoder๋ฅผ ์ ๊ฑฐํ๊ณ encoder์ policy๋ง ์ค์ ๋ก๋ด์ ๋ฐฐํฌํ์ฌ ๊ณ์ฐ ํจ์จ์ฑ์ ์ ์งํ๋ค.
How
Fig. 2: Training of Humanoid Perception Controller consists of two stages: (1) Oracle Policy Training generates referenc
Stage 1 - Oracle Policy Training : Privileged state(๋
ธ์ด์ฆ ์๋ root height, ์์น, ํ์ , ์๋, ์งํ ๋์ด ๋งต ๋ฑ)๋ฅผ ํฌํจํ ์์ ํ ๊ด์ฐฐ๊ฐ์ผ๋ก PPO๋ฅผ ์ฌ์ฉํ์ฌ ์ต์ ์ฐธ์กฐ ์ ์ฑ
์ ํ์ตํ๋ค.
Stage 2 - Student Policy Training : Noisy ๊ด์ฐฐ๊ฐ์ ์
๋ ฅ์ผ๋ก ๋ฐ๋ VAE encoder์ terrain encoder๋ฅผ ํตํด ์์ถ๋ ํน์ง์ ์์ฑํ๊ณ , ์ด๋ฅผ locomotion controller์ ์
๋ ฅํ๋ค.
Variational Information Bottleneck : VAE์ encoder-decoder ๊ตฌ์กฐ์์ ์ ๋ณด ๋ณ๋ชฉ(information bottleneck)์ ํตํด ๋
ธ์ด์ฆ๋ฅผ ํํฐ๋งํ๊ณ , ํต์ฌ ์ ๋ณด๋ง ์ถ์ถํ์ฌ downstream ์ ์ด๊ธฐ๋ก ์ ๋ฌํ๋ค.
Dual Loss Function : Reconstruction loss(VAE decoder์ ์ถ๋ ฅ ์ฌ๊ตฌ์ฑ)์ imitation loss(oracle policy ๋ชจ๋ฐฉ)๋ฅผ ๋์์ ์ต์ํํ์ฌ ์
๋ ฅ ํ์ง๊ณผ ์ ์ด ์ฑ๋ฅ์ ํจ๊ป ๊ฐ์ ํ๋ค.
Terrain Encoder Integration : Robot-centric height map์ ๋ณ๋์ terrain encoder๋ก ์ฒ๋ฆฌํ์ฌ ์งํ ์ ๋ณด๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์ธ์ฝ๋ฉํ๋ค.
Originality
Teacher-Student Distillation + World Model ๊ฒฐํฉ : ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ด world model ํ์ต(Gu et al. 2024)๊ณผ terrain perception ํตํฉ(Long et al., Wang et al.)์ ๋ถ๋ฆฌํ์ฌ ๋ค๋ฃจ๋ ๊ฒ์ ํ๋์ ํ๋ ์์ํฌ๋ก ํตํฉํ๋ค.
Variational Information Bottleneck์ ๋ช
์์ ํ์ฉ : ์ผ์ ๋
ธ์ด์ฆ ์ฒ๋ฆฌ๋ฅผ ์ํด VAE์ information bottleneck ํน์ฑ์ ๋ช
์์ ์ผ๋ก ํ์ฉํ์ฌ, reconstruction๊ณผ imitation์ ๋์์ ์ต์ ํํ๋ค.
Privileged State ๊ธฐ๋ฐ์ Oracle Policy : Simulation์์๋ง ์ ๊ทผ ๊ฐ๋ฅํ ์๋ฒฝํ ์ํ ์ ๋ณด๋ฅผ oracle policy ํ์ต์ ํ์ฉํ๋ ๋ ๋จ๊ณ ์ ๊ทผ์ ๊ธฐ์กด ๋ฐฉ๋ฒ๋ณด๋ค ๋ ๋ช
ํํ supervision signal์ ์ ๊ณตํ๋ค.
์ค์ ๋ฐฐํฌ ํจ์จ์ฑ ๊ณ ๋ ค : Decoder๋ฅผ ๋ฒ๋ฆฌ๊ณ encoder๋ง ๋ฐฐํฌํ๋๋ก ์ค๊ณํ์ฌ ์ค์๊ฐ ์ ์ด์ ๊ณ์ฐ ์ค๋ฒํค๋๋ฅผ ์ต์ํํ๋ค.
Limitation & Further Study
์๋ฎฌ๋ ์ด์
๊ธฐ๋ฐ ํ๊ฐ : ๋๋ถ๋ถ์ ์ฑ๋ฅ ํ๊ฐ๊ฐ ์๋ฎฌ๋ ์ด์
์์ ์ํ๋์์ผ๋ฉฐ, ์ค์ ๋ฐฐํฌ๋ ์ ํ๋ ์๋๋ฆฌ์ค(๊ณ๋จ, ๋, ํ ๋ฑ)์์๋ง ๊ฒ์ฆ๋์๋ค.
์ค๋ผํด ์ ์ฑ
์ ์์กด์ฑ : Stage 1์์์ oracle policy ์ฑ๋ฅ์ด Stage 2์ ์ํ์ ์ ์ ํ๋ฏ๋ก, oracle policy์ ํ๊ณ๊ฐ ์ ์ฒด ์์คํ
์ฑ๋ฅ์ ์ ํํ ์ ์๋ค.
์ผ์ ๋
ธ์ด์ฆ ๋ชจ๋ธ์ ๋จ์์ฑ : ํ์ต ์ค ์ฌ์ฉ๋ ์ผ์ ๋
ธ์ด์ฆ ๋ชจ๋ธ์ด ์ค์ ๋ค์ํ ํ๊ฒฝ์ ๋ณต์กํ ์ง๊ฐ ์ค๋ฅ(์: ์์์ผ๋ก ์ธํ ๋์ด ์ค๋ฅ)๋ฅผ ์์ ํ ๋ฐ์ํ์ง ๋ชปํ ์ ์๋ค.
์ผ๋ฐํ ์ฑ๋ฅ ๋ถ์ ๋ถ์กฑ : ํ์ตํ์ง ์์ ์๋ก์ด ์งํ ํ์
์ด๋ ๋
ธ์ด์ฆ ๋ถํฌ์ ๋ํ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๋ํ ์ฒด๊ณ์ ๋ถ์์ด ์ ํ์ ์ด๋ค.
ํ์ ์ฐ๊ตฌ : (1) ๋ ๋ณต์กํ ๋์ญํ(๋ฌผ ํต๊ณผ, ๋ชจ๋ ๋ฑ)์ ๊ฐ๋ ์งํ์ ๋ํ ํ์ฅ, (2) ๋ค์ํ ์ผ์ ์ข
๋ฅ(LiDAR, ์นด๋ฉ๋ผ ๋ฑ)์ ๋ํ ์ ์ฉ, (3) Online adaptation์ ํตํ ์ค์๊ฐ ์ ์ฑ
๊ฐ์ ๋ฉ์ปค๋์ฆ ๊ฐ๋ฐ์ด ํ์ํ๋ค.
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ : ๋ณธ ๋
ผ๋ฌธ์ teacher-student distillation๊ณผ world model ๊ธฐ๋ฐ ์ผ์ ๋๋
ธ์ด์ง์ ํจ๊ณผ์ ์ผ๋ก ๊ฒฐํฉํ์ฌ ์ธ๊ฐํ ๋ก๋ด์ ์ค์ ํ๊ฒฝ ๋ณดํ ์ฑ๋ฅ์ ํฌ๊ฒ ํฅ์์์ผฐ๋ค. 2 km์ ๋ค์ํ ์งํ ํก๋จ ์ฑ๊ณผ์ ์ฒด๊ณ์ ์ธ ๋ฐฉ๋ฒ๋ก ์ ๋์ ๊ธฐ์ ์ ๊ฐ์น๋ฅผ ๊ฐ์ง๋ฉฐ, ์ค์ ๋ก๋ด ๋ฐฐํฌ๋ฅผ ์ํ ์ค์ํ ์ง์ ์ ๋ณด์ฌ์ค๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
๋์ ์ฒญ์ค
์ผ๋ฐ์ธ
๋ํ์ยท๋ํ์์
์ ๋ฌธ๊ฐ
ํค
์น๊ทผํ
ํ์ ์
ํ๊ธฐ์ฐฌ
์ฃผ์์ (์ ํ)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์
๋ซ๊ธฐ
์์ฑ
Developed by Jehyun Lee, KIST AIX Strategy Department | jehyun.lee@gmail.com