Contrastive Representation Learning for Robust Sim-to-Real Transfer of Adaptive Humanoid Locomotion
์ ์: Yidan Lu, Rurui Yang, Qiran Kou, Mengting Chen, Tao Fan, Peter Cui, Yinzhao Dong, Peng Lu | ๋ ์ง: 2025-09-16 | URL: https://arxiv.org/abs/2509.12858 📄 PDF
Essence
Fig. 2: Overview of our proposed training framework. An asymmetric Actor-
Contrastive learning์ ์ด์ฉํด ์๋ฎฌ๋ ์ด์
์ ํน๊ถ ์ ๋ณด(terrain heightmap)๋ฅผ ์์ proprioceptive policy์ ์ฆ๋ฅ์์ผ ์ง๊ฐ์ ์ ๊ฒฌ์ฑ์ ์ป์ผ๋ฉด์๋ ๋ฐฐํฌ ์ ์ง๊ฐ ์ผ์์ ๋น์ฉ์ ํผํ๋ค. Adaptive gait clock์ ํตํด ๊ณ ์ ๋ ํด๋ญ ๋ณดํ๊ณผ ๋ถ์์ ํ ์์ ํด๋ญ ๋ณดํ ์ฌ์ด์ ๊ทผ๋ณธ์ trade-off๋ฅผ ํด๊ฒฐํ๋ค.
Motivation
- Known: Deep reinforcement learning์ ์ธ๊ฐํ ๋ก๋ด ๋ณดํ์์ ๋๋ผ์ด ์ฑ๊ณผ๋ฅผ ์ด๋ฃจ์์ผ๋, ์๋ฎฌ๋ ์ด์
์์๋ terrain geometry, ๋ง์ฐฐ ๊ณ์ ๋ฑ์ ํน๊ถ ์ ๋ณด์ ์ ๊ทผ ๊ฐ๋ฅํ์ง๋ง ์ค์ ๋ฐฐํฌ ์์๋ proprioceptive ์ผ์(joint encoder, IMU)๋ง ์ฌ์ฉ ๊ฐ๋ฅํ ์ ๋ณด ๊ฒฉ์ฐจ๊ฐ ์กด์ฌํ๋ค.
- Gap: ๊ธฐ์กด reactive proprioceptive ์ ์ฑ
์ ๊ฐ๊ฑดํ์ง๋ง ์ฅ์ ๋ฌผ์ ๋ฅ๋์ ์ผ๋ก ๋์ํ ์ ์๊ณ , exteroceptive ์ผ์(์นด๋ฉ๋ผ, LiDAR)๋ฅผ ํ์ฌํ ์ ์ฑ
์ ๋ฅ๋์ ์ด๋ ์์คํ
๋ณต์ก๋์ ๋ฐฐํฌ ๋น์ฉ์ด ๋๋ค. ์ด ๋ ์ ๋ต ์ฌ์ด์ ๊ทผ๋ณธ์ trade-off๋ฅผ ํด๊ฒฐํ๋ ๋ฐฉ๋ฒ์ด ๋ถ์ฌํ๋ค.
- Why: ์ค์ ๋ก๋ด ๋ฐฐํฌ์์ ๊ฐ๊ฑดํ๊ณ ๋ฅ๋์ ์ธ ๋ณดํ ์ ์ด๋ ๋งค์ฐ ๋์ ์ ์ธ ๋ฌธ์ ์ด๋ฉฐ, ํนํ ๊ณ๋จ, ๊ฒฝ์ฌ๋ฉด ๊ฐ์ ๋ถ๊ท์นํ ์งํ์์์ ์ ์์ ์ด๋์ฑ์ด ์ธ๊ฐํ ๋ก๋ด์ ์ค์ฉ์ฑ์ ํฌ๊ฒ ์ข์ฐํ๋ค.
- Approach: Asymmetric actor-critic ํ๋ ์์ํฌ์์ Actor๋ proprioceptive ๊ด์ธก๋ง ๋ฐ๊ณ , Critic์ privileged information(height map)์๋ ์ ๊ทผํ๋๋ก ํ๋ค. Contrastive learning ์์ค์ ํตํด Actor์ latent state๋ฅผ ํ๊ฒฝ ๋งฅ๋ฝ๊ณผ ์ผ์น์์ผ ํ๊ฒฝ ์ธ์์ ์ฆ๋ฅํ๋ค. ์ด๋ ๊ฒ ์ป์ ํ๊ฒฝ ์ดํด๋ฅผ adaptive gait clock์ ํ์ฉํด ๋ฅ๋์ ์ผ๋ก ๋ณดํ ๋ฆฌ๋ฌ์ ์กฐ์ ํ๋ค.
Achievement
Fig. 1: Our policy, trained via contrastive knowledge distillation, enables
- Contrastive knowledge distillation ํ๋ ์์ํฌ: Privileged ํ๊ฒฝ ์ ๋ณด(height map)๋ฅผ ์์ proprioceptive policy์ ์ง์ ์ฆ๋ฅํ๋ ๊ณต๊ฐ์ ๋์กฐํ์ต ๋ฐฉ๋ฒ ์ ์์ผ๋ก, ๊ธฐ์กด auxiliary world model ๋๋ teacher-student ํ๋ ์์ํฌ์ ๋นํจ์จ์ฑ์ ๊ทน๋ณต
- Adaptive gait clock์ ์ง๋ฅ์ ์ ์ด: Distilled awareness๋ฅผ ํตํด ์ ์ฑ
์ด ๊ณ ์ ๋ ํด๋ญ ๋ณดํ์ ๊ฐ๊ฑด์ฑ๊ณผ ์์ ํด๋ญ ๋ณดํ์ ์ ์ฐ์ฑ์ ๊ฒฐํฉํ ์ ์์ gait mechanism ์คํ
- Zero-shot sim-to-real ๊ฒ์ฆ: Full-sized humanoid (Adam Lite)์์ ์๋ฎฌ๋ ์ด์
์์ด ์ค์ ๋ฐฐํฌ ์ 30 cm ๋์ด ๊ณ๋จ๊ณผ 26.5ยฐ ๊ฒฝ์ฌ๋ฉด ๊ฐ์ ๊ทน๋๋ก ๋์ ์ ์ธ ์งํ์์ ๊ฐ๊ฑดํ ๋ณดํ ๋ฌ์ฑ
How
Fig. 2: Overview of our proposed training framework. An asymmetric Actor-
- RNN ๊ธฐ๋ฐ asymmetric actor-critic ์ํคํ
์ฒ: Actor๋ 84์ฐจ์ ์ผ์ ์
๋ ฅ์ ๋ฐ์ 256์ฐจ์ RNN ์จ๊น ์ํ๋ฅผ ์์ฑํ๊ณ 26์ฐจ์ action์ ์ถ๋ ฅ
- Critic์ Actor ์
๋ ฅ์ ์ถ๊ฐ๋ก CNN์ผ๋ก ์ฒ๋ฆฌ๋ height map ํน์ง์ ํฌํจํ์ฌ ๊ฐ์น ์ถ์
- Spatial contrastive objective: Actor์ proprioceptive history์ privileged environmental context์ matching/non-matching ์์ ๊ตฌ๋ถํ๋๋ก ํ๋ จํ์ฌ latent state๊ฐ ์งํ ๊ด๋ จ ์ ๋ณด ์ธ์ฝ๋ฉ
- Adaptive gait clock ๋ฉ์ปค๋์ฆ: Policy๊ฐ ๋์ ์ผ๋ก gait frequency์ phase๋ฅผ ์กฐ์ ๊ฐ๋ฅํ๋๋ก ์ค๊ณํ์ฌ environment awareness๋ฅผ ํ์ฉํ ๋ฅ๋์ ์ ์
- PD controller (400 Hz)๋ฅผ ํตํ ์ ์์ค action ์คํ์ผ๋ก ์์ ์ฑ ๋ณด์ฅ
Originality
- ๊ธฐ์กด temporal contrastive objective (๋์ ์์ธก)๋ auxiliary world model ์ฌ๊ตฌ์ฑ ๋์ spatial contrastive learning์ผ๋ก ํ๊ฒฝ ๋งฅ๋ฝ์ ์ง์ ์ ๋ ฌํ๋ ๋ ์ง์ ์ ์ด๊ณ ํจ์จ์ ์ธ ์ ๊ทผ
- Privileged information distillation๊ณผ adaptive gait control์ ์๋ก์ด ๊ฒฐํฉ์ผ๋ก reactive vs proactive control์ ๊ทผ๋ณธ์ trade-off ํด์
- End-to-end representation learning์ ํตํด ๋ค๋จ๊ณ ๋ณต์ก๋(teacher-student) ์์ด proprioceptive policy ์ฑ๋ฅ ์ํ์ ์ ๊ฑฐ
Limitation & Further Study
- ํ์ฌ ์ฐ๊ตฌ๋ Adam Lite humanoid์์๋ง ๊ฒ์ฆ๋์์ผ๋ฏ๋ก ๋ค์ํ ๋ก๋ด ํํ๋ก์ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ์ด ๋ถ๋ช
ํ
- Height map์ด๋ผ๋ ํน์ ํํ์ privileged information์ ์ต์ ํ๋์ด ์์ด ๋ค๋ฅธ ํ๊ฒฝ ํน์ฑ(๋ง์ฐฐ, ๊ฐ์ ๋ฑ)์ ๋ํ ํ์ฅ์ฑ ๊ฒํ ํ์
- Sim-to-real ์ ์ด์ ์ฑ๊ณต์ด ์ถฉ๋ถํ domain randomization์ ์์กดํ๋ ์ ๋๋ฅผ ์ ๋์ ์ผ๋ก ๋ถ์ํ์ง ์์
- ํ์ ์ฐ๊ตฌ: (1) ๋ค์ํ ๋ณดํ ํ๋ฉด ๋ฐ ๊ทนํ ํ๊ฒฝ์์์ ์ฅ๊ธฐ ์์ ์ฑ ํ๊ฐ, (2) ๋ค๋ฅธ ํํ์ privileged information (๋์ ํน์ฑ, ์ฅ์ ๋ฌผ ํํ ๋ฑ)์ผ๋ก์ ํ์ฅ, (3) Online adaptation ๋๋ few-shot learning์ ํตํ ๋น ๋ฅธ ์ ํ๊ฒฝ ์ ์ ๋ฉ์ปค๋์ฆ ๊ฐ๋ฐ
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ์ด ๋
ผ๋ฌธ์ contrastive learning์ ํตํด ์๋ฎฌ๋ ์ด์
ํน๊ถ ์ ๋ณด๋ฅผ proprioceptive policy์ ํจ๊ณผ์ ์ผ๋ก ์ฆ๋ฅํ์ฌ ์ง๊ฐ ์ผ์ ์์ด๋ ์ ๊ฒฌ์ฑ ์๋ ์ ์ด๋ฅผ ๋ฌ์ฑํ๋ ์ฐฝ์์ ํด๊ฒฐ์ฑ
์ ์ ์ํ๋ค. Zero-shot sim-to-real ์ ์ด๋ก ๊ทน๋๋ก ๋์ ์ ์ธ ์งํ์์์ ๊ฐ๊ฑดํ ๋ณดํ์ ์ค์ฆํจ์ผ๋ก์จ ์ธ๊ฐํ ๋ก๋ด ์ค์ฉํ์ ์ค์ํ ์ง์ ์ ๋ณด์ฌ์ค๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์