Opening the Sim-to-Real Door for Humanoid Pixel-to-Action Policy Transfer
์ ์: Haoru Xue, Tairan He, Zi Wang, Qingwei Ben, Wenli Xiao, Zhengyi Luo, Xingye Da, Fernando Castaรฑeda, Guanya Shi, Shankar Sastry, Linxi "Jim" Fan, Yuke Zhu | ๋ ์ง: 2025-11-30 | DOI: 10.48550/arXiv.2512.01061 📄 PDF
Essence
Figure 2: DoorMan training pipeline. All phases are done interactively with IsaacLab. In Phase 1, we train a
GPU ๊ฐ์ ํฌํ ๋ฆฌ์ผ๋ฆฌ์คํฑ ์๋ฎฌ๋ ์ด์
๊ณผ teacher-student-bootstrap ํ์ต ํ๋ ์์ํฌ๋ฅผ ํตํด ์์ RGB ์๊ฐ๋ง ์ฌ์ฉํ์ฌ ์ธ๊ฐํ ๋ก๋ด์ด ๋ค์ํ ๋ฌธ์ ์ด ์ ์๋ sim-to-real ์ ์ฑ
์ ๊ฐ๋ฐํ๋ค.
Motivation
- Known: ์ต๊ทผ GPU ๊ฐ์ ์๋ฎฌ๋ ์ด์
๊ณผ ๋ฌผ๋ฆฌ ๋ฐ ์๊ฐ ๋ฌด์์ํ๋ฅผ ํตํด ๋ก๋ด ํ์ต์ ํ์ฅ ๊ฐ๋ฅํ ๋ฐ์ดํฐ ์์ฑ ๊ฒฝ๋ก๊ฐ ์ด๋ ธ๋ค. ๊ธฐ์กด ๋ฌธ ์ด๊ธฐ ๊ด๋ จ ์ฐ๊ตฌ๋ค์ ๊น์ด ์ผ์ฑ, ๊ฐ์ฒด ์ค์ฌ ํน์ง, ๋๋ ์ฌ์ ์ ์ ์๋ ๋ชจ์
ํ๋ฆฌ๋ฏธํฐ๋ธ์ ์์กดํ๋ค.
- Gap: ์๊ฐ ๊ธฐ๋ฐ ์ธ๊ฐํ ๋ก๋ณดํฑ์ค์์ ๋ถ๋ถ ๊ด์ธก์ฑ(partial observability)์ ํจ๊ณผ์ ์ผ๋ก ์ํํ๊ณ ์ฅ๊ธฐ๊ฐ ๊ท ํ ์ ์ง์ ์ ์ด ํ๋ถํ ์ ์ด๊ฐ ํ์ํ ๋ก์ฝ-์กฐ์ ์์
์ ์ผ๋ฐํ ๊ฐ๋ฅํ ํ์ดํ๋ผ์ธ์ด ๋ถ์กฑํ๋ค.
- Why: ์ผ์์ ์ธ ๋ก์ฝ-์กฐ์ ์์
(๋ฌธ ์ด๊ธฐ, ์๋ ๋น๊ธฐ๊ธฐ ๋ฑ)์ ์ธ๊ฐํ ๋ก๋ด์ ์์จ์ฑ์ ์ํ ํต์ฌ frontier์ด๋ฉฐ, ์ ํํ ์ง๊ฐ-ํ๋ ๊ฒฐํฉ, ์ ์ ์กฐ์ ๋ฐ ๋ถํ์ค์ฑ ํ์์์ ์ ์ด ์ ์ด๊ฐ ํ์์ ์ด๋ค.
- Approach: ์ธ ๋จ๊ณ ํ์ต ํ์ดํ๋ผ์ธ์ ์ ์ํ๋ค: (1) ํน๊ถ ์ ๋ณด๋ฅผ ๊ฐ์ง teacher ์ ์ฑ
์ staged-reset ํ์ ์ ๋ต์ผ๋ก ํ๋ จ, (2) DAgger๋ฅผ ํตํด RGB ๊ธฐ๋ฐ student ์ ์ฑ
์ผ๋ก ์ฆ๋ฅ, (3) GRPO๋ฅผ ์ฌ์ฉํ bootstrapping์ผ๋ก ๋ถ๋ถ ๊ด์ธก์ฑ ์ํ ๋ฐ ํ๋ฃจํ ์ผ๊ด์ฑ ๊ฐ์ .
Achievement
Figure 1: DoorMan, a simulation-trained, RGB-only humanoid loco-manipulation policy, opens diverse, real-world doors.
- ์ฒซ ๋ฒ์งธ ์์ RGB ์ธ๊ฐํ sim-to-real ์ ์ฑ
: ๋ค์ํ ๊ตฌ์กฐ์ ๋ฌธ์ ๋ํด ์์ ์ท(zero-shot) ์ฑ๋ฅ์ผ๋ก 83% ์ฑ๊ณต๋ฅ ๋ฌ์ฑ
- ์ธ๊ฐ ํ
๋ ์คํผ๋ ์ดํฐ ์ด๊ณผ ์ฑ๋ฅ: ๋์ผํ ์ ์ ์ ์ด ์คํ ํ์์ 31.7% ๋น ๋ฅธ ์์
์๋ฃ ์๊ฐ ๋ฌ์ฑ
- ํ์ฅ ๊ฐ๋ฅํ ํฉ์ฑ ์์ฑ ํ์ดํ๋ผ์ธ: IsaacLab์์ ๋ฌผ๋ฆฌ์ ์ ํ๋์ ์๊ฐ์ ๋ค์์ฑ์ ๊ฐ์ถ ๋๊ท๋ชจ ๋๋ฉ์ธ ๋ฌด์์ํ ํ์ดํ๋ผ์ธ ๊ตฌ์ถ
- ์ผ๋ฐํ ์ฑ๋ฅ: ๋ค์ํ ํธ๋ค ์ ํ, ํจ๋ ์๊ฐ, ๊ณต๊ฐ ๋ฐฐ์น์ ๋ํ ๊ฐ๊ฑดํ ์ผ๋ฐํ
How
Figure 3: Overview of the staged-reset exploration scheme. When entering a new stage, a snapshot of the
- Teacher ์ ์ฑ
: PPO๋ฅผ ์ฌ์ฉํ์ฌ ํน๊ถ ์ ๋ณด(ground-truth ๋ก๋ด-๋์ด ๋ณํ, ์ ์ด wrench, ๊ทผ ์ ํ ์๋)์ ๊ธฐ๋ฐํ ๋ณด์ ํ์ฑ์ผ๋ก ํ๋ จ
- Staged-reset ํ์: ์ฅ๊ธฐ ์์
์ ์์ ์ ํ๋ จ์ ์ํด ์๋ฎฌ๋ ์ด์
์ค๋
์ท ์บ์์์ ๋ฌด์์ ๋ณต์ ์ฌ์ฉ
- Student ์ฆ๋ฅ: vision encoder(ResNet), ๊ณ ์ ๊ฐ๊ฐ ์ ๋ณด, 2์ธต LSTM(512 ๋จ์)์ ์ฌ์ฉํ DAgger ๊ธฐ๋ฐ ์ฆ๋ฅ
- GRPO ๊ธฐ๋ฐ fine-tuning: ์ด์ง ์ฑ๊ณต ์ ํธ๋ฅผ ์ฌ์ฉํ์ฌ ๋ถ๋ถ ๊ด์ธก์ฑ ์ํ ๋ฐ ํ๋ฃจํ ์ผ๊ด์ฑ ๊ฐ์
- ๋๋ฉ์ธ ๋ฌด์์ํ: ๋ฌธ ์ ํ, ํฌ๊ธฐ, ํ์ง ๊ฐ์ , ๋์น ์ญํ, ํธ๋ค ๋ฐฐ์น, ์ ํญ ํ ํฌ(๋ฌผ๋ฆฌ), ์ฌ๋ฃ, ์กฐ๋ช
, ์นด๋ฉ๋ผ ๋ด์ฌ์ฑ/์ธ์ฌ์ฑ(์๊ฐ) ๋ฌด์์ํ
Originality
- Teacher-student-bootstrap ํ์ดํ๋ผ์ธ์ novel ์ค๊ณ๋ก privileged ์ ๋ณด์ RGB-only ์ง๊ฐ ๊ฐ ๊ฐ๊ทน ํด์
- Staged-reset ํ์ ๋ฉ์ปค๋์ฆ์ผ๋ก ์ฅ๊ธฐ ๋ก์ฝ-์กฐ์ ์์
์ ํจ์จ์ ํ๋ จ ์คํ
- GRPO ๊ธฐ๋ฐ fine-tuning์ผ๋ก ๋ถ๋ถ ๊ด์ธก์ฑ ํ๊ฒฝ์์์ ํ๋ฃจํ ์ผ๊ด์ฑ ๊ฐ์ ์ ์
- ํฌํ ๋ฆฌ์ผ๋ฆฌ์คํฑ ์๋ฎฌ๋ ์ด์
ํ๊ฒฝ์์ ์ธ๊ฐํ ๋ก๋ด์ ๋ค์ํ articulated ๊ฐ์ฒด ์ํธ์์ฉ ๋ฌ์ฑ
Limitation & Further Study
- ํ๊ฐ๊ฐ ๋ฌธ ์ด๊ธฐ ์์
์ ์ ํ๋์ด ์์ผ๋ฉฐ ๋ค๋ฅธ ๋ก์ฝ-์กฐ์ ์์
(์๋, ๋
ธ๋ธ)์ผ๋ก์ ์ผ๋ฐํ ๊ฒ์ฆ ํ์
- Staged-reset ํ์์ optimal stage ์ ํ๊ณผ ์ค๋
์ท ์์ ๋ํ ablation study ๋ถ์กฑ
- ์ค์ ๋๋ฉ์ธ ๊ฐญ(์: ์ ์กฐ์, ๋์ญํ ๋ชจ๋ธ ์ค์ฐจ)์ ๋ํ ์์ธํ ๋ถ์ ๋ฐ ์คํจ ์ผ์ด์ค ๋ถ์ ํ์
- ๊ณ์ฐ ๋น์ฉ๊ณผ ํ๋ จ ์๊ฐ์ ๋ํ ์ ๋์ ๋น๊ต ๋ถ์ฌ
- ๋ ๋์ ์ ์ธ ๊ฐ์ฒด ์ํธ์์ฉ(๋ณต์กํ ํ์ง, ๋์ ์ ํญ๋ ฅ)์ ๋ํ ํ์ฅ์ฑ ํ๊ฐ ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ์์ RGB ์๊ฐ๋ง์ ์ฌ์ฉํ์ฌ ๋ค์ํ ์ค์ ๋ฌธ์ ์ฌ๋ ์ธ๊ฐํ ๋ก๋ด ์ ์ฑ
์ ์๋ฎฌ๋ ์ด์
์์๋ง ํ๋ จํ์ฌ ์์ ์ท ์ ์ด์ ์ฑ๊ณตํ ํ๊ธฐ์ ์ธ ์ฐ๊ตฌ๋ก, staged-reset ํ์๊ณผ GRPO ๊ธฐ๋ฐ bootstrapping ๋ฑ์ novel ๋ฐฉ๋ฒ๋ก ์ด ์ค์ง์ ์ฑ๋ฅ ๊ฐ์ ์ ์
์ฆํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์