VIRAL: Visual Sim-to-Real at Scale for Humanoid Loco-Manipulation
์ ์: Tairan He, Zi Wang, Haoru Xue, Qingwei Ben, Zhengyi Luo, Wenli Xiao, Ye Yuan, Xingye Da, Fernando Castaรฑeda, Shankar Sastry, Changliu Liu, Guanya Shi, Linxi Fan, Yuke Zhu | ๋ ์ง: 2025-11-27 | DOI: 10.48550/arXiv.2511.15200 📄 PDF
Essence
Figure 2. VIRAL teacher-student pipeline. Phase 1: In simulation, a privileged RL teacher policy ฯteacher receives full-
VIRAL์ humanoid robot์ loco-manipulation์ ์๋ฎฌ๋ ์ด์
์์ ํ์ตํ๊ณ zero-shot์ผ๋ก ์ค์ ๋ก๋ด์ ๋ฐฐํฌํ๋ visual sim-to-real ํ๋ ์์ํฌ์ด๋ฉฐ, teacher-student ๊ตฌ์กฐ์ ๋๊ท๋ชจ GPU ์ปดํจํ
์ ํ์ฉํ์ฌ RGB ๊ธฐ๋ฐ ์ ์ฑ
์ ํตํด 54๊ฐ ์ฌ์ดํด์ ์ฐ์์ ์ธ ๊ฐ์ฒด ์ด๋์ ๋ฌ์ฑํ๋ค.
Motivation
- Known: Sim-to-real์ legged locomotion์์ ์ฑ๊ณต์ ์ผ๋ก ์ ์ฉ๋์๊ณ , visual sim-to-real์ tabletop manipulation ๋ฑ์์ ๊ตฌํ๋์ด ์๋ค. ์ต๊ทผ ๋๊ท๋ชจ ์ค์ ๋ฐ์ดํฐ ์์ง์ ํตํ foundation model ์ ๊ทผ์ด ๋ก๋ณดํฑ์ค์์ ์๋๋๊ณ ์๋ค.
- Gap: Humanoid loco-manipulation์ locomotion๊ณผ manipulation์ ๊ฒฐํฉํด์ผ ํ๋ฉฐ ๋ชจ๋ฐ์ผ ํ๋ซํผ์ ๋์ ์์ ๋๋ก ์ธํด ๋ง์ ์ค์ ๋ฐ์ดํฐ๊ฐ ํ์ํ๋ฐ, ํ์ฌ ๋๋ถ๋ถ์ humanoid ์์คํ
์ blind locomotion, ๊ณ ์ tabletop manipulation, ๋๋ ์๊ฒฉ ์กฐ์ข
์ ์์กดํ๊ณ ์๋ค.
- Why: Humanoid robot์ด ์ผ๋ฐ ๋ชฉ์ ์ ๋ฌผ๋ฆฌ ์ง๋ฅ์ ๊ตฌํํ๋ ค๋ฉด ์ฅ๊ธฐ๊ฐ์ ๊ฑธ์น ์์จ์ loco-manipulation์ด ํ์์ ์ด๋ฉฐ, ์ค์ ๋ฐ์ดํฐ ์์ง์ ๋น์ฉ ๋๋น ์๋ฎฌ๋ ์ด์
๊ธฐ๋ฐ ์ ๊ทผ์ ํจ์จ์ฑ์ด ๋์ ๋๊ท๋ชจ ๋ฐฐํฌ์ ์คํ์ฑ์ ๋์ธ๋ค.
- Approach: Teacher-student ๊ตฌ์กฐ๋ก privileged state๋ฅผ ํ์ฉํ RL teacher๋ฅผ ๋จผ์ ํ์ตํ๊ณ , ์ด๋ฅผ RGB ๊ธฐ๋ฐ student policy๋ก distillํ๋ฉฐ, DAgger์ behavior cloning์ ํผํฉ, ๋๊ท๋ชจ visual domain randomization, ๊ทธ๋ฆฌ๊ณ ์ค์ ํ๋์จ์ด์์ real-to-sim alignment๋ฅผ ํตํด sim-to-real ์ ์ด๋ฅผ ๋ฌ์ฑํ๋ค.
Achievement
Figure 1. Center: Unitree G1 humanoid performing loco-manipulation, walking between tables to place and pick objects for
- 54 ์ฌ์ดํด ์ฐ์ loco-manipulation: Unitree G1 humanoid๊ฐ ํ
์ด๋ธ ๊ฐ ์ด๋, ๊ฐ์ฒด ๋ฐฐ์น, ํ์ง, ์ด๋ฐ์ 54๊ฐ ์ฌ์ดํด์ ๊ฑธ์ณ ์ฐ์์ผ๋ก ์ํ
- Zero-shot ์ค์ ๋ฐฐํฌ: ์๋ฎฌ๋ ์ด์
์์ ํ์ตํ ์ ์ฑ
์ด ์ค์ ๋ก๋ด์ ๋ฏธ์ธ ์กฐ์ ์์ด ๋ฐ๋ก ๋ฐฐํฌ ๊ฐ๋ฅ
- ์ ๋ฌธ๊ฐ ์์ค์ ์ฑ๋ฅ: ์๊ฒฉ ์กฐ์ข
์ฑ๋ฅ ์์ค์ ๊ทผ์ ํ ์ฑ๊ณต๋ฅ ๋ฌ์ฑ
- ์ผ๋ฐํ ๋ฅ๋ ฅ: ๊ณต๊ฐ์ ๋ฐ ์๊ฐ์ ๋ณํ์ ๋ํ ๊ฐ๊ฑดํ ์ผ๋ฐํ (diverse spatial and appearance variations)
- ๋๊ท๋ชจ GPU ์ปดํจํ
์ ํจ๊ณผ: 64๊ฐ GPU ์ค์ผ์ผ๋ง์ด teacher์ student ํ์ต์ ์์ ์ฑ ํฅ์์ ํ์์ ์์ ์ค์ฆ
How
Figure 2. VIRAL teacher-student pipeline. Phase 1: In simulation, a privileged RL teacher policy ฯteacher receives full-
- Teacher ์ ์ฑ
ํ์ต: Privileged state (full proprioception, exteroception, object transforms)๋ฅผ ์
๋ ฅ์ผ๋ก ํ๋ PPO ๊ธฐ๋ฐ RL teacher๋ฅผ 16๊ฐ GPU๋ก ํ์ต
- Action space ์ค๊ณ: Delta velocity commands (โv_t, โฯ_t)์ delta joint targets (โq_arm_t, โq_finger_t)๋ฅผ WBC policy์ ์
๋ ฅ
- Stage-based reward design: Walking, placing, grasping, turning์ 4๊ฐ ๋จ๊ณ๋ณ reward ์ ์ (exponential distance, force-based, height-based ๋ฑ)
- Reference state initialization: ์์ฐ์ผ๋ก๋ถํฐ ํ๊ฒฝ ์ด๊ธฐํ๋ฅผ ํตํ RL ํ์ต ๋ถ์คํ
- Student ์ ์ฑ
distillation: 64๊ฐ GPU์ Isaac Lab tiled rendering์ ํ์ฉํ ๋๊ท๋ชจ ์๋ฎฌ๋ ์ด์
์์ DAgger์ behavior cloning ํผํฉ์ผ๋ก ํ์ต
- Visual domain randomization: Lighting, materials, camera parameters, image quality, sensor delays ๋ฑ ๋ค์ํ ์๊ฐ ์์ ๋ฌด์์ํ
- Real-to-sim alignment: Dexterous hand์ system identification๊ณผ camera extrinsics calibration์ ํตํ ์๋ฎฌ๋ ์ดํฐ-์ค์ ํ๋์จ์ด ์ ๋ ฌ
Originality
- Humanoid loco-manipulation์ teacher-student privileged learning์ ๋๊ท๋ชจ GPU ์ปดํจํ
๊ณผ ๊ฒฐํฉํ ์ต์ด์ ์ฒด๊ณ์ ์ ์ฉ
- ์๋ฎฌ๋ ์ด์
๊ธฐ๋ฐ humanoid loco-manipulation์์ visual sim-to-real์ ์ค์ ๊ฐ๋ฅ์ฑ์ ๊ด๋ฒ์ํ ablation๊ณผ ํจ๊ป ์ค์ฆ
- Delta action space์ reference state initialization, stage-based reward design, multi-modal distillation ๋ฑ์ ์ค๊ณ ์ ํ ์ฌํญ๋ค์ด ์ค์ ๋ฐฐํฌ์ ๋ฏธ์น๋ ์ํฅ์ ์ฒด๊ณ์ ์ผ๋ก ๋ถ์
- 64๊ฐ GPU ๊ท๋ชจ์ ๋ณ๋ ฌ ์๋ฎฌ๋ ์ด์
์ธํ๋ผ๋ฅผ ํตํ ์๋ฎฌ๋ ์ด์
ํจ์จ ๊ทน๋ํ
Limitation & Further Study
- ์์
๋ณต์ก๋ ์ ํ: ํ์ฌ ํ๋ ์์ํฌ๋ walking, placing, grasping, object transport ๋ฑ ์ฌ์ ์ ์๋ ์์
์ํ์ค์ ์ ํ๋์ด ์์ผ๋ฉฐ, ๋ ๋ณต์กํ๊ฑฐ๋ ์์ธก ๋ถ๊ฐ๋ฅํ ์์
์ผ๋ก์ ํ์ฅ์ฑ ๋ฏธ๊ฒ์ฆ
- ํ๊ฒฝ ๋ค์์ฑ: ํ
์ด๋ธ๊ณผ ๊ฐ์ฒด ๋ฐฐ์น์ ๋ํ ํน์ ์ค์ ์ ์ต์ ํ๋์ด ์์ผ๋ฉฐ, ํฌ๊ฒ ๋ค๋ฅธ ํ๊ฒฝ ๊ตฌ์กฐ๋ก์ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ ๋ถ๋ช
ํ
- ์ปดํจํ
์์ ์์กด์ฑ: ์์ ์ ์ธ ํ์ต์ ์ํด 64๊ฐ GPU ๊ท๋ชจ์ ๋๊ท๋ชจ ์ปดํจํ
์์์ด ํ์์ ์ด๋ฏ๋ก ์ ๊ทผ์ฑ๊ณผ ํ์ฅ์ฑ ์ ํ
- ์ค์ ๋ก๋ด ํ๋์จ์ด ํน์์ฑ: Unitree G1 humanoid์๋ง ๊ฒ์ฆ๋์์ผ๋ฉฐ, ๋ค๋ฅธ humanoid ํ๋ซํผ์ผ๋ก์ ์ ์ด ๊ฐ๋ฅ์ฑ ๋ฏธ๊ฒ์ฆ
- ํ์ ์ฐ๊ตฌ ๋ฐฉํฅ: ์ฅ๊ธฐ-๋จ๊ธฐ ์คํฌ ํ์ต ๋ฐ ์ฌ์ฌ์ฉ์ ์ํ ๊ณ์ธต์ ์ ์ด ๊ตฌ์กฐ ๊ฐ๋ฐ, ์ค์๊ฐ ํ๊ฒฝ ์ ์ ๋ฉ์ปค๋์ฆ, ๋ค์ค ๋ก๋ด ํ๋ ฅ loco-manipulation ํ์ฅ
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ humanoid loco-manipulation์ ๋ํ ์๋ฎฌ๋ ์ด์
๊ธฐ๋ฐ ์ ๊ทผ์ ์คํ ๊ฐ๋ฅ์ฑ์ ๋๊ท๋ชจ GPU ์ปดํจํ
๊ณผ ์ฒด๊ณ์ ์ธ ์ค๊ณ๋ฅผ ํตํด ์ค์ฆํ ์ค์ํ ์ฐ๊ตฌ๋ก, teacher-student ํ๋ ์์ํฌ์ visual domain randomization์ ์กฐํฉ์ด zero-shot sim-to-real ์ ์ด๋ฅผ ๊ฐ๋ฅํ๊ฒ ํจ์ ๋ณด์ฌ์ค๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์