LeVERB: Humanoid Whole-Body Control with Latent Vision-Language Instruction
์ ์: Haoru Xue, Xiaoyu Huang, Dantong Niu, Qiayuan Liao, Thomas Kragerud, Jan Tommy Gravdahl, Xue Bin Peng, Guanya Shi, Trevor Darrell, Koushil Sreenath, Shankar Sastry | ๋ ์ง: 2025-06-16 | URL: https://arxiv.org/abs/2506.13751 📄 PDF
Essence
Figure 1: Overview of our contributions. Top: we create a photorealistic and dynamically accurate
LeVERB๋ humanoid ๋ก๋ด์ ์ ์ ์ ์ด๋ฅผ ์ํด vision-language ์
๋ ฅ์ latent action ๊ณต๊ฐ์ผ๋ก ์ธ์ฝ๋ฉํ๋ ๊ณ์ธต์ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ฉฐ, 150๊ฐ ์ด์์ task๋ก ๊ตฌ์ฑ๋ ์ฒซ ๋ฒ์งธ sim-to-real ์ค๋น ๋ฒค์น๋งํฌ๋ฅผ ์ ์ํ๋ค.
Motivation
- Known: Vision-Language-Action(VLA) ๋ชจ๋ธ์ ๊ฐ๋ ฅํ ์๋ฏธ ์ดํด์ zero-shot ์ผ๋ฐํ๋ฅผ ๋ณด์ฌ์ฃผ์์ผ๋, ๋๋ถ๋ถ์ ๊ธฐ์กด ์์คํ
์ end-effector pose๋ root velocity ๊ฐ์ hand-crafted action 'vocabulary'๋ฅผ ๊ฐ์ ํ์ฌ quasi-static task์๋ง ๊ตญํ๋๋ค.
- Gap: humanoid whole-body control(WBC)์ ์ํ agileํ ์ ์ ๋์์ ์ง์ํ๋ vision-language ์์คํ
์ ๋ถ์ฌ, ๊ทธ๋ฆฌ๊ณ photorealistic rendering์ ํฌํจํ WBC ๋ฒค์น๋งํฌ์ ๋ถ์กฑ์ด ์กด์ฌํ๋ค.
- Why: Humanoid ๋ก๋ด์ด ๋ณต์กํ ์ฅ๋ฉด์ ์ธ์งํ๊ณ ์ธ์ด ๋ช
๋ น์ ํด์ํ๋ฉฐ ์ ์ ๋์์ ์คํํ๋๋ก ํ๋ ๊ฒ์ ๋ก๋ด๊ณตํ์ ์ค์ํ ๋ชฉํ์ด๋ฉฐ, ์ด๋ ๊ณ ์ฐจ์ ๋น์ ํ ๋์ญํ ์์คํ
์ ์ ์ด๋ฅผ ์๊ตฌํ๋ค.
- Approach: CVAE ๊ธฐ๋ฐ architecture๋ฅผ ํตํด vision-language ์ ์ฑ
์ด synthetic kinematic demonstration์์ latent action vocabulary๋ฅผ ํ์ตํ๊ณ , ๊ฐํํ์ต ๊ธฐ๋ฐ WBC ์ ์ฑ
์ด ์ด๋ฌํ latent verb๋ฅผ dynamics-level command๋ก ๋ณํํ๋ ์ด์ค ๊ณผ์ (System 2-System 1) ๊ตฌ์กฐ๋ฅผ ์ ์ํ๋ค.
Achievement
Figure 1: Overview of our contributions. Top: we create a photorealistic and dynamically accurate
- LeVERB-Bench ๊ตฌ์ถ: 10๊ฐ ์นดํ
๊ณ ๋ฆฌ 150๊ฐ ์ด์์ task๋ก ๊ตฌ์ฑ๋ photorealistic, sim-to-real ์ค๋น ๋ฒค์น๋งํฌ ๊ฐ๋ฐ
- ์ฑ๋ฅ ๋ฌ์ฑ: ๋จ์ navigation task์์ 80% success rate, ์ ์ฒด์ ์ผ๋ก 58.5% success rate ๋ฌ์ฑํ๋ฉฐ naive hierarchical VLA๋ณด๋ค 7.8๋ฐฐ ์ฐ์
- Zero-shot ์ค์ ๋ฐฐํฌ: synthetic data๋ก๋ง ํ์ต๋์ด ์ค์ humanoid ๋ก๋ด์ zero-shot ๋ฐฐํฌ ๊ฐ๋ฅํจ์ ์
์ฆ
- Latent instruction interface: ์์ผ๋ก ์ค๊ณํ action vocabulary ๋์ structured latent space๋ฅผ ํตํด ํํ๋ ฅ ์๋ ์ ์ ๋์ ๋ฐ ์ฅ๋ฉด ์ํธ์์ฉ ์ง์
How
Figure 3: Details of our data collection and training pipeline. Step 1: we collect a synthetic,
- Human motion capture ๋ฐ์ดํฐ๋ฅผ humanoid ๋ก๋ด์ผ๋ก retargetingํ ํ photorealistic rendering์ผ๋ก ํฉ์ฑ ๋ฐ์ดํฐ ์์ฑ
- Diverse scene context์์ randomized visual rendering ์ํ
- VLM์ ์ฌ์ฉํ semantic language annotation์ ํตํด robot-specific video-language pair ๋ฐ์ดํฐ ๊ตฌ์ฑ
- CVAE ๊ธฐ๋ฐ high-level vision-language policy๋ก structured latent space ํ์ต
- Kinematics reconstruction์ผ๋ก visual๊ณผ motion semantics ์ ๋ ฌ
- Frozen latent space์์ proprioception-only controller ํ์ต์ ํตํด robot dynamics ๋ง์คํฐ๋ง
- High-frequency(50Hz) low-level WBC์ low-frequency(10Hz) vision-language processing์ ๋ถ๋ฆฌ
- Closed-loop evaluation์ ์ํ dynamic simulation environment ๊ตฌ์ฑ
Originality
- Humanoid WBC๋ฅผ ์ํ latent vision-language interface ์ค๊ณ์ ์ฒซ ์ฌ๋ก
- Photorealistic rendering๊ณผ physics-based simulation์ ๋ชจ๋ ํฌํจํ ์ต์ด์ WBC ๋ฒค์น๋งํฌ ์ ์
- Human-inspired dual-process architecture(System 1-System 2)๋ฅผ humanoid ๋ก๋ด ์ ์ด์ ์ฒด๊ณ์ ์ผ๋ก ์ ์ฉ
- Synthetic data๋ง์ ์ฌ์ฉํ zero-shot sim-to-real transfer ๋ฌ์ฑ
- CVAE๋ฅผ ํ์ฉํ structured latent space ํ์ต์ผ๋ก vision-language-action distribution ํตํฉ
Limitation & Further Study
- ์ ์ฒด success rate 58.5%๋ ๋ณต์กํ task์ ์ด๋ ค์์ ์์ฌํ๋ฉฐ, ํนํ seated interactions์ด๋ ๋ณตํฉ ๋์์์์ ์ฑ๋ฅ ๊ฐ์ ํ์
- ํฉ์ฑ ๋ฐ์ดํฐ์ domain gap์ด ์ฌ์ ํ ์กด์ฌํ ์ ์์ผ๋ฉฐ, ๋ ๋ค์ํ ์ค์ ํ๊ฒฝ์์์ ๊ฒ์ฆ ํ์
- ๊ณ ์ฃผํ WBC ์ ์ฑ
์ ๊ณ์ฐ ๋ณต์ก๋ ๋ฐ ์ค์๊ฐ ์ฑ๋ฅ์ ๋ํ ์์ธํ ๋ถ์ ๋ถ์กฑ
- Language instruction์ ๋ค์์ฑ๊ณผ robust์ฑ์ ๋ํ ๊ด๋ฒ์ํ ํ๊ฐ ํ์
- ํ์ ์ฐ๊ตฌ๋ก๋ ์ค์ ๋ฐ์ดํฐ ์์ง์ ํตํ fine-tuning, ๋ ๋ณต์กํ multi-agent scenario ํ๋, ๊ทธ๋ฆฌ๊ณ transfer learning ๊ธฐ๋ฒ์ ์ ์ฉ์ด ํ์ํจ
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: LeVERB๋ humanoid WBC๋ฅผ ์ํ vision-language ์ ์ด์์ ์ค์ํ ์ง์ ์ ์ด๋ฃจ์์ผ๋ฉฐ, ์ฒซ latent instruction-following framework์ comprehensive sim-to-real ๋ฒค์น๋งํฌ๋ฅผ ์ ์ํ์ฌ ์ด ๋ถ์ผ์ ๊ธฐ์ด๋ฅผ ๋ค์ก๋ค. ๋ค๋ง ์ค์ ๋ฐฐํฌ ์ฑ๋ฅ์ ์ถ๊ฐ ๊ฐ์ ๊ณผ ๋ ๊ด๋ฒ์ํ task ํ๊ฐ๋ฅผ ํตํ ๊ฒ์ฆ์ด ํ์ํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์