WholeBodyVLA: Towards Unified Latent VLA for Whole-Body Loco-Manipulation Control
์ ์: Haoran Jiang, Jin Chen, Qingwen Bu, Li Chen, Modi Shi, Yanjie Zhang, Delong Li, Chuanzhe Suo, Chuang Wang, Zhihui Peng, Hongyang Li | ๋ ์ง: 2025-12-11 | URL: https://arxiv.org/abs/2512.11047 📄 PDF
Essence
Figure 1: Introducing WholeBodyVLA, a humanoid system that operates on Agibot X2 robot and
WholeBodyVLA๋ Vision-Language-Action ํ๋ ์์ํฌ๋ก humanoid ๋ก๋ด์ ๋๊ท๋ชจ ๊ณต๊ฐ์์ end-to-end ์ ์ ์กฐ์-์ด๋(loco-manipulation) ์ ์ด๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ๋ค. Unified latent learning์ผ๋ก ์ ๋น์ฉ ์์์์ ํ์ตํ๊ณ LMO RL policy๋ก ์ ํํ ์ด๋ ์คํ์ ๋ณด์ฅํ๋ค.
Motivation
- Known: Humanoid ๋ก๋ด์ dexterous manipulation๊ณผ agile locomotion์ด ํ์ํ๋ฉฐ, ๊ธฐ์กด RL ๊ธฐ๋ฐ whole-body ๋ฐฉ๋ฒ๊ณผ VLA ์์คํ
๋ค์ด ๋ฐ์ ํด์๋ค. ๊ทธ๋ฌ๋ manipulation-aware locomotion์ ํตํฉํ๋ ๋๊ท๋ชจ ๊ณต๊ฐ loco-manipulation์ ๋ฏธํด๊ฒฐ ์ํ์ด๋ค.
- Gap: Humanoid teleoperation ๋ฐ์ดํฐ์ ๊ทน์ฌํ ๋ถ์กฑ์ผ๋ก loco-manipulation ์ง์ ํ๋์ด ์ด๋ ต๊ณ , ๊ธฐ์กด RL controller์ ๋ฎ์ ์ ๋ฐ๋์ ์์ ์ฑ์ผ๋ก ์ธํด locomotion ๋ช
๋ น ์คํ์ด ๋ถ์์ ํ๋ค.
- Why: Humanoid ๋ก๋ด์ด ์ผ๋ฐ ๋ชฉ์ ์ embodied agent๋ก ๋ฐ์ ํ๋ ค๋ฉด ๋๊ท๋ชจ ๊ณต๊ฐ์์ ์ ๋ฐํ ๋์ ์กฐ์๊ณผ ์ด๋์ด ํ์์ ์ด๋ฉฐ, ์ด๋ ๋ณต์กํ ํ์ค ์์
์ํ์ ๊ฐ๋ฅํ๊ฒ ํ๋ค.
- Approach: Action-free ์ธ๊ฐ egocentric ์์์์ latent action model (LAM)๋ก ์ด์ฐ latent action์ ํ์ตํ์ฌ VLA ์ฌ์ ํ์ต์ ํ์ฉํ๊ณ , discrete command interface๋ฅผ ์ฌ์ฉํ๋ LMO RL policy๋ก ์ ํํ ์ ์์ค ์ ์ด๋ฅผ ์คํํ๋ค.
Achievement
Figure 1: Introducing WholeBodyVLA, a humanoid system that operates on Agibot X2 robot and
- End-to-end loco-manipulation ํตํฉ: ๋ชจ๋ํ๋ ์์ฐจ ์ฒ๋ฆฌ ์์ด ๋จ์ผ VLA ํ๋ ์์ํฌ์์ bimanual ์กฐ์๊ณผ locomotion(์ ์ง, ํ์ , squatting)์ ๋์์ ์ํ
- ๋ฐ์ดํฐ ํจ์จ์ฑ: Manipulation-aware locomotion์ฉ ์ ๋น์ฉ egocentric ์์ ์์ง ํ์ดํ๋ผ์ธ ๊ฐ๋ฐ์ผ๋ก ๋๊ท๋ชจ ๋ฐ์ดํฐ ํ๋ณด
- ์ฑ๋ฅ ํฅ์: AgiBot X2์์ ์ด์ baseline ๋๋น 21.3% ์ฑ๋ฅ ํฅ์ ๋ฌ์ฑ
- ๊ฐํ ์ผ๋ฐํ ๋ฐ ํ์ฅ์ฑ: ๋ค์ํ ์์
์์ ์ผ๋ฐํ ๋ฅ๋ ฅ ์
์ฆ ๋ฐ ๋์ ํ์ฅ์ฑ ์์ฐ
- ์ ๋ขฐ์ฑ: 50kg ์ด์์ ๋ฌด๊ฑฐ์ด ํ์ค ์ด๋ ๋ฑ ํ์ค ํ๊ฒฝ์์์ ์์ ์ ์๋ ๊ฒ์ฆ
How
Figure 2: Pipeline of WholeBodyVLA. LAM is pretrained on manipulation and manipulation-
- Unified latent learning: ๋ถ๋ฆฌ๋ locomotion LAM๊ณผ manipulation LAM์ ๊ฐ๊ฐ ํ์ตํ์ฌ ์๋ก ๋ค๋ฅธ ์๊ฐ ๋ณํ ํจํด ์บก์ฒ
- ์ด์ค ๊ฐ๋
(dual supervision): Human video์ robot data๋ฅผ ํผํฉํ์ฌ ๋ LAM์ผ๋ก๋ถํฐ ์ผ๊ด๋ ์๋ ์์ธก ํ์ต
- LMO RL policy: ์ฐ์ ์๋ ์ถ์ ๋์ discrete command (advance, turn, squat ๋ฑ)๋ฅผ ์ฌ์ฉํ์ฌ ์ ํํ ์์น ์ ์ด์ ์์ ์ฑ ํ๋ณด
- ๋ ๋จ๊ณ ํ์ต: LAM ์ฌ์ ํ์ต ํ ๊ฒฝ๋ action decoder ์ถ๊ฐ ๋ฐ teleop ๋ฐ์ดํฐ๋ก ๋ฏธ์ธ์กฐ์
- ์ ์์ค ์ ์ด ๋ถ๋ฆฌ: High-level VLA๋ locomotion command ์์ฑ, high-frequency RL controller๊ฐ ์ค์ lower-body actions ์คํ
Originality
- Action-free ์์ ํ์ฉ์ ํ์ ์ ์ ์ฉ: Tabletop manipulation์ ์ ํ๋ ๊ธฐ๋ฒ์ humanoid loco-manipulation ์์ญ์ผ๋ก ํ์ฅ
- Manipulation-aware locomotion ๋ช
์ํ: ๊ธฐ์กด velocity-tracking ๋ชฉํ์ ํ๊ณ๋ฅผ ์ธ์ํ๊ณ discrete command ์ธํฐํ์ด์ค๋ก loco-manipulation ํนํ ์ค๊ณ
- ๋ถ๋ฆฌ๋ LAM ์ํคํ
์ฒ: Locomotion๊ณผ manipulation์ ๋ณธ์ง์ ์ฐจ์ด๋ฅผ ๋ฐ์ํ์ฌ ๋
๋ฆฝ์ latent space ๊ตฌ์ฑ
- ์ค์ teleoperation ๋ฐ์ดํฐ ์์ง ํ์ดํ๋ผ์ธ: ๋น์ฉ ํจ์จ์ ๋จ์ผ ์คํผ๋ ์ดํฐ monocular ์นด๋ฉ๋ผ ๊ธฐ๋ฐ ์์ง ๋ฐฉ์ ์ ์
- ํตํฉ ํ๋ ์์ํฌ์ ์คํ: Table 1์์ ๋ณด๋ฏ ๊ธฐ์กด ๋ชจ๋ ์ ๊ทผ์ ๋ถ๋ถ์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๋ ์ต์ด์ ์์ ํตํฉ ์์คํ
Limitation & Further Study
- ๋ฐ์ดํฐ ๊ท๋ชจ ์ ํ: AgiBot World๋ฅผ ํ์ฉํ๋๋ผ๋ manipulation LAM ํ์ต ๊ท๋ชจ์ ๊ตฌ์ฒด์ ์์น ๋ฏธ์ ์
- ๋จ์ผ ๋ก๋ด ํ๋ซํผ: AgiBot X2์์๋ง ๊ฒ์ฆ, ๋ค๋ฅธ humanoid ํํ(Boston Dynamics Atlas ๋ฑ)์ ๋ํ generalization ๋ฏธ๊ฒ์ฆ
- Discrete command์ ํํ๋ ฅ: Advance, turn, squat ๋ฑ ์ ํด์ง ๋ช
๋ น๋ง ๊ฐ๋ฅํ์ฌ ๋ ๋ฏธ์ธํ locomotion ์ ์ด ํ์ ์์
์ ์ ์ฝ ๊ฐ๋ฅ์ฑ
- failure case ๋ถ์ ๋ถ์กฑ: Appendix C.3์ failure ํต๊ณ๋ง ์ธ๊ธ๋๊ณ ์ ์ฑ์ ๋ถ์ ๋ฏธํก
- ํ์์ฐ๊ตฌ ๋ฐฉํฅ: Quadruped ๋ฑ ๋ค๋ฅธ embodiment์ผ๋ก ํ์ฅ, vision-only ํ์ต์์ proprioceptive feedback ํตํฉ, real-time dynamic obstacle ํํผ ๋ฅ๋ ฅ ์ถ๊ฐ
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: WholeBodyVLA๋ humanoid loco-manipulation์ ์ค๋ ๊ณผ์ ๋ฅผ action-free ์์ ํ์ต๊ณผ ๋ง์ถคํ RL policy๋ก ์ฐฝ์์ ์ผ๋ก ํด๊ฒฐํ ๊ฐ๋ ฅํ ๊ธฐ์ฌ์ด๋ค. ์ค์ ๋ก๋ด์์์ ์
์ฆ๊ณผ 21.3% ์ฑ๋ฅ ํฅ์์ด ์ค์ง์ ๊ฐ์น๋ฅผ ์ฆ๋ช
ํ๋, ๋จ์ผ ํ๋ซํผ ๊ฒ์ฆ๊ณผ ์ด์ฐ ๋ช
๋ น ์ ์ฝ์ ํฅํ ๊ฐ์ ๋์์ด๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์