ZeroWBC: Learning Natural Visuomotor Humanoid Control Directly from Human Egocentric Video
์ ์: Haoran Yang, Jiacheng Bao, Yucheng Xin, Haoming Song, Yuyang Tian, Bin Zhao, Dong Wang, Xuelong Li | ๋ ์ง: 2026-03-10 | DOI: 10.48550/arXiv.2603.09170 📄 PDF
Essence
Fig. 1: Overview of the ZeroWBC framework. We propose a novel framework that learns natural humanoid visuomotor control
ZeroWBC๋ ์ธ๊ฐ์ ์ผ์ธ์นญ ๋น๋์ค์ ๋ชจ์
์บก์ฒ ๋ฐ์ดํฐ๋ก๋ถํฐ ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ์ ์ ์ ์ด ์ ์ฑ
์ ์ง์ ํ์ตํ๋ ํ๋ ์์ํฌ๋ก, ๋ก๋ด ์๊ฒฉ์กฐ์ข
๋ฐ์ดํฐ ์์ง ์์ด ์์ฐ์ค๋ฌ์ด ์ฅ๋ฉด ์ํธ์์ฉ์ ๊ฐ๋ฅํ๊ฒ ํ๋ค.
Motivation
- Known: ํด๋จธ๋
ธ์ด๋ ์ ์ ์ ์ด ๊ธฐ์ ์ ๋จ์ผ ์ฐธ์กฐ ๋ชจ์
์ถ์ ์์ ์ฑ์ ๋จ๊ณ์ ๋๋ฌํ์ผ๋, ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ๊ฒฝ์ง๋ ์ด๋ ํจํด์ ์ ํ๋๊ฑฐ๋ ๋น์ผ ์๊ฒฉ์กฐ์ข
๋ฐ์ดํฐ ์์ง์ ์์กดํ๋ค.
- Gap: ์ค์ธ๊ณ ํ๊ฒฝ ์ธ์์ด ํ์ํ ์์ฐ์ค๋ฌ์ด ํด๋จธ๋
ธ์ด๋ ์ ์ด, ํนํ ์๊ธฐ, ์ฐจ๊ธฐ ๊ฐ์ ์ธ๊ฐ๋ค์ด ํ๋์ ๋ก๋ด ์๊ฒฉ์กฐ์ข
๋ฐ์ดํฐ ์์ด ๊ตฌํํ๋ ๋ฐฉ๋ฒ์ด ๋ถ์กฑํ๋ค.
- Why: ์๊ฒฉ์กฐ์ข
๋ฐ์ดํฐ ์์ง์ ๋น์ฉ์ด ํฌ๊ณ ์๊ฐ์ด ์ค๋ ๊ฑธ๋ฆฌ๋ฏ๋ก, ์ธ๊ฐ ์์ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ์ฌ ํ์ฅ ๊ฐ๋ฅํ๊ณ ์์ฐ์ค๋ฌ์ด ๋ก๋ด ์ ์ด๋ฅผ ์คํํ๋ ๊ฒ์ด ์ค์ํ๋ค.
- Approach: VQ-VAE๋ก ์ธ๊ฐ ๋ชจ์
์ ํ ํฐํํ ํ Vision-Language Model์ ๋ฏธ์ธ์กฐ์ ํ์ฌ ํ
์คํธ ์ง์์ ์ผ์ธ์นญ ์๊ฐ ์ ๋ณด๋ก๋ถํฐ ๋ฏธ๋ ๋ชจ์
์ ์์ฑํ๊ณ , ์์ฑ๋ ๋ชจ์
์ ๋ก๋ด ๊ด์ ๋ก ์ฌํ๊ฒํ
ํ์ฌ ์ผ๋ฐ ๋ชจ์
์ถ์ ์ ์ฑ
์ผ๋ก ์คํํ๋ค.
Achievement
Fig. 1: Overview of the ZeroWBC framework. We propose a novel framework that learns natural humanoid visuomotor control
- ์๊ฒฉ์กฐ์ข
๋ฐ์ดํฐ ๋ถํ์: ์ธ๊ฐ ์ผ์ธ์นญ ์์๊ณผ MoCap ๋ฐ์ดํฐ๋ง์ผ๋ก ํ์ตํ์ฌ ๋ก๋ด ๋ฐ์ดํฐ ์์ง ์ค๋ฒํค๋๋ฅผ ์์ ํ ์ ๊ฑฐ
- ์์ฐ์ค๋ฌ์ด ์ ์ ์ ์ด: ์ฐจ๊ธฐ, ์๊ธฐ, ์ฅ์ ๋ฌผ ํํผ ๋ฑ ๋ค์ํ ์ฅ๋ฉด ์ํธ์์ฉ์ ์ธ๊ฐ๋ค์ด ๋ชจ์
์ผ๋ก ์คํ
- ๋์ ์ผ๋ฐํ ์ฑ๋ฅ: Unitree G1 ๋ก๋ด์์ ๊ธฐ์กด ๋ฐฉ๋ฒ ๋๋น ๋ชจ์
์์ฐ์ฑ๊ณผ ๋ค์์ฑ์์ ์ฐ์ํ ์ฑ๋ฅ ๋ฌ์ฑ
- ๋ ๋จ๊ณ ํตํฉ ์ํคํ
์ฒ: ๋ชจ์
์์ฑ๊ณผ ์ถ์ ์ ์ฒด๊ณ์ ์ผ๋ก ํตํฉํ ํ์ฅ ๊ฐ๋ฅํ ํ์ดํ๋ผ์ธ ๊ตฌ์ฑ
How
Fig. 3: Detailed architecture of ZeroWBC. The framework operates in two stages: (a) Multimodal Motion Generation: We
- VQ-VAE๋ฅผ ์ด์ฉํ ์ฐ์ ์ธ๊ฐ ๋ชจ์
์ ์ด์ฐ ํ ํฐ ์ธ์ฝ๋ฉ
- ๋๊ท๋ชจ ํ
์คํธ-์ด๋ฏธ์ง-๋ชจ์
๋ฐ์ดํฐ์
์ผ๋ก Vision-Language Model ๋ฏธ์ธ์กฐ์
- ์์ฑ๋ ์ธ๊ฐ ๋ชจ์
์ ๋ก๋ด ๊ด์ ๊ณต๊ฐ์ผ๋ก ์ฌํ๊ฒํ
(retargeting)
- MoCap ๋ฐ์ดํฐ๋ก ์ฌ์ ํ์ต๋ ์ผ๋ฐ ๋ชจ์
์ถ์ ์ ์ฑ
์ผ๋ก ์ถ์ ์คํ
- Unitree G1 ๋ก๋ด์์ ๋ค์ํ ์ฅ๋ฉด ์ํธ์์ฉ ์์
์ผ๋ก ๊ฒ์ฆ
Originality
- ์ธ๊ฐ ์ผ์ธ์นญ ์์๊ณผ MoCap ๋ฐ์ดํฐ๋ฅผ ๊ฒฐํฉํ ์ฒซ ๋ฒ์งธ ํด๋จธ๋
ธ์ด๋ ์ ์ด ํ๋ ์์ํฌ
- ๋ชจ์
์์ฑ ๋จ๊ณ์์ egocentric visual context ์กฐ๊ฑดํ๋ฅผ ๋์
- ์๊ฒฉ์กฐ์ข
์์ด ์ค์ธ๊ณ ์ฅ๋ฉด ์ํธ์์ฉ์ ์คํํ๋ ์๋ก์ด ํจ๋ฌ๋ค์ ์ ์
- ๋ ๋จ๊ณ ๊ตฌ์กฐ (์์ฑโ์ถ์ )๋ฅผ ํตํ ๋ชจ๋ํ๋ ์ค๊ณ๋ก ๊ฐ ๋จ๊ณ์ ๋
๋ฆฝ์ ์ต์ ํ ๊ฐ๋ฅ
Limitation & Further Study
- ํ์ฌ ์ผ์ธ์นญ ์๊ฐ ๊ธฐ๋ฐ์ด๋ฏ๋ก ์ 3์ ์์ ์์์ ์ ์ด๋ ๋ฏธ์ง์
- VQ-VAE ํ ํฐํ ๊ณผ์ ์์ ๊ณ ์ฃผํ ๋ชจ์
๋ํ
์ผ ์์ค ๊ฐ๋ฅ์ฑ
- ์ฌํ๊ฒํ
๋จ๊ณ์์ ์ธ๊ฐ-๋ก๋ด ์ ์ฒด ๋น์จ ์ฐจ์ด๋ก ์ธํ ๋ถ์์ฐ์ค๋ฌ์ ๊ฐ๋ฅ์ฑ
- ์ค์ธ๊ณ ๋ค์ํ ๋ก๋ด ํ๋ซํผ์ ๋ํ ์ผ๋ฐํ ์ฑ๋ฅ ๊ฒ์ฆ ํ์
- ๋์ ํ๊ฒฝ์์์ ์ค์๊ฐ ๋ชจ์
์์ฑ ์ง์ฐ ์๊ฐ ๋ฏธ๋ถ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ZeroWBC๋ ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ์๊ฒฉ์กฐ์ข
๋ฐ์ดํฐ ์์ง ๋ฌธ์ ๋ฅผ ๊ทผ๋ณธ์ ์ผ๋ก ํด๊ฒฐํ๋ฉฐ, ์ธ๊ฐ ์์ ๋ฐ์ดํฐ๋ก๋ถํฐ ์์ฐ์ค๋ฝ๊ณ ๋ค์ํ ์ ์ ์ ์ด๋ฅผ ๊ตฌํํ๋ ํ์ ์ ์ธ ํ๋ ์์ํฌ์ด๋ค. ๊ฐ๋ ฅํ ์คํ ๊ฒ์ฆ๊ณผ ์ค์ ๋ก๋ด ์ฑ๊ณต์ฌ๋ก๋ ์ ์๋์ด ์์ผ๋, ์ถ๊ฐ ํ๋ซํผ ์ผ๋ฐํ์ ๋์ ํ๊ฒฝ ์ ์์ฑ์ ๋ํ ํ๊ฐ๊ฐ ํฅํ ํ์ํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์