์ ์: Songlin Wei, Hongyi Jing, Boqian Li, Zhenyu Zhao, Jiageng Mao, Zhenhao Ni, Sicheng He, Jie Liu, Xiawei Liu, Kaidi Kang, Sheng Zang, Weiduo Yuan, Marco Pavone, Di Huang, Yue Wang | ๋ ์ง: 2026-03-12 | DOI: 10.48550/arXiv.2603.12263 📄 PDF
Fig. 2: Model Training and Deployment: First, we pre-train the VLM on the EgoDex [20] dataset to autoregressively predic
ฮจ0๋ ์ธ๊ฐ ์ค์ฌ egocentric ๋น๋์ค๋ก VLM์ ์ฌ์ ํ์ตํ ํ humanoid ๋ก๋ด ๋ฐ์ดํฐ๋ก flow-based action expert๋ฅผ post-trainํ๋ 2๋จ๊ณ ํ์ต ํจ๋ฌ๋ค์์ ํตํด humanoid loco-manipulation์ ์ํ foundation model์ ์ ์ํ๋ค.
์ดํ: ฮจ0๋ ์ธ๊ฐ-humanoid embodiment gap์ ๊ทน๋ณตํ๊ธฐ ์ํ ๋ช ํํ 2๋จ๊ณ ํ์ต ํจ๋ฌ๋ค์๊ณผ ๊ณ ํ์ง ๋ฐ์ดํฐ ์ ํ์ ์ค์์ฑ์ ์๋กญ๊ฒ ์ ์ํ๋ฉฐ, 10๋ฐฐ ์ด์์ ๋ฐ์ดํฐ ํจ์จ ๊ฐ์ ์ผ๋ก humanoid loco-manipulation ๋ถ์ผ์ significant contribution์ ์ ๊ณตํ๋ค.