์ ์: Ruihan Yang, Qinxi Yu, Yecheng Wu, Rui Yan, Borui Li, An-Chieh Cheng, Xueyan Zou, Yunhao Fang, Xuxin Cheng, Ri-Zhao Qiu, Hongxu Yin, Sifei Liu, Song Han, Yao Lu, Xiaolong Wang | ๋ ์ง: 2025-07-16 | URL: https://arxiv.org/abs/2507.12440 📄 PDF
Figure 1: EgoVLA. Our vision-language-action model learns manipulation skills from egocentric human
egocentric human ๋น๋์ค๋ก๋ถํฐ Vision-Language-Action (VLA) ๋ชจ๋ธ์ ํ์ตํ์ฌ ๋ก๋ด ์กฐ์ ์ ์ฑ ์ ํ๋ํ๊ณ , Inverse Kinematics๊ณผ retargeting์ ํตํด ์ธ๊ฐ ํ๋์ ๋ก๋ด ํ๋์ผ๋ก ๋ณํํ๋ค.
Figure 4: Unified Action Space: MANO hand parameters are used as a shared action space for humans and
Figure 2: EgoVLA takes visual history, language instruction, and action query token as input. The latent fea-
์ดํ: ๋ณธ ๋ ผ๋ฌธ์ egocentric human ๋น๋์ค๋ฅผ ํ์ฉํ VLA ํ์ต์ด๋ผ๋ ํ์ ์ ์ ๊ทผ์ผ๋ก ๋ก๋ด ๋ฐ์ดํฐ ์์ง์ ํ์ฅ์ฑ ๋ฌธ์ ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํด๊ฒฐํ๋ฉฐ, unified action space ์ค๊ณ์ ์ข ํฉ์ ์ธ ๋ฒค์น๋งํฌ ์ ์์ ํตํด ๋์ ์ค์ฉ์ฑ๊ณผ ํ์ ์ ๊ธฐ์ฌ๋ฅผ ์ ์ํ๋ค.