์ ์: Junjie Wen, Yichen Zhu, Jinming Li, Zhibin Tang, Chaomin Shen, Feifei Feng | ๋ ์ง: 2025-02-09 | URL: https://arxiv.org/abs/2502.05855 📄 PDF
Figure 2: DexVLA architecture and embodied curriculum learning. Our model employs a three-stage
DexVLA๋ billion ๊ท๋ชจ์ diffusion-based action expert๋ฅผ plug-in ํํ๋ก vision-language model์ ํตํฉํ๊ณ , 3๋จ๊ณ embodied curriculum learning ์ ๋ต์ ํตํด ๋ค์ํ ๋ก๋ด ํํ์์ ๋ณต์กํ long-horizon task๋ฅผ ์ํํ ์ ์๋ VLA ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค.
Figure 1: Dexterous skills in diverse tasks and scenarios. Our proposed DexVLA method enables generalized
Figure 2: DexVLA architecture and embodied curriculum learning. Our model employs a three-stage
์ดํ: DexVLA๋ diffusion-based action expert์ plug-in ์ค๊ณ์ embodied curriculum learning ์ ๋ต์ผ๋ก VLA์ ํจ์จ์ฑ๊ณผ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ํฌ๊ฒ ํฅ์์ํจ ์์ ์ด๋ค. ํนํ external high-level policy ์์ด ๋ณต์กํ long-horizon task๋ฅผ ์ง์ ์ํํ ์ ์๋ค๋ ์ ๊ณผ ์ ํ๋ ๋ฐ์ดํฐ๋ก ๋ค์ํ ๋ก๋ด์ ์ ์ํ ์ ์๋ค๋ ์ ์ด ํ์ค์ ๊ฐ์น๊ฐ ๋์ผ๋, ๊ณต์ ํ ๋น๊ต ์คํ๊ณผ ๋ ๊ด๋ฒ์ํ task ๊ฒ์ฆ์ด ํ์ํ๋ค.