์ ์: Kento Kawaharazuka, Jihoon Oh, Jun Yamada, Ingmar Posner, Yuke Zhu | ๋ ์ง: 2025.10 | DOI: N/A 📄 PDF
FIGURE 1. Structure of this survey. Section II outlines the key challenges in developing Vision-Language-Action (VLA) mo
Vision-Language-Action (VLA) ๋ชจ๋ธ์ ์๊ฐ, ์ธ์ด, ํ๋ ๋ฐ์ดํฐ๋ฅผ ํตํฉํ์ฌ ๋ก๋ด์ด ๋ค์ํ ์์ , ๊ฐ์ฒด, ๊ตฌํ, ํ๊ฒฝ์ ๊ฑธ์ณ ์ผ๋ฐํํ ์ ์๋ ์ ์ฑ ์ ํ์ตํ๋ ๊ธฐ์ ์ด๋ค. ์ด ์๋ฒ ์ด๋ VLA์ ์ํคํ ์ฒ, ํ์ต ํจ๋ฌ๋ค์, ๋ฐ์ดํฐ ์์ง, ์ค์ ๋ฐฐํฌ๊น์ง ํฌ๊ด์ ์ธ ํ์คํ ๋ฆฌ๋ทฐ๋ฅผ ์ ๊ณตํ๋ค.
FIGURE 1. Structure of this survey. Section II outlines the key challenges in developing Vision-Language-Action (VLA) mo
FIGURE 3. Structure of Section IV and Section V. The figure summarizes key components of VLA models. The center illustra
์ดํ: ์ด ์๋ฒ ์ด๋ VLA ๋ถ์ผ์ ์ฒซ ์ข ํฉ์ ํ์คํ ๋ฆฌ๋ทฐ๋ก์, ์ค์ ๋ก๋ด ๋ฐฐํฌ์ ํ์ํ ๋ชจ๋ ์ธก๋ฉด์ ๋ค๋ฃจ๋ ํฌ๊ด์ ๊ฐ์ด๋๋ฅผ ์ ๊ณตํ๋ค. ๋น ๋ฅด๊ฒ ๋ฐ์ ํ๋ ๋ถ์ผ์ ํํฉ์ ์ ๋ฆฌํ๊ณ ์ค๋ฌด์๋ฅผ ์ํ ์ค์ง์ ๊ถ์ฅ์ฌํญ์ ์ ์ํ์ฌ ๋ก๋ด๊ณตํ ์ปค๋ฎค๋ํฐ์ ์๋นํ ๊ฐ์น๋ฅผ ์ ๊ณตํ ๊ฒ์ผ๋ก ์์๋๋ค.