์ ์: Ranjan Sapkota, Yang Cao, Konstantinos I. Roumeliotis, Manoj Karkee | ๋ ์ง: 2025-05-07 | URL: https://arxiv.org/abs/2505.04769 📄 PDF
Vision-Language-Action (VLA) ๋ชจ๋ธ์ ์๊ฐ ์ธ์, ์์ฐ์ด ์ดํด, ๊ตฌ์ฒดํ๋ ํ๋์ ๋จ์ผ ๊ณ์ฐ ํ๋ ์์ํฌ์์ ํตํฉํ๋ ํ์ ์ ์ธ AI ์ ๊ทผ๋ฒ์ ์ ์ํ๋ค. ์ด ์ข ํฉ ๋ฆฌ๋ทฐ๋ ์ง๋ 3๋ ๊ฐ ๋ฐํ๋ 80๊ฐ ์ด์์ VLA ๋ชจ๋ธ์ ๋ถ์ํ์ฌ ๊ฐ๋ , ์ง์ , ์์ฉ, ๋์ ์ ์ฒด๊ณ์ ์ผ๋ก ์ ๋ฆฌํ๋ค.
Figure 3: Mind map illustrating VLA model ecosystem: progress in training efficiency (architectural innovations, data/pa
Figure 2: Mind map of core VLA concepts. Each color-coded branch highlights
์ดํ: ์ด ๋ ผ๋ฌธ์ rapidly evolving VLA ๋ถ์ผ์ ๋ํ ์ฒซ ๋ฒ์งธ ํฌ๊ด์ ์ข ํฉ ๋ฆฌ๋ทฐ๋ก์, ๊ฐ๋ ๋ถํฐ ์์ฉ๊น์ง ์ฒด๊ณ์ ์ผ๋ก ์ ๋ฆฌํ๊ณ ์ค์ ๋์ ๊ณผ์ ์ ๋ฏธ๋ ๋ฐฉํฅ์ ๋ช ํํ ์ ์ํ๋ค. embodied AI์ ๋ก๋ด ๊ณตํ์ ๋ฐ์ ์ ์ํ ์ค์ํ ๊ธฐ์ด ์ฐธ๊ณ ์๋ฃ๋ก์ ๋์ ๊ฐ์น๋ฅผ ๊ฐ์ง๋ค.