์ ์: Rui Shao, Wei Li, Lingsen Zhang, Renshan Zhang, Zhiyang Liu, Ran Chen, Liqiang Nie | ๋ ์ง: 2025-08-18 | URL: https://arxiv.org/abs/2508.13073 📄 PDF
Fig. 2: Outline of the organization of our comprehensive survey (top) and a chronological timeline of notable developmen
๋๊ท๋ชจ Vision-Language Model(VLM)์ ๊ธฐ๋ฐ์ผ๋ก ํ Vision-Language-Action(VLA) ๋ชจ๋ธ๋ค์ ๋ก๋ด ๋งค๋ํฐ๋ ์ด์ ์ ์ ์ฉํ๋ ์ฐ๊ตฌ์ ์ฒซ ๋ฒ์งธ ์ฒด๊ณ์ ์ค๋ฌธ์กฐ์ฌ๋ก, Monolithic ๋ชจ๋ธ๊ณผ Hierarchical ๋ชจ๋ธ์ด๋ผ๋ ๋ ๊ฐ์ง ์ฃผ์ ์ํคํ ์ฒ ํจ๋ฌ๋ค์์ ์ ์ํ๋ค.
Fig. 3: Comparison of the two principal categories of large VLM-based VLA models. Monolithic models (Sec. 3) integrate
Fig. 2: Outline of the organization of our comprehensive survey (top) and a chronological timeline of notable developmen
์ดํ: ๋ณธ ์ค๋ฌธ์กฐ์ฌ๋ ๋น ๋ฅด๊ฒ ์ฑ์ฅํ๋ VLM ๊ธฐ๋ฐ VLA ๋ถ์ผ์ ์ฒซ ๋ฒ์งธ ์ฒด๊ณ์ ์ข ํฉ์ผ๋ก, ๋ช ํํ ์ ์, ์ผ๊ด๋ ๋ถ๋ฅ์ฒด๊ณ, ๊ทธ๋ฆฌ๊ณ ํฌ๊ด์ ๋ถ์์ ํตํด ํ๊ณ์ ์ฐ๊ตฌ ๋จํธํ๋ฅผ ํด์ํ๊ณ ํฅํ ๋ฐ์ ๋ฐฉํฅ์ ์ ์ํ๋ ์์๊ฐ ํฌ๋ค. ์ ๊ธฐ์ ์ ๋ฐ์ดํธ ๊ณํ๋ ๋ถ์ผ์ ๋น ๋ฅธ ์ง์ ์ ๋ฐ์ํ๋ ๊ฐ์ ์ด๋ค.