์ ์: Sicong Jiang, Zilin Huang, Kangan Qian, Ziang Luo, Tianze Zhu, Yang Zhong, Yihong Tang, Menglin Kong, Yunlong Wang, Siwen Jiao, Hao Ye, Zihao Sheng, Xin Zhao, Tuopu Wen, Zheng Fu, Sikai Chen, Kun Jiang, Diange Yang, Seongjin Choi, Lijun Sun | ๋ ์ง: 2025-06-30 | URL: https://arxiv.org/abs/2506.24044 📄 PDF
Figure 1. Comparisons of autonomous driving paradigms. (a) End-to-end driving offers direct perception-to-control mappin
๋ณธ ๋ ผ๋ฌธ์ Vision-Language-Action (VLA) ๋ชจ๋ธ์ ์์จ์ฃผํ์ ์ ์ฉํ๋ ์ต์ด์ ์ข ํฉ ์๋ฒ ์ด๋ก, 20๊ฐ ์ด์์ ๋ํ ๋ชจ๋ธ์ ๋ถ์ํ๊ณ ์๊ฐ ์ธ์, ์์ฐ์ด ์ดํด, ์ ์ด๋ฅผ ํตํฉํ๋ ํจ๋ฌ๋ค์์ ๋ฐ์ ๊ณผ์ ์ ์ถ์ ํ๋ค.
Figure 2. Overview of the VLA4AD Architecture.
Figure 1. Comparisons of autonomous driving paradigms. (a) End-to-end driving offers direct perception-to-control mappin
์ดํ: ๋ณธ ๋ ผ๋ฌธ์ VLA4AD ๋ถ์ผ์ ์ต์ด์ ์ข ํฉ ์๋ฒ ์ด๋ก์ ์ํคํ ์ฒ, ์งํ ๊ณผ์ , ๋ชจ๋ธ ๋น๊ต๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ์ ๋ฆฌํ๊ณ ๊ฐ๋ฐฉ ๊ณผ์ ๋ฅผ ๋ช ํํ ์ ์ํจ์ผ๋ก์จ, ์ค๋ช ๊ฐ๋ฅํ๊ณ ๊ฒฌ๊ณ ํ ์์จ์ฃผํ ์์คํ ๊ฐ๋ฐ์ ์ํ ์ค์ํ ์ฐธ๊ณ ์๋ฃ๋ฅผ ์ ๊ณตํ๋ค.