์ ์: Haotian Liu, Chunyuan Li, Qingyang Wu, Yong Jae Lee | ๋ ์ง: 2023-04-17 | URL: https://arxiv.org/abs/2304.08485 📄 PDF
์ธ์ด ์ ์ฉ GPT-4๋ฅผ ํ์ฉํ์ฌ ๋ค์ค๋ชจ๋ฌ ์๊ฐ-์ธ์ด ๋ช ๋ น์ด ์ถ์ข ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๊ณ , ์ด๋ฅผ ํตํด vision encoder์ LLM์ ์ฐ๊ฒฐํ end-to-end ๋ค์ค๋ชจ๋ฌ ๋ชจ๋ธ LLaVA๋ฅผ ์ ์ํ๋ค.
์ดํ: ๋ณธ ๋ ผ๋ฌธ์ ๋ค์ค๋ชจ๋ฌ ๋ช ๋ น์ด ํ๋์ด๋ผ๋ ๋ฏธ๊ฐ์ฒ ์์ญ์ ์ฒ์์ผ๋ก ์ฒด๊ณ์ ์ผ๋ก ์ ๊ทผํ์์ผ๋ฉฐ, GPT-4๋ฅผ ํ์ฉํ ํจ์จ์ ์ธ ๋ฐ์ดํฐ ์์ฑ ๋ฐฉ๋ฒ๊ณผ end-to-end ๋ค์ค๋ชจ๋ฌ ๋ชจ๋ธ ํ์ต์ ํตํด ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ค. ์คํ์์ค ๊ณต๊ฐ์ ํจ๊ป ์๊ฐ-์ธ์ด ์ดํด์ ์ผ๋ฐ ๋ชฉ์ ์ด์์คํดํธ ๊ฐ๋ฐ์ ์ค์ํ ๊ธฐ์ด๋ฅผ ๋ง๋ จํ ์ํฅ๋ ฅ ์๋ ์ฐ๊ตฌ์ด๋ค.