์ ์: Siddharth Karamcheti, Suraj Nair, Ashwin Balakrishna, Percy Liang, Thomas Kollar, Dorsa Sadigh | ๋ ์ง: 2024-02-12 | URL: https://arxiv.org/abs/2402.07865 📄 PDF
Figure 1. Prismatic VLMs. Through rigorous experiments ex-*
Visually-Conditioned Language Models (VLMs)์ ์ค๊ณ ๊ณต๊ฐ์ ์ฒด๊ณ์ ์ผ๋ก ํ์ํ์ฌ ํต์ฌ ์ค๊ณ ๊ฒฐ์ ์ด ๋ชจ๋ธ ์ฑ๋ฅ์ ๋ฏธ์น๋ ์ํฅ์ ๋ถ์ํ๊ณ , ํ์คํ๋ ํ๊ฐ ์ค์ํธ์ ์ต์ ํ๋ ํ์ต ์ฝ๋, ๊ทธ๋ฆฌ๊ณ InstructBLIP๊ณผ LLaVa v1.5๋ฅผ ๋ฅ๊ฐํ๋ Prismatic VLMs๋ฅผ ์ ์ํ๋ค.
Figure 1. Prismatic VLMs. Through rigorous experiments ex-*
Figure 2. Exploring VLM Design Axes. We explore four key design axes for developing VLMs: 1) optimization procedure, 2)
์ดํ: ์ด ๋ ผ๋ฌธ์ VLM์ ์ค๊ณ ๊ณต๊ฐ์ ์ฒด๊ณ์ ์ผ๋ก ํ์ํ๋ ์ฒซ ํฌ๊ด์ ์ฐ๊ตฌ๋ก, ํ์คํ๋ ํ๊ฐ ํ๋ ์์ํฌ์ ์ต์ ํ๋ ํ์ต ์ฝ๋, ๊ทธ๋ฆฌ๊ณ ์ฐ์ํ ์ฑ๋ฅ์ ๋ชจ๋ธ์ ์ ์ํจ์ผ๋ก์จ VLM ๊ฐ๋ฐ์ ๊ธฐ์ด๋ฅผ ๋ค์ง๋ค. ๊ณต๊ฐ๋ ๋ฆฌ์์ค์ ๋ช ํํ ์ธ์ฌ์ดํธ๋ ํ์ ์ฐ๊ตฌ๋ฅผ ํฌ๊ฒ ๊ฐ์ํํ ์ ์๋ ์ค์ํ ๊ธฐ์ฌ์ด๋ค.