์ ์: Brian Hogan, Anmol Kabra, F. Pacheco, Laura Greenstreet, Joshua Fan, Aaron Ferber, Marta Eichemberger Ummus, Agostinho M. Brito, Olivia Graham, Lillian R. Aoki, C. Drew Harvell, Alexander S. Flecker, Carla Gomes | ๋ ์ง: 2024 | DOI: arXiv:2410.21480 📄 PDF
Essence
Visual Retrieval-Augmented Generation(VisRAG)๊ณผ ๋๋ฉ์ธ ํนํ ๋๊ตฌ๋ฅผ ๊ฒฐํฉํ์ฌ ๊ณผํ ์ด๋ฏธ์ง ๋ถ๋ฅ๋ฅผ ์ํํ๋ AISciVision์ ์ํฌํ๋ก์ฐ. ํ
์คํธ ์ด๋ฏธ์ง์ ๋ํด ์ ์ฌํ ๊ธ์ /๋ถ์ ์์๋ฅผ ๊ฒ์ํ ํ, LMM ์์ด์ ํธ๊ฐ ์ฌ๋ฌ ๋ผ์ด๋์์ ๋๊ตฌ๋ฅผ ์ฌ์ฉํ์ฌ ๋ถ์์ ์ ์ ํ๊ณ ์ต์ข
์์ธก๊ณผ ์ถ๋ก ๊ธฐ๋ก(transcript)์ ์์ฑํ๋ค.
๋๊ท๋ชจ ๋ค์ค๋ชจ๋ฌ ๋ชจ๋ธ(LMM)์ ๊ณผํ ์์ ๋ถ๋ฅ ์์
์ ํนํ์ํค๋ ํ๋ ์์ํฌ๋ก, ์๊ฐ์ ๊ฒ์ ๊ธฐ๋ฐ ์์ฑ(VisRAG)๊ณผ ๋๋ฉ์ธ ํนํ ๋๊ตฌ๋ฅผ ํ์ฉํ์ฌ ํด์ ๊ฐ๋ฅํ๊ณ ์ ๋ขฐํ ์ ์๋ AI ์์คํ
์ ๊ตฌํํ๋ค.
Evaluation
์ดํ: AISciVision์ ํฌ๋ช
์ฑ๊ณผ ์ฑ๋ฅ์ ๊ฒฐํฉํ ์ค์ฉ์ ์ธ ๊ณผํ AI ํ๋ ์์ํฌ๋ก, ์ค์ ๋ฐฐํฌ๋ฅผ ํตํด ๊ณผํ ์ฐ๊ตฌ์ ๊ธฐ์ฌํ๋ ์ ์ด ๊ฐ์ ์ด๋ค. ๋ค๋ง ๊ธฐ์ ์ ์ธ๋ถ์ฌํญ๊ณผ ๊ด๋ฒ์ํ ํ๊ฐ ๋ถ์์ด ๋ณด๊ฐ๋๋ฉด ๋์ฑ ๊ฒฌ๊ณ ํ ๋
ผ๋ฌธ์ด ๋ ์ ์๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
๋ค์ค๋ชจ๋ฌ ๋ํ๋ชจ๋ธ์ ์งํ์ ๋ค์ํ ๋ฒค์น๋งํฌ ์ฌ๋ก๋ฅผ ํฌ๊ดํด์, aiscivision์ ๋ชจ๋ธ์ ๊ธฐ๋ฐ๊ณผ ์ต์ ๊ธฐ์ ํธ๋ ๋๋ฅผ ์ดํดํ ์ ์๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๊ณผํ ์ด๋ฏธ์ง์ ์ ๋ณด ์ถ์ถ ๋ฐ ๋ฉํฐ๋ชจ๋ฌ ํนํ ๋๊ตฌ์ ์ฌ์ฉ์ด Aiscivision์ ํต์ฌ ์ ๋ต๊ณผ ์ผ์นํด, ์ด๋ก ์ ยท๊ธฐ์ ์ ๊ธฐ๋ฐ์ ์ ๊ณตํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๊ณผํ์ ์ด๋ฏธ์ง ๋ถ์์ ์ํ ๋๊ท๋ชจ ์ธ์ด/์๊ฐ ๋ชจ๋ธ ํ์ฉ์ ๋ค๋ฅธ ๋ฐฉ๋ฒ์ผ๋ก ์ ๊ทผํ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋ค์ค ์์ด์ ํธ ๊ธฐ๋ฐ LLM ํ์ฉ์ ํตํด ๋จ๋ฐฑ์ง ํ์ ๋ฐ ๊ตฌ์กฐ ๋ถ์์ ํนํ๋ ๋ฐฉ๋ฒ์ผ๋ก, Aiscivision๊ณผ ๋น๊ต ๊ฐ๋ฅํ ๋๊ตฌ ์์ฉ ์ฌ๋ก์
๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
566์ ํ
์คํธ์ ์ฐจํธ๊ฐ ๊ฒฐํฉ๋ ๋ฉํฐ๋ชจ๋ฌ ์ ๋ณด ์ถ์ถ์ ๊ฐ์กฐํ๋ฉฐ, 091์ LMM ๊ธฐ๋ฐ ๊ณผํ ์์ ๋ถ๋ฅ์ ์ํธ๋ณด์์ ์ ๊ทผ์ ๋ณด์ฌ์ค๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋๋ฉ์ธ ํนํ ๋ฉํฐ๋ชจ๋ฌ AI ์์คํ
๊ตฌ์ถ์ ์ ์ฌํ ๋ชฉํ๋ก ์ ์ํ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋๊ท๋ชจ ์ธ์ด๋ชจ๋ธ์ ์๊ฐ-์ธ์ด ์ดํด ๋ฐ ์ถ๋ก ๋ฅ๋ ฅ์ ํ๊ฐํ๋ ๊ด๋ จ ์ฐ๊ตฌ์ด๋ค.
ํ์ ์ฐ๊ตฌ
708์ ๊ณผํ์ ์๊ฐ์ ๋ณด ์บก์
์์ฑ์ ์ด์ ์ ๋ง์ถฐ 091์ ์์ ๊ธฐ๋ฐ ๋ถ๋ฅ ์ฐ๊ตฌ๋ฅผ ์์ฐ(์์ฑ)์ ์์ฉ๊ณผ ์ฐ๊ฒฐํ๋ค.
์์ฉ ์ฌ๋ก
๋ฉํฐ๋ชจ๋ฌ ์ ๋ณด์ถ์ถ๊ณผ ๋๊ตฌ ๊ฒฐํฉ ๊ธฐ๋ฐ์ ๊ณผํ์์ ๋ถ์ ์ฌ๋ก๋ฅผ ํตํด aiscivision์ด ์ค์ ์๋ฌผํยท์ํ ๋ฑ ์์ญ์์ ์ด๋ป๊ฒ ์ฐ์ผ ์ ์๋์ง ๋ณด์ฌ์ค๋ค.