Aiscivision: A framework for specializing large multimodal models in scientific image classification

์ €์ž: Brian Hogan, Anmol Kabra, F. Pacheco, Laura Greenstreet, Joshua Fan, Aaron Ferber, Marta Eichemberger Ummus, Agostinho M. Brito, Olivia Graham, Lillian R. Aoki, C. Drew Harvell, Alexander S. Flecker, Carla Gomes | ๋‚ ์งœ: 2024 | DOI: arXiv:2410.21480 📄 PDF


Essence

Figure 1: AISciVision ํ”„๋ ˆ์ž„์›Œํฌ์˜ ๊ฐœ๋…๋„

Visual Retrieval-Augmented Generation(VisRAG)๊ณผ ๋„๋ฉ”์ธ ํŠนํ™” ๋„๊ตฌ๋ฅผ ๊ฒฐํ•ฉํ•˜์—ฌ ๊ณผํ•™ ์ด๋ฏธ์ง€ ๋ถ„๋ฅ˜๋ฅผ ์ˆ˜ํ–‰ํ•˜๋Š” AISciVision์˜ ์›Œํฌํ”Œ๋กœ์šฐ. ํ…Œ์ŠคํŠธ ์ด๋ฏธ์ง€์— ๋Œ€ํ•ด ์œ ์‚ฌํ•œ ๊ธ์ •/๋ถ€์ • ์˜ˆ์‹œ๋ฅผ ๊ฒ€์ƒ‰ํ•œ ํ›„, LMM ์—์ด์ „ํŠธ๊ฐ€ ์—ฌ๋Ÿฌ ๋ผ์šด๋“œ์—์„œ ๋„๊ตฌ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋ถ„์„์„ ์ •์ œํ•˜๊ณ  ์ตœ์ข… ์˜ˆ์ธก๊ณผ ์ถ”๋ก  ๊ธฐ๋ก(transcript)์„ ์ƒ์„ฑํ•œ๋‹ค.

๋Œ€๊ทœ๋ชจ ๋‹ค์ค‘๋ชจ๋‹ฌ ๋ชจ๋ธ(LMM)์„ ๊ณผํ•™ ์˜์ƒ ๋ถ„๋ฅ˜ ์ž‘์—…์— ํŠนํ™”์‹œํ‚ค๋Š” ํ”„๋ ˆ์ž„์›Œํฌ๋กœ, ์‹œ๊ฐ์  ๊ฒ€์ƒ‰ ๊ธฐ๋ฐ˜ ์ƒ์„ฑ(VisRAG)๊ณผ ๋„๋ฉ”์ธ ํŠนํ™” ๋„๊ตฌ๋ฅผ ํ™œ์šฉํ•˜์—ฌ ํ•ด์„ ๊ฐ€๋Šฅํ•˜๊ณ  ์‹ ๋ขฐํ•  ์ˆ˜ ์žˆ๋Š” AI ์‹œ์Šคํ…œ์„ ๊ตฌํ˜„ํ–ˆ๋‹ค.

Motivation

Achievement

Figure 2: ์„ธ ๊ฐ€์ง€ ๊ณผํ•™ ์ด๋ฏธ์ง€ ๋ถ„๋ฅ˜ ๋ฐ์ดํ„ฐ์…‹

์–‘์‹์žฅ(Aquaculture), ๋ณ‘๋“  ํ”ผ๊ทธ๋ž˜์Šค(Eelgrass), ํƒœ์–‘๊ด‘ ํŒจ๋„(Solar) ๊ฐ์ง€ ์ž‘์—…์˜ ์˜ˆ์‹œ ์ด๋ฏธ์ง€๋“ค

  1. ํ”„๋ ˆ์ž„์›Œํฌ ๊ฐœ๋ฐœ: VisRAG(์‹œ๊ฐ์  ๊ฒ€์ƒ‰ ๊ธฐ๋ฐ˜ ์ƒ์„ฑ)๊ณผ ๋„๋ฉ”์ธ ํŠนํ™” ๋„๊ตฌ๋ฅผ ํ†ตํ•ฉํ•œ ํ˜์‹ ์  ํ”„๋ ˆ์ž„์›Œํฌ ์ œ์•ˆ. LMM์ด ๋ฉ€ํ‹ฐ๋ผ์šด๋“œ ๋Œ€ํ™”๋ฅผ ํ†ตํ•ด ๋„๊ตฌ๋ฅผ ์„ ํƒ์ ์œผ๋กœ ํ™œ์šฉํ•˜๋ฉด์„œ ์ถ”๋ก  ๊ณผ์ •์„ ํˆฌ๋ช…ํ•˜๊ฒŒ ๊ธฐ๋กํ•œ๋‹ค.
  2. ์„ฑ๋Šฅ ์šฐ์ˆ˜์„ฑ: ์–‘์‹์žฅ ๊ฐ์ง€, ๋ณ‘๋“  ํ”ผ๊ทธ๋ž˜์Šค, ํƒœ์–‘๊ด‘ ํŒจ๋„ 3๊ฐœ ์‹ค์ œ ๊ณผํ•™ ๋ฐ์ดํ„ฐ์…‹์—์„œ ์™„์ „ ์ง€๋„ํ•™์Šต(fully supervised) ๋ชจ๋ธ ๋ฐ ์˜์ ์ƒท(zero-shot) ๋ฐฉ์‹์„ ๋Šฅ๊ฐ€ํ•˜๋ฉด์„œ ๋™์‹œ์— ์ถ”๋ก  ๊ธฐ๋ก์„ ์ƒ์„ฑํ•œ๋‹ค.
  3. ์‹ค์ œ ๋ฐฐํฌ: ์›น ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜์„ ํ†ตํ•ด ์ƒํƒœํ•™์ž๋“ค์ด ์‹ค์‹œ๊ฐ„์œผ๋กœ ์ด๋ฏธ์ง€๋ฅผ ๋ถ„๋ฅ˜ํ•˜๊ณ  ์ถ”๋ก  ๊ธฐ๋ก๊ณผ ์ƒํ˜ธ์ž‘์šฉํ•˜๋ฉฐ ํ”ผ๋“œ๋ฐฑ์„ ์ œ๊ณตํ•  ์ˆ˜ ์žˆ๋Š” ์‹ค์šด์˜ ์‹œ์Šคํ…œ ๊ตฌ์ถ•.

How

Originality

Limitation & Further Study

Evaluation

์ดํ‰: AISciVision์€ ํˆฌ๋ช…์„ฑ๊ณผ ์„ฑ๋Šฅ์„ ๊ฒฐํ•ฉํ•œ ์‹ค์šฉ์ ์ธ ๊ณผํ•™ AI ํ”„๋ ˆ์ž„์›Œํฌ๋กœ, ์‹ค์ œ ๋ฐฐํฌ๋ฅผ ํ†ตํ•ด ๊ณผํ•™ ์—ฐ๊ตฌ์— ๊ธฐ์—ฌํ•˜๋Š” ์ ์ด ๊ฐ•์ ์ด๋‹ค. ๋‹ค๋งŒ ๊ธฐ์ˆ ์  ์„ธ๋ถ€์‚ฌํ•ญ๊ณผ ๊ด‘๋ฒ”์œ„ํ•œ ํ‰๊ฐ€ ๋ถ„์„์ด ๋ณด๊ฐ•๋˜๋ฉด ๋”์šฑ ๊ฒฌ๊ณ ํ•œ ๋…ผ๋ฌธ์ด ๋  ์ˆ˜ ์žˆ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๋‹ค์ค‘๋ชจ๋‹ฌ ๋Œ€ํ˜•๋ชจ๋ธ์˜ ์ง„ํ™”์™€ ๋‹ค์–‘ํ•œ ๋ฒค์น˜๋งˆํฌ ์‚ฌ๋ก€๋ฅผ ํฌ๊ด„ํ•ด์„œ, aiscivision์˜ ๋ชจ๋ธ์  ๊ธฐ๋ฐ˜๊ณผ ์ตœ์‹  ๊ธฐ์ˆ  ํŠธ๋ Œ๋“œ๋ฅผ ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๊ณผํ•™ ์ด๋ฏธ์ง€์˜ ์ •๋ณด ์ถ”์ถœ ๋ฐ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ํŠนํ™” ๋„๊ตฌ์˜ ์‚ฌ์šฉ์ด Aiscivision์˜ ํ•ต์‹ฌ ์ „๋žต๊ณผ ์ผ์น˜ํ•ด, ์ด๋ก ์ ยท๊ธฐ์ˆ ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๊ณผํ•™์  ์ด๋ฏธ์ง€ ๋ถ„์„์„ ์œ„ํ•œ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด/์‹œ๊ฐ ๋ชจ๋ธ ํ™œ์šฉ์„ ๋‹ค๋ฅธ ๋ฐฉ๋ฒ•์œผ๋กœ ์ ‘๊ทผํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋‹ค์ค‘ ์—์ด์ „ํŠธ ๊ธฐ๋ฐ˜ LLM ํ™œ์šฉ์„ ํ†ตํ•ด ๋‹จ๋ฐฑ์งˆ ํƒ์ƒ‰ ๋ฐ ๊ตฌ์กฐ ๋ถ„์„์— ํŠนํ™”๋œ ๋ฐฉ๋ฒ•์œผ๋กœ, Aiscivision๊ณผ ๋น„๊ต ๊ฐ€๋Šฅํ•œ ๋„๊ตฌ ์‘์šฉ ์‚ฌ๋ก€์ž…๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
566์€ ํ…์ŠคํŠธ์™€ ์ฐจํŠธ๊ฐ€ ๊ฒฐํ•ฉ๋œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ •๋ณด ์ถ”์ถœ์„ ๊ฐ•์กฐํ•˜๋ฉฐ, 091์˜ LMM ๊ธฐ๋ฐ˜ ๊ณผํ•™ ์˜์ƒ ๋ถ„๋ฅ˜์™€ ์ƒํ˜ธ๋ณด์™„์  ์ ‘๊ทผ์„ ๋ณด์—ฌ์ค€๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋„๋ฉ”์ธ ํŠนํ™” ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ AI ์‹œ์Šคํ…œ ๊ตฌ์ถ•์„ ์œ ์‚ฌํ•œ ๋ชฉํ‘œ๋กœ ์ œ์•ˆํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ์˜ ์‹œ๊ฐ-์–ธ์–ด ์ดํ•ด ๋ฐ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ๊ด€๋ จ ์—ฐ๊ตฌ์ด๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
708์€ ๊ณผํ•™์  ์‹œ๊ฐ์ •๋ณด ์บก์…˜ ์ƒ์„ฑ์— ์ดˆ์ ์„ ๋งž์ถฐ 091์˜ ์˜์ƒ ๊ธฐ๋ฐ˜ ๋ถ„๋ฅ˜ ์—ฐ๊ตฌ๋ฅผ ์ƒ์‚ฐ(์ƒ์„ฑ)์  ์‘์šฉ๊ณผ ์—ฐ๊ฒฐํ•œ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ •๋ณด์ถ”์ถœ๊ณผ ๋„๊ตฌ ๊ฒฐํ•ฉ ๊ธฐ๋ฐ˜์˜ ๊ณผํ•™์˜์ƒ ๋ถ„์„ ์‚ฌ๋ก€๋ฅผ ํ†ตํ•ด aiscivision์ด ์‹ค์ œ ์ƒ๋ฌผํ•™ยท์˜ํ•™ ๋“ฑ ์˜์—ญ์—์„œ ์–ด๋–ป๊ฒŒ ์“ฐ์ผ ์ˆ˜ ์žˆ๋Š”์ง€ ๋ณด์—ฌ์ค€๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •