SciFIBench: Benchmarking Large Multimodal Models for Scientific Figure Interpretation

์ €์ž: Jonathan C. Roberts, Kai Han, Neil Houlsby, Samuel Albanie | ๋‚ ์งœ: 2024 | DOI: N/A 📄 PDF


Essence

๋Œ€๊ทœ๋ชจ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ชจ๋ธ(LMM)์˜ ๊ณผํ•™ ๋…ผ๋ฌธ ๊ทธ๋ฆผ ํ•ด์„ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•œ ๋ฒค์น˜๋งˆํฌ SciFIBench๋ฅผ ์ œ์‹œํ•˜๋ฉฐ, 2000๊ฐœ์˜ ๊ณ ํ’ˆ์งˆ ๋ฌธ์ œ์™€ 28๊ฐœ ๋ชจ๋ธ์˜ ์ข…ํ•ฉ ํ‰๊ฐ€๋ฅผ ํ†ตํ•ด ํ˜„์žฌ LMM์˜ ๊ณผํ•™ ๋ถ„์•ผ ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ์„ ์ฒด๊ณ„์ ์œผ๋กœ ๊ฒ€์ฆํ•œ ์—ฐ๊ตฌ์ด๋‹ค.

Motivation

Achievement

Figure 1: SciFIBench ๊ฐœ์š”. ์™ผ์ชฝ: arXiv ๋…ผ๋ฌธ์—์„œ ์ถ”์ถœํ•œ 2000๊ฐœ์˜ ๋‹ค์ค‘์„ ํƒํ˜• ๊ณผํ•™ ๊ทธ๋ฆผ ํ•ด์„ ๋ฌธ์ œ. ์˜ค๋ฅธ์ชฝ: 28๊ฐœ LMM ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ
  1. ๋ฒค์น˜๋งˆํฌ ๊ตฌ์ถ•: arXiv์—์„œ ์ถ”์ถœํ•œ 94k(CS) + 102k(์ผ๋ฐ˜) ๊ทธ๋ฆผ-์บก์…˜ ์Œ์œผ๋กœ๋ถ€ํ„ฐ 8๊ฐœ ๋ฒ”์ฃผ์˜ 2000๊ฐœ ๊ณ ํ’ˆ์งˆ ๋ฌธ์ œ ์ƒ์„ฑ. ๋ชจ๋“  ๋ฌธ์ œ์— ๋Œ€ํ•ด ์ธ๊ฐ„ ๊ฒ€์ฆ ์ˆ˜ํ–‰ํ•˜์—ฌ ์‘๋‹ต ๊ฐ€๋Šฅ์„ฑ ๋ณด์žฅ
  2. ํฌ๊ด„์  ํ‰๊ฐ€: GPT-4o, Gemini 1.5๋ฅผ ํฌํ•จํ•œ 28๊ฐœ LMM ํ‰๊ฐ€๋กœ ํ˜„์žฌ ์ตœ๊ณ  ์„ฑ๋Šฅ ๋ชจ๋ธ๋„ ์ธ๊ฐ„ ๊ธฐ์ค€์„ ์— ๋ฏธ์น˜์ง€ ๋ชปํ•จ์„ ํ™•์ธ. ์ ๋Œ€์  ํ•„ํ„ฐ๋ง์ด ๋ฌธ์ œ ๋‚œ์ด๋„ ์œ ์˜๋ฏธํ•˜๊ฒŒ ์ฆ๊ฐ€
  3. ์ถฉ์‹ค์„ฑ ๋ถ„์„: LLM(Gemini-Pro)์„ ํ™œ์šฉํ•œ ์ž๋™ ํ‰๊ฐ€ ๋ฐฉ๋ฒ• ๊ฐœ๋ฐœ ๋ฐ ๋ชจ๋ธ์˜ ์ถ”๋ก  ์ผ๊ด€์„ฑ(reasoning faithfulness) ํ”„๋กœ๋น™ ์‹ค์‹œ

How

Figure 2: SciFIBench ๋ฌธ์ œ์˜ ๊ทธ๋ฆผ ํฌ๊ธฐ ๋ฐ ์บก์…˜ ๊ธธ์ด ๋ถ„ํฌ

๋ฌธ์ œ ๊ตฌ์„ฑ ๋ฐฉ๋ฒ•๋ก :

์ž‘์—… ์ •์˜:

Originality

Limitation & Further Study

Evaluation

์ดํ‰: SciFIBench๋Š” ๊ณผํ•™ ๋ถ„์•ผ์˜ LMM ๋Šฅ๋ ฅ ํ‰๊ฐ€์— ํ•„์ˆ˜์ ์ธ ๋ฒค์น˜๋งˆํฌ๋กœ์„œ, ์ฒด๊ณ„์ ์ธ ๋ฌธ์ œ ๊ตฌ์„ฑ ๋ฐฉ๋ฒ•๋ก ๊ณผ ํฌ๊ด„์  ํ‰๊ฐ€๋ฅผ ํ†ตํ•ด ํ˜„์žฌ ๋ชจ๋ธ์˜ ํ•œ๊ณ„๋ฅผ ๋ช…ํ™•ํžˆ ๋“œ๋Ÿฌ๋‚ธ๋‹ค. ๊ณต๊ฐœ ๋ฆด๋ฆฌ์Šค์™€ ๋‹ค์–‘ํ•œ ๋ถ„์„์„ ํ†ตํ•ด ํ•™๊ณ„์˜ ์ค‘์š”ํ•œ ๊ธฐ์—ฌ์ด๋‚˜, ๋„๋ฉ”์ธ ํ™•๋Œ€ ๋ฐ ํ‰๊ฐ€ ๋ฐฉ์‹์˜ ์ถ”๊ฐ€ ๊ฒ€์ฆ์ด ํ–ฅํ›„ ๊ณผ์ œ์ด๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Scidqa ๋ฒค์น˜๋งˆํฌ๊ฐ€ ๋‹ค์ค‘ ๋ฌธ์„œยท๋ณต์žกํ•œ ๊ณผํ•™ ํ…์ŠคํŠธ ์ดํ•ด๋ฅผ ๋‹ค๋ฃฌ๋‹ค๋ฉด, SciFIBench๋Š” ์ด๋ฅผ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๊ทธ๋ฆผ ์˜์—ญ๊นŒ์ง€ ํ™•์žฅํ•˜์—ฌ ์—ฐ๊ฒฐ๋œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
323์˜ Figure Integrity Verification ๋ฐ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ figure-caption ์ •ํ•ฉ ๋ฐ์ดํ„ฐ๋Š” SciFIBench์˜ figure QA ๋ฒค์น˜๋งˆํฌ ๊ฐœ๋ฐœ์— ํ•„์ˆ˜์  ๊ธฐ๋ฐ˜์ด ๋œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
S1-MMAlign์˜ ๋Œ€๊ทœ๋ชจ ์ด๋ฏธ์ง€-ํ…์ŠคํŠธ ์ •๋ ฌ ๋ฐ์ดํ„ฐ์…‹์€ SciFIBench ๋ฒค์น˜๋งˆํฌ์˜ ์งˆ ๋†’์€ ์‹œ๊ฐ ์ž๋ฃŒ ์ œ๊ณต์— ๊ธฐ๋ณธ์  ์—ญํ• ์„ ํ•˜์˜€์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Sciknoweval ๋˜ํ•œ LLM์˜ ๊ณผํ•™์  ์ง€์‹์„ ๋‹ค์ค‘์ฐจ์›(๊ธฐ์–ต, ์ดํ•ด, ์ถ”๋ก  ๋“ฑ)์—์„œ ์ข…ํ•ฉ์ ์œผ๋กœ ํ‰๊ฐ€ํ•˜๋Š” ๋ฒค์น˜๋งˆํฌ๋กœ ๊ด€๋ จ์„ฑ์ด ํฌ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
SciFIBench๋Š” ๊ณผํ•™ ์ฐจํŠธ๋ฅผ ํฌํ•จํ•œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ชจ๋ธ ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ์‹œํ•˜์—ฌ ์ฐจํŠธ ์ดํ•ด ๋ถ„์•ผ์˜ ๋‹ค๋ฅธ ํ‰๊ฐ€ ๊ธฐ์ค€์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
SciFIBench๋Š” ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ LLM์˜ ๊ณผํ•™ ๋…ผ๋ฌธ ๊ทธ๋ฆผ ํ•ด์„ ๋ฒค์น˜๋งˆํฌ๋กœ, PaSa์˜ ๋…ผ๋ฌธ ๊ฒ€์ƒ‰ Q&A ์„ฑ๋Šฅ๊ณผ ํฌ๋กœ์Šค๋ชจ๋‹ฌ ๊ฒฐํ•ฉ ํ‰๊ฐ€๊ฐ€ ๊ฐ€๋Šฅํ•˜๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
737์ด CoT, ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ง€์‹ ๋ฌธ์ œ ์ค‘์‹ฌ ๋ฒค์น˜๋งˆํฌ๋ผ๋ฉด 722๋Š” ๋‹ค์–‘ํ•œ large vision-language model(LVLM) ๊ณผํ•™ ๋ฒค์น˜๋งˆํฌ์— ์ดˆ์ ์„ ๋งž์ถ”์–ด ๋น„๊ต์  ๋‹ค๋ฅธ ํ‰๊ฐ€์ถ•์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
722 ๋…ผ๋ฌธ์€ ๊ณผํ•™์  ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ถ”๋ก  ๋ฐ ์„ธ๊ณ„ ๋ชจ๋ธ๋ง์„ ๋‹ค๋ฅธ ๋ฐ์ดํ„ฐ์…‹๊ณผ ๋„๋ฉ”์ธ์—์„œ ํ‰๊ฐ€ํ•˜์—ฌ, LLM ๊ธฐ๋ฐ˜ ์‹ฌ๋ณผ๋ฆญ ๋ชจ๋ธ๋ง ํ•œ๊ณ„์™€ ์ž ์žฌ๋ ฅ ๋น„๊ต์— ๋„์›€์„ ์ค๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋ฐฉ๋Œ€ํ•œ ํ™˜๊ฒฝ๊ณผํ•™(๊ธฐํ›„, ์˜จ์‹ค ๋“ฑ) ์˜์—ญ์—์„œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ๋ฒค์น˜๋งˆํฌํ•˜๋ฉฐ, PINN ๊ธฐ๋ฐ˜ ์˜จ์‹ค ๋ฌธ์ œ ํ•ด๊ฒฐ๊ณผ ์ฐจ๋ณ„ํ™”๋ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
722 ๋…ผ๋ฌธ์€ ๊ณผํ•™์  ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์งˆ์˜์‘๋‹ต ๋ฒค์น˜๋งˆํฌ๋ฅผ ๊ตฌ์ถ•ํ•˜์—ฌ 730์˜ ํ…์ŠคํŠธ ๊ธฐ๋ฐ˜ ๊ณผํ•™ QA ์ƒ์„ฑ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์˜์—ญ๊นŒ์ง€ ํ™•์žฅํ•œ ์‚ฌ๋ก€์ž…๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
SciFIBench ์—ญ์‹œ ๋…ผ๋ฌธ ๋‚ด ๊ทธ๋ฆผยท๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ •๋ณด ํ•ด์„ ํ‰๊ฐ€๋ฅผ ํ†ตํ•ด, ํ…์ŠคํŠธ QA๋ฅผ ๋„˜์–ด์„  ๊ณผํ•™์  ๋ฌธํ—Œ ์ดํ•ด๋ ฅ ์ธก์ •์„ ํ™•์žฅํ•œ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
Gemma 2์™€ ๊ฐ™์ด ๊ฒฝ๋Ÿ‰ ์˜คํ”ˆ LLM์˜ ๋ฒค์น˜๋งˆํ‚น ๋Œ€์ƒ ๋ชจ๋ธ์ด ์‹ค์ œ SciFIBench ๋ฐ์ดํ„ฐ์…‹์—์„œ ํ‰๊ฐ€๋œ ์‚ฌ๋ก€์˜ ํ•˜๋‚˜๋กœ ์ฐธ๊ณ ํ•  ๋งŒํ•˜๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
SciFIBench ๋…ผ๋ฌธ์€ S1-MMAlign์˜ ์ด๋ฏธ์ง€-ํ…์ŠคํŠธ ์Œ์„ ์‹ค์ œ ๋Œ€๊ทœ๋ชจ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๊ณผํ•™ ๊ทธ๋ฆผ ๊ธฐ๋ฐ˜ QA ๋ฒค์น˜๋งˆํ‚น์— ํ™œ์šฉํ•˜๋Š” ์ ์šฉ ์‚ฌ๋ก€์ž…๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •