Sciverse: Unveiling the knowledge comprehension and visual reasoning of lmms on multi-modal scientific problems

์ €์ž: Z. J. Guo, Renrui Zhang, Hao Chen, Jialin Gao, Dongzhi Jiang, Jiaze Wang, Phengโ€Ann Heng | ๋‚ ์งœ: 2025 | DOI: ๋ฏธ์ œ๊ณต 📄 PDF


Essence

Figure 1

Figure 1: 5๊ฐ€์ง€ ๋ฌธ์ œ ๋ฒ„์ „๊ณผ ๊ณผํ•™์  CoT ํ‰๊ฐ€ ์ „๋žต์˜ ๊ฐœ์š”. ์ง€์‹ ์ˆ˜์ค€์„ ๋‹ฌ๋ฆฌํ•˜๋Š” 3๊ฐ€์ง€ ๋ฒ„์ „๊ณผ ์‹œ๊ฐ ์ •๋ณด ๋น„์ค‘์„ ๋‹ฌ๋ฆฌํ•˜๋Š” 2๊ฐ€์ง€ ๋ฒ„์ „, ๊ทธ๋ฆฌ๊ณ  ๋‹จ๊ณ„๋ณ„ ํ‰๊ฐ€ ์ „๋žต์„ ์ œ์‹œ.

SCIVERSE๋Š” ๋Œ€๊ทœ๋ชจ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ชจ๋ธ(LMM)์˜ ๊ณผํ•™ ๋ฌธ์ œ ํ•ด๊ฒฐ ๋Šฅ๋ ฅ์„ ์„ธ๋ฐ€ํ•˜๊ฒŒ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•œ ๋ฒค์น˜๋งˆํฌ๋กœ, 1,147๊ฐœ ๋ฌธ์ œ๋ฅผ 5๊ฐ€์ง€ ๋ฒ„์ „์œผ๋กœ ๋ณ€ํ™˜ํ•œ 5,735๊ฐœ ํ…Œ์ŠคํŠธ ์ธ์Šคํ„ด์Šค๋ฅผ ์ œ๊ณตํ•˜๋ฉฐ, ๊ณผํ•™ ์ง€์‹ ์ดํ•ด, ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ฝ˜ํ…์ธ  ํ•ด์„, ์—ฐ์‡„์  ์‚ฌ๊ณ (CoT) ์ถ”๋ก ์ด๋ผ๋Š” ์„ธ ๊ฐ€์ง€ ํ•ต์‹ฌ ์ฐจ์›์„ ์ฒด๊ณ„์ ์œผ๋กœ ํ‰๊ฐ€ํ•œ๋‹ค.

Motivation

Achievement

Figure 2

Figure 2: SCIVERSE์˜ ์ฃผ์ œ ๋ถ„ํฌ. ๋ฌผ๋ฆฌํ•™ 2,010๊ฐœ(35.0%), ํ™”ํ•™ 1,880๊ฐœ(32.2%), ์ƒ๋ฌผํ•™ 1,845๊ฐœ(32.8%).

  1. ํฌ๊ด„์  ๋ฒค์น˜๋งˆํฌ ๊ตฌ์ถ•: 1,147๊ฐœ์˜ ๊ณ ํ’ˆ์งˆ ๊ณผํ•™ ๋ฌธ์ œ๋ฅผ 5๊ฐ€์ง€ ๋ฒ„์ „์œผ๋กœ ๋ณ€ํ™˜ํ•˜์—ฌ 5,735๊ฐœ์˜ ํ‰๊ฐ€ ์ธ์Šคํ„ด์Šค๋ฅผ ํฌํ•จํ•˜๋Š” SCIVERSE ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ•. ๋ฌผ๋ฆฌ, ํ™”ํ•™, ์ƒ๋ฌผํ•™ 3๊ฐœ ์ฃผ์š” ํ•™๋ฌธ์„ 21๊ฐœ ์„ธ๋ถ€ ์ฃผ์ œ๋กœ ๊ตฌ๋ถ„ํ•˜๊ณ  ๊ณ ๋“ฑํ•™๊ต๋ถ€ํ„ฐ ๋Œ€ํ•™ ์ˆ˜์ค€๊นŒ์ง€ ๋‹ค์–‘ํ•œ ๋‚œ์ด๋„ ํฌํ•จ.
  2. ์„ธ๋ฐ€ํ•œ ํ‰๊ฐ€ ํ‹€: ๊ณผํ•™ ๋ฌธ์ œ ํ•ด๊ฒฐ์˜ ์„ธ ๊ฐ€์ง€ ์ฐจ์›์„ ๊ฐ๊ฐ ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ๋Š” ๋‹ค์ธต ๊ตฌ์กฐ ์ œ์‹œ:
    • ์ง€์‹ ์ดํ•ด: Knowledge-free โ†’ Knowledge-lite โ†’ Knowledge-rich๋กœ ์ ์ง„์  ์ง€์‹ ์ œ๊ณต์„ ํ†ตํ•ด ์ง€์‹ ๋ถ€์กฑ์˜ ์˜ํ–ฅ ์ธก์ •
    • ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ํ•ด์„: Vision-rich โ†’ Vision-only๋กœ ํ…์ŠคํŠธ์—์„œ ์‹œ๊ฐ ์ •๋ณด๋กœ์˜ ์ ์ง„์  ์ „ํ™˜์„ ํ†ตํ•ด OCR ๋ฐ ์‹œ๊ฐ ์ธ์‹ ๋Šฅ๋ ฅ ํ‰๊ฐ€
    • CoT ํ‰๊ฐ€: ๋‹จ์ˆœ ์ •๋‹ต ์—ฌ๋ถ€๊ฐ€ ์•„๋‹Œ ๋‹จ๊ณ„๋ณ„ ์ง€์‹ ์˜ค๋ฅ˜์™€ ๋…ผ๋ฆฌ ์˜ค๋ฅ˜๋ฅผ ๋ถ„๋ฆฌํ•˜์—ฌ ํ‰๊ฐ€
  3. ๊ด‘๋ฒ”์œ„ํ•œ ์‹ค์ฆ ๋ถ„์„: GPT-4o, Claude, Gemini, LLaVA, Qwen-VL ๋“ฑ ๋‹ค์–‘ํ•œ ํ์‡„ํ˜• ๋ฐ ๊ฐœ๋ฐฉํ˜• LMM ํ‰๊ฐ€๋ฅผ ํ†ตํ•ด ํ˜„์žฌ ๋ชจ๋ธ๋“ค์˜ ๊ณผํ•™ ๋ถ„์•ผ ํ•œ๊ณ„๋ฅผ ๋“œ๋Ÿฌ๋ƒ„:
    • ํ์‡„ํ˜• ๋ชจ๋ธ์ด ๊ฐœ๋ฐฉํ˜• ๋ชจ๋ธ๋ณด๋‹ค ์ง€์‹ ์ดํ•ด์™€ ์‹œ๊ฐ ์ธ์‹์—์„œ ์šฐ์ˆ˜
    • ๋ชจ๋“  ๋ชจ๋ธ์ด Vision-only ๋ฌธ์ œ์—์„œ ์‹ฌ๊ฐํ•˜๊ฒŒ ์„ฑ๋Šฅ ์ €ํ•˜ (์‹ค์ œ ์ƒํ™ฉ์— ๊ฐ€๊นŒ์šด ๊ณผ์ œ)
    • ํ์‡„ํ˜• ๋ชจ๋ธ์ด ๊ฐœ๋ฐฉํ˜• ๋ชจ๋ธ๋ณด๋‹ค ๋†’์€ ํ’ˆ์งˆ์˜ CoT ์ถ”๋ก  ๋‹จ๊ณ„ ์ƒ์„ฑ

How

Figure 1

Figure 1 (ํ•˜๋‹จ): ๊ณผํ•™์  CoT ํ‰๊ฐ€ ์ „๋žต. ๋‹จ๊ณ„๋ณ„ ๋ถ„๋ฅ˜, ์ง€์‹ ๋ฐ ๋…ผ๋ฆฌ ์ ์ˆ˜ ์‚ฐ์ถœ.

๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ๋ฐ ๋ณ€ํ™˜

5๊ฐ€์ง€ ๋ฌธ์ œ ๋ฒ„์ „ ์„ค๊ณ„

๊ณผํ•™ ์ง€์‹ ์ดํ•ด ํ‰๊ฐ€:

๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ฝ˜ํ…์ธ  ํ•ด์„ ํ‰๊ฐ€:

๊ณผํ•™์  CoT ํ‰๊ฐ€ ์ „๋žต

Originality

Limitation & Further Study

Evaluation

์ดํ‰: SCIVERSE๋Š” ๊ณผํ•™ ๋ฌธ์ œ ํ•ด๊ฒฐ์—์„œ LMM์˜ ์ง€์‹ ์ดํ•ด, ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ํ•ด์„, ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ์ฒด๊ณ„์ ์œผ๋กœ ๋ถ„์„ํ•  ์ˆ˜ ์žˆ๋Š” ์ž˜ ์„ค๊ณ„๋œ ๋ฒค์น˜๋งˆํฌ๋กœ, ํŠนํžˆ ํ˜„์‹ค์ ์ธ Vision-only ์‹œ๋‚˜๋ฆฌ์˜ค์™€ ๋‹จ๊ณ„๋ณ„ ์˜ค๋ฅ˜ ๋ถ„์„์ด ๊ฐ•์ ์ด์ง€๋งŒ, ํ‰๊ฐ€ ๋„๊ตฌ ์˜์กด์„ฑ๊ณผ ๋ฐ์ดํ„ฐ ๊ทœ๋ชจ ์ธก๋ฉด์—์„œ ๊ฐœ์„ ์˜ ์—ฌ์ง€๊ฐ€ ์žˆ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Gemini: a family of highly capable multimodal models ๋…ผ๋ฌธ์€ ๋Œ€๊ทœ๋ชจ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ชจ๋ธ์˜ ํ‰๊ฐ€ ํ‘œ์ค€๊ณผ ํŠธ๋ Œ๋“œ๋ฅผ ์‹ฌ๋„์žˆ๊ฒŒ ๋…ผ์˜ํ•˜์—ฌ, Sciverse ๋ฒค์น˜๋งˆํฌ ์„ค๊ณ„ ๋…ผ์˜์˜ ๊ธฐ์ดˆ์  ๋งฅ๋ฝ์ด๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
737์˜ Sciverse ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ LLM ๋ฒค์น˜๋งˆํฌ ๊ตฌ์ถ•์€ 552์˜ MMSCI ๋Œ€๊ทœ๋ชจ ๊ณผํ•™์ด๋ฏธ์ง€-ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ์…‹์— ๊ทธ ๊ทผ๊ฐ„์„ ๋‘๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ธ์ปจํ…์ŠคํŠธ ํ•™์Šต์˜ ์ด๋ก ์  ๋ถ„์„์ด SCIVERSE ๋ฒค์น˜๋งˆํฌ์˜ ํ‰๊ฐ€ ์ง€ํ‘œ ์„ค๊ณ„์™€ ์ง๊ฒฐ๋ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
737์ด CoT, ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ง€์‹ ๋ฌธ์ œ ์ค‘์‹ฌ ๋ฒค์น˜๋งˆํฌ๋ผ๋ฉด 722๋Š” ๋‹ค์–‘ํ•œ large vision-language model(LVLM) ๊ณผํ•™ ๋ฒค์น˜๋งˆํฌ์— ์ดˆ์ ์„ ๋งž์ถ”์–ด ๋น„๊ต์  ๋‹ค๋ฅธ ํ‰๊ฐ€์ถ•์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
552์˜ ๋Œ€ํ•™์› ์ˆ˜์ค€ ๊ณผํ•™ ์‹œ๊ฐํ™” ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ฐ์ดํ„ฐ์…‹(MMSCI)์„, 737์—์„œ ๋‹ค์–‘ํ•œ LMM/LLM ๋ฒค์น˜๋งˆํฌ์™€ ์—ฐ๊ณ„ํ•˜์—ฌ ์‹ค์ œ ํ‰๊ฐ€ ์‚ฌ๋ก€๋กœ ๋ฐœ์ „์‹œํ‚ต๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
SCIVERSE๊ฐ€ ํ‰๊ฐ€ํ•˜๋Š” ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ฒด์ธ์˜ค๋ธŒ์”ฝํฌ ์ถ”๋ก ์˜ ๋ณธ์งˆ์  ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ '์‹œ๊ฐ์  ์‚ฌ๊ณ ' ๊ด€์ ์œผ๋กœ ์ถ”๊ฐ€ ๋ถ„์„ํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
737์˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๊ณผํ•™ ๋ฌธ์ œ ํ•ด๊ฒฐ๋Šฅ๋ ฅ ๋ฒค์น˜๋งˆํ‚น์€ 055์˜ Gemini ๋“ฑ ์ฒจ๋‹จ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ชจ๋ธ์„ ์‹ค์ œ ์˜๋ฃŒ ๋ถ„์•ผ์— ์ ์šฉํ•˜๋Š” ์‹ค์ฆ์—ฐ๊ตฌ์™€ ์ƒํ˜ธ๋ณด์™„์ ์ž…๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
์‹œ๊ฐ์  ์‚ฌ๊ณ  ๋ฉ”์ปค๋‹ˆ์ฆ˜ ๋ถ„์„์ด ์‹ค์ œ SCIVERSE ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ LLM ํ‰๊ฐ€ ๋ฒค์น˜๋งˆํฌ์˜ ์„ธ๋ถ€ ๋ฉ”ํŠธ๋ฆญ ํ•ด์„์— ํ™œ์šฉ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
ํ…Œ์ด๋ธ” ๊ธฐ๋ฐ˜ ๋ฌธ์ œ ํ•ด๊ฒฐ ๋Šฅ๋ ฅ ํ–ฅ์ƒ์ด ์‹ค์ œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๊ณผํ•™ ๋ฒค์น˜๋งˆํฌ(SCIVERSE) ํ‰๊ฐ€ ํ•ญ๋ชฉ๊ณผ ์—ฐ๊ฒฐ๋ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
๊ณผํ•™ ์—ฐ๊ตฌ ์ž๋™ํ™” ๊ณผ์ •์—์„œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ LLM ํ‰๊ฐ€ ๋ฒค์น˜๋งˆํฌ๋กœ ์‹ค์ œ ์ ์šฉ ๋ฐฉ์•ˆ์„ ๋ชจ์ƒ‰ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •