Sciknoweval: Evaluating multi-level scientific knowledge of large language models

์ €์ž: Kehua Feng, Xinyi Shen, Weijie Wang, Xiang Zhuang, Yuqi Tang, Qiang Zhang, Keyan Ding | ๋‚ ์งœ: 2024 | DOI: arXiv:2406.09098 📄 PDF


Essence

Figure 1

Figure 1: SciKnowEval์˜ ์ „์ฒด ๊ตฌ์กฐ. (a) 4๊ฐœ ๊ณผํ•™ ์˜์—ญ, (b) ๋‹ค์–‘ํ•œ ๋ฐ์ดํ„ฐ ์†Œ์Šค, (c) 4๊ฐ€์ง€ ์งˆ๋ฌธ ์œ ํ˜•, (d) 5๋‹จ๊ณ„ ์ง„ํ–‰์  ์ง€์‹ ์ˆ˜์ค€๋ณ„ ์˜ˆ์ œ, (e) ์˜์—ญ ๋ฐ ์ˆ˜์ค€๋ณ„ ์งˆ๋ฌธ ๋ถ„ํฌ

๋ณธ ๋…ผ๋ฌธ์€ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ(LLM)์˜ ๊ณผํ•™ ์ง€์‹์„ 5๋‹จ๊ณ„(๊ธฐ์–ต, ์ดํ•ด, ์ถ”๋ก , ํŒ๋ณ„, ์ ์šฉ)๋กœ ์ฒด๊ณ„์ ์œผ๋กœ ํ‰๊ฐ€ํ•˜๋Š” 28K ๊ทœ๋ชจ์˜ ์ข…ํ•ฉ ๋ฒค์น˜๋งˆํฌ ๋ฐ์ดํ„ฐ์…‹ SciKnowEval์„ ์ œ์•ˆํ•œ๋‹ค. ์ƒ๋ฌผํ•™, ํ™”ํ•™, ๋ฌผ๋ฆฌํ•™, ์žฌ๋ฃŒ๊ณผํ•™ 4๊ฐœ ์˜์—ญ์—์„œ LLM์˜ ๊ณผํ•™์  ์—ญ๋Ÿ‰์„ ๋‹ค์ธต์ ์œผ๋กœ ์ง„๋‹จํ•˜๊ณ  20๊ฐœ ๋ชจ๋ธ์„ ํ‰๊ฐ€ํ•˜์—ฌ ๊ฐœ์„ ์˜ ํ•„์š”์„ฑ์„ ์ œ์‹œํ•œ๋‹ค.

Motivation

Achievement

Figure 2

Figure 2: 3๊ฐ€์ง€ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ๋ฐฉ๋ฒ•. (I) ๋ฌธํ—Œ์—์„œ ์ƒˆ๋กœ์šด QA ์ƒ์„ฑ, (II) ๊ธฐ์กด QA ์žฌ๊ตฌ์„ฑ, (III) ๊ณผํ•™ ๋ฐ์ดํ„ฐ๋ฒ ์ด์Šค๋ฅผ ํ…์ŠคํŠธ ํ˜•์‹์œผ๋กœ ๋ณ€ํ™˜

  1. ํฌ๊ด„์  ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ ๊ตฌ์ถ•: 5๋‹จ๊ณ„ ์ง„ํ–‰์  ์ง€์‹ ํ‰๊ฐ€ ์ฒด๊ณ„ (L1: ๊ธฐ์–ต, L2: ์ดํ•ด, L3: ์ถ”๋ก , L4: ํŒ๋ณ„, L5: ์ ์šฉ)๋ฅผ ์ œ์•ˆํ•˜์—ฌ ์ธ๊ฐ„์˜ ํ•™์Šต ๊ณผ์ •์„ ๋ฐ˜์˜ํ•œ ๋‹ค์ธต์  ํ‰๊ฐ€ ๊ฐ€๋Šฅ
  2. ๋Œ€๊ทœ๋ชจ ๊ณ ํ’ˆ์งˆ ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์„ฑ: 28,392๊ฐœ์˜ ๋‹ค์–‘ํ•œ ๊ณผํ•™ ๋ฌธ์ œ๋ฅผ 4๊ฐœ ์˜์—ญ์—์„œ ์ˆ˜์ง‘ํ•˜๊ณ , ๊ด€๊ณ„ ์ถ”์ถœ, ๊ฐ๊ด€์‹, ์ฃผ๊ด€์‹, ์ฐธ/๊ฑฐ์ง“ ์งˆ๋ฌธ ๋“ฑ 4๊ฐ€์ง€ ํ˜•์‹์œผ๋กœ ๊ตฌ์„ฑ (L1: 37.15%, L2: 34.22%, L3: 7.43%, L4: 14.39%, L5: 6.81%)
  3. ๊ด‘๋ฒ”์œ„ํ•œ ๋ชจ๋ธ ํ‰๊ฐ€ ๋ฐ ์ˆœ์œ„ํ™”: 7๊ฐœ ์ƒ์šฉ LLM, 8๊ฐœ ์˜คํ”ˆ์†Œ์Šค ๋ฒ”์šฉ LLM, 5๊ฐœ ๊ณผํ•™ ํŠนํ™” LLM ์ด 20๊ฐœ ๋ชจ๋ธ์„ ํ‰๊ฐ€ํ•˜์—ฌ ๊ฐ ๋ชจ๋ธ์˜ ๊ฐ•์ ๊ณผ ์•ฝ์  ๋ถ„์„
  4. ๊ณผํ•™ ์œค๋ฆฌ ๋ฐ ์•ˆ์ „์„ฑ ํ‰๊ฐ€ ๊ฐ•ํ™”: L4 ํŒ๋ณ„ ๋‹จ๊ณ„์—์„œ ์œ ํ•ด๋ฌผ์งˆ ํ•ฉ์„ฑ, ์•ฝ๋ฌผ ์ƒํ˜ธ์ž‘์šฉ ๋“ฑ ๊ณผํ•™ ๊ด€๋ จ ์•ˆ์ „ ๋ฌธ์ œ๋ฅผ ๋ช…์‹œ์ ์œผ๋กœ ํ‰๊ฐ€

How

Originality

Limitation & Further Study

Evaluation

Novelty: 4.5/5 Technical Soundness: 4/5 Significance: 4.5/5 Clarity: 4/5 Overall: 4.25/5

์ดํ‰: SciKnowEval์€ ๊ธฐ์กด ๋ฒค์น˜๋งˆํฌ์˜ ํ•œ๊ณ„๋ฅผ ๋ช…ํ™•ํžˆ ์ธ์‹ํ•˜๊ณ  ์ฒ ํ•™์  ๊ธฐ์ดˆ๋ฅผ ๊ฐ–์ถ˜ ์ฒด๊ณ„์ ์ธ 5๋‹จ๊ณ„ ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์‹œํ•˜๋ฉฐ, 28K ๊ทœ๋ชจ์˜ ๋‹ค์–‘ํ•œ ๊ณ ํ’ˆ์งˆ ๋ฐ์ดํ„ฐ์…‹์„ ๊ตฌ์ถ•ํ•˜์—ฌ ๊ณผํ•™ LLM ํ‰๊ฐ€์˜ ์ƒˆ๋กœ์šด ํ‘œ์ค€์„ ์ œ์•ˆํ•œ๋‹ค๋Š” ์ ์—์„œ ์˜์˜๊ฐ€ ํฌ๋‹ค. ํŠนํžˆ ๊ณผํ•™ ์œค๋ฆฌ์™€ ์•ˆ์ „์„ฑ ํ‰๊ฐ€๋ฅผ ๋ช…์‹œ์ ์œผ๋กœ ํฌํ•จํ•œ ์ ์ด ์‹ค์šฉ์  ๊ฐ€์น˜๋ฅผ ๋†’์ธ๋‹ค. ๋‹ค๋งŒ ์ž๋™ ์ƒ์„ฑ ๋ฐ์ดํ„ฐ์˜ ๊ฒ€์ฆ ๋น„์œจ ๋ช…์‹œ, ๊ณ ๋‚œ๋„ ๋ฌธ์ œ ๋น„์œจ ํ™•์ถฉ, ์ฃผ๊ด€์‹ ํ‰๊ฐ€์˜ ์ •์„ฑ์  ๋ฉ”ํŠธ๋ฆญ ๊ฐ•ํ™”๊ฐ€ ํ•„์š”ํ•˜๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Galactica ๋…ผ๋ฌธ์€ ๊ณผํ•™์  LLM์˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ง€์‹ ์ €์žฅ๊ณผ ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ๊ณตํ•˜์—ฌ Sciknoweval์˜ ๋ฌธ์ œ์˜์‹์— ์ด๋ก ์  ๊ธฐ๋ฐ˜์„ ์ œ์‹œํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
From AI for Science to Agentic Science ๋…ผ๋ฌธ์€ ๊ณผํ•™ AI ์‹œ์Šคํ…œ๊ณผ ๊ทธ ํ‰๊ฐ€์— ๋Œ€ํ•œ ๊ด‘๋ฒ”์œ„ํ•œ ์„œ๋ฒ ์ด๋ฅผ ์ œ๊ณตํ•ด, Sciknoweval์˜ ๋ฒค์น˜๋งˆํฌ ๊ตฌ์ถ• ๋ฌธ์ œ์— ํ†ต์ฐฐ์„ ์ค€๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๊ณผํ•™ ์—ฐ๊ตฌ๋ฅผ ์œ„ํ•œ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ์˜ ๋‹ค๋ฅธ ์„ค๊ณ„ ๋ฐ ํ›ˆ๋ จ ๋ฐฉ๋ฒ•์„ ์ œ์‹œํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
SciFIBench์™€ ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ LLM์˜ ๊ณผํ•™์  ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌยท๋‹ค์ค‘์ˆ˜์ค€ ์ดํ•ด๋ ฅ ํ‰๊ฐ€ ๋ฐ ๋ฒค์น˜๋งˆํ‚น ๊ด€์ ์—์„œ ๋น„๊ต๋œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๊ณผํ•™ ๋ฌธ์„œ์˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ดํ•ด ๋ฐ ๊ฒ€์ฆ์— ๋Œ€ํ•œ ๋Œ€์•ˆ์  ์ ‘๊ทผ๋ฒ•์„ ์ œ์‹œํ•˜๋Š” ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๊ธฐ์ดˆ ๋ชจ๋ธ์„ ๊ณผํ•™ ๋ฐœ๊ฒฌ์— ํ™œ์šฉํ•˜๋Š” ๋‹ค๋ฅธ ๋ฐฉ๋ฒ•๋ก ์  ์ ‘๊ทผ์„ ์ œ์‹œํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
BioProBench๋Š” ์ƒ๋ฌผํ•™ ํ”„๋กœํ† ์ฝœ์—์„œ์˜ LLM ์ ˆ์ฐจ์  ์ถ”๋ก  ํ‰๊ฐ€๋ฅผ ๋‹ค๋ฃจ๋ฏ€๋กœ, Sciknoweval์˜ ๋‹ค์–‘ํ•œ ๊ณผํ•™ ์˜์—ญ ๋ฒค์น˜๋งˆํฌ์™€ ์ƒํ˜ธ ๋ณด์™„์ ์œผ๋กœ ์ฐธ๊ณ ํ•  ์ˆ˜ ์žˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Scicueval์€ ๋‹ค์–‘ํ•œ ๊ณผํ•™์  ์‹ฌ์ธต ์งˆ๋ฌธ๊ณผ ํ‰๊ฐ€ ์ง€ํ‘œ๋ฅผ ํ™œ์šฉํ•ด SciKnowEval์ด ์ œ์‹œํ•œ ๋‹ค์ธต LLM ์ง€์‹ ์ง„๋‹จ๊ณผ ๋น„๊ตํ•  ๋…ผ๋ฌธ์ž…๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ƒ๋ฌผํ•™์  ์ง€์‹ ์ถ”๋ก ์„ ์œ„ํ•œ LLM ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•๋ก ๊ณผ ๊ทธ ํ‰๊ฐ€๋ฅผ ๋‹ค๋ฃจ๋Š” ๊ด€๋ จ ๋…ผ๋ฌธ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
ScienceAgentBench๋Š” LLM ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ์˜ ๊ณผํ•™ ๋ฌธ์ œ ํ•ด๊ฒฐ๋ ฅ(๋‹ค์ˆ˜ ๋‹จ๊ณ„ ์ถ”๋ก  ํฌํ•จ)์— ์ง‘์ค‘ํ•˜์—ฌ, ๊ณ„์ธต์  ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ์˜ ํ™•์žฅ์  ๋ถ„์„ ํ‹€์„ ์ค€๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๊ณผํ•™์  ๋ฐœ๊ฒฌ์„ ์œ„ํ•œ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ์˜ ํ™œ์šฉ์„ ๋‹ค๋ฃจ๋Š” ๊ด€๋ จ ์„œ๋ฒ ์ด์ด๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Towards Scientific Intelligence๋Š” ๋‹ค์–‘ํ•˜๊ณ  ์‹ฌ์ธต์ ์ธ ๊ณผํ•™ LLM ์ง€์‹ ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•˜์—ฌ SciKnowEval์˜ ๋Œ€๊ทœ๋ชจ ๋‹ค๋‹จ๊ณ„ ์ง„๋‹จ์˜ ๋ฐœ์ „ ๋ฐฉํ–ฅ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
Automating exploratory proteomics research via language models ๋…ผ๋ฌธ์€ SciKnowEval๊ฐ™์€ ๋ฒค์น˜๋งˆํฌ ์ƒ์—์„œ LLM ๋ชจ๋ธ์˜ ์‹ค์ œ ์ƒ๋ช…๊ณผํ•™/๋‹จ๋ฐฑ์งˆ ์˜์—ญ ์ง€์› ๊ฐ€๋Šฅ์„ฑ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
๊ณผํ•™์  ์ง€์‹ ํ‰๊ฐ€ ๋ฐ ๋ฉ€ํ‹ฐ๋ ˆ๋ฒจ ํ…Œ์ŠคํŠธ๋ฅผ ํ†ตํ•ด ์‹ค์ œ ๊ณผํ•™ ๋ฐœ๊ฒฌ ๋ฌธ์ œ๋กœ ๋ฒค์น˜๋งˆํฌ ๊ตฌ์„ฑ์„ ํ™•์žฅํ•œ ์‚ฌ๋ก€๋ฅผ ์ฐธ๊ณ ํ•  ์ˆ˜ ์žˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •