Scicueval: A comprehensive dataset for evaluating scientific context understanding in large language models

์ €์ž: Jing Yu, Yuqi Tang, Kehua Feng, Lei Liang, Qiang Zhang, Keyan Ding, Huajun Chen | ๋‚ ์งœ: 2025 | DOI: 10.48550/arXiv.2505.15094 📄 PDF


Essence

Figure 1: Overview of the SciCUEval dataset

SciCUEval์€ 5๊ฐœ ๊ณผํ•™ ๋„๋ฉ”์ธ, 3๊ฐ€์ง€ ๋ฐ์ดํ„ฐ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ, 4๊ฐ€์ง€ ์งˆ๋ฌธ ์œ ํ˜•์„ ํฌํ•จํ•˜๋Š” ํฌ๊ด„์  ๋ฒค์น˜๋งˆํฌ

๋ณธ ๋…ผ๋ฌธ์€ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ(LLM)์˜ ๊ณผํ•™์  ๋งฅ๋ฝ ์ดํ•ด ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•œ ํฌ๊ด„์  ๋ฒค์น˜๋งˆํฌ ๋ฐ์ดํ„ฐ์…‹ SciCUEval์„ ์ œ์•ˆํ•œ๋‹ค. ์ƒ๋ฌผํ•™, ํ™”ํ•™, ๋ฌผ๋ฆฌํ•™, ์ƒ์˜ํ•™, ์žฌ๋ฃŒ๊ณผํ•™ ๋“ฑ 5๊ฐœ ๋„๋ฉ”์ธ์— ๊ฑธ์นœ 10๊ฐœ์˜ ๋ถ€๋ถ„ ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ ๊ตฌ์„ฑ๋˜๋ฉฐ, ๋น„์ •ํ˜• ํ…์ŠคํŠธ, ๊ตฌ์กฐํ™”๋œ ํ‘œ, ์ง€์‹ ๊ทธ๋ž˜ํ”„ ๋“ฑ ๋‹ค์–‘ํ•œ ๋ฐ์ดํ„ฐ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ๋ฅผ ํ†ตํ•ฉํ•˜์—ฌ LLM์˜ ๊ณผํ•™์  ๋งฅ๋ฝ ์ดํ•ด ๋Šฅ๋ ฅ์„ ์ฒด๊ณ„์ ์œผ๋กœ ํ‰๊ฐ€ํ•œ๋‹ค.

Motivation

Achievement

  1. ํฌ๊ด„์  ๋ฒค์น˜๋งˆํฌ ๊ตฌ์ถ•: ๊ธฐ์กด ๋ฒค์น˜๋งˆํฌ ๋Œ€๋น„ ์œ ์ผํ•˜๊ฒŒ ๋‹ค์ค‘ ๊ณผํ•™ ๋„๋ฉ”์ธ, ๋‹ค์–‘ํ•œ ๋ฐ์ดํ„ฐ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ(ํ…์ŠคํŠธ, ํ‘œ, ์ง€์‹ ๊ทธ๋ž˜ํ”„), 4๊ฐ€์ง€ ์งˆ๋ฌธ ์œ ํ˜•(๊ฐœ๋ฐฉํ˜• Q&A, ๊ฐ๊ด€์‹, ์ฐธ/๊ฑฐ์ง“, ์™„์„ฑํ˜•)์„ ํ†ตํ•ฉํ•˜๋Š” ๊ณผํ•™์  ๋งฅ๋ฝ ์ดํ•ด ํ‰๊ฐ€ ์Šค์œ„ํŠธ ์ œ๊ณต
  2. ์ฒด๊ณ„์  ์—ญ๋Ÿ‰ ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ: ๊ด€๋ จ ์ •๋ณด ์‹๋ณ„(Relevant Information Identification), ์ •๋ณด ๋ถ€์žฌ ๊ฐ์ง€(Information-absence Detection), ๋‹ค์ค‘ ์ •๋ณด์› ํ†ตํ•ฉ(Multi-source Information Integration), ๋งฅ๋ฝ ๊ธฐ๋ฐ˜ ์ถ”๋ก (Context-aware Inference)์˜ 4๊ฐ€์ง€ ํ•ต์‹ฌ ์—ญ๋Ÿ‰์„ ์ฒด๊ณ„์ ์œผ๋กœ ์ธก์ •
  3. ๋Œ€๊ทœ๋ชจ LLM ์„ฑ๋Šฅ ๋ถ„์„: GPT-4, Claude, Gemini ๋“ฑ ์ตœ์ฒจ๋‹จ LLM์˜ ๊ฐ•์ ๊ณผ ํ•œ๊ณ„๋ฅผ ์„ธ๋ฐ€ํ•˜๊ฒŒ ๋ถ„์„ํ•˜์—ฌ ๊ณผํ•™ ๋„๋ฉ”์ธ LLM ๊ฐœ๋ฐœ ๋ฐฉํ–ฅ ์ œ์‹œ

How

Figure 1์—์„œ ๋ณผ ์ˆ˜ ์žˆ๋“ฏ์ด ๋ฐ์ดํ„ฐ ์ƒ์„ฑ ํŒŒ์ดํ”„๋ผ์ธ

๋ฐ์ดํ„ฐ ์ƒ์„ฑ ๊ณผ์ •: ๊ณผํ•™ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ โ†’ ์งˆ๋ฌธ ๋‹ต๋ณ€ ์ƒ์„ฑ โ†’ ๊ฒ€์ฆ

Originality

Limitation & Further Study

Evaluation

์ดํ‰: SciCUEval์€ ๊ณผํ•™ ๋„๋ฉ”์ธ LLM ํ‰๊ฐ€์˜ ์ค‘์š”ํ•œ ๊ณต๋ฐฑ์„ ์ฒด๊ณ„์ ์œผ๋กœ ํ•ด๊ฒฐํ•˜๋Š” ํฌ๊ด„์  ๋ฒค์น˜๋งˆํฌ๋กœ, ๋‹ค์ค‘ ๋„๋ฉ”์ธ-๋‹ค์ค‘ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ ์กฐํ•ฉ๊ณผ 4๊ฐ€์ง€ ํ•ต์‹ฌ ์—ญ๋Ÿ‰ ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ๋Š” ๋งค์šฐ ์šฐ์ˆ˜ํ•˜๋‹ค. ๋‹ค๋งŒ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ ๋ฐฉ๋ฒ•๋ก ์˜ ํˆฌ๋ช…์„ฑ ๊ฐ•ํ™”, ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ฒ˜๋ฆฌ์— ๋Œ€ํ•œ ๋ช…ํ™•ํ•œ ์ „๋žต ์ œ์‹œ, ๊ทธ๋ฆฌ๊ณ  ๋ฒค์น˜๋งˆํฌ ํ™œ์šฉ์„ ํ†ตํ•œ ์‹ค์ œ ๊ณผํ•™ LLM ๊ฐœ์„  ํšจ๊ณผ ์ž…์ฆ์ด ํ•„์š”ํ•˜๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
713์˜ ๋„๋ฉ”์ธ๋ณ„ ๋ฐ”์ด์˜ค/ํ™”ํ•™/๋ฌผ์งˆ NER ๋ฒค์น˜๋งˆํฌ ์„ค๊ณ„๋Š” 344์˜ ๋ฐ”์ด์˜ค์ธํฌ ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ์˜ ๊ธฐ๋ณธ ๊ฐœ๋…๊ณผ ์„ฑ๋Šฅํ‰๊ฐ€ ๋งฅ๋ฝ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๊ณผํ•™์ง€์‹ ์ง„ํ™”์™€ ๋ถ„์•ผ๋ณ„ ํŒจํ„ด ๋ถ„์„์„ ์œ„ํ•œ ๋ฐ์ดํ„ฐ์…‹ ๋ฐ ๋ถ„์„ ๋ฐฉ๋ฒ•์ด ASD ์ˆ˜๋ฉด์—ฐ๊ตฌ ์ง„ํ™” ์ถ”์  ๋…ผ๋ฌธ์— ์ ์šฉ ๊ฐ€๋Šฅํ•œ ๊ธฐ๋ฐ˜์ด ๋ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Scicueval์€ ๊ณผํ•™ ๋…ผ๋ฌธ ์š”์•ฝ ๋ฐ ์•„์ด๋””์–ด ๋„์ถœ ์ž๋™ํ™”์˜ ๋‹ค์–‘ํ•œ ๋ฐฉ๋ฒ•์„ ํ‰๊ฐ€ํ•˜์—ฌ, PaperRobot์˜ ์ž๋™ ์ดˆ์•ˆ ์ž‘์„ฑ ๋ฐฉ์‹๊ณผ ์„ฑ๊ณผ๋ฅผ ๋น„๊ตํ•˜๋Š” ์ฐธ๊ณ ์ž๋ฃŒ๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ƒ์˜ํ•™ยท๊ณผํ•™์  ๋งฅ๋ฝ์—์„œ ๋„ค์ž„๋“œ ์—”ํ„ฐํ‹ฐ ์ธ์‹, ๋งฅ๋ฝ ์ดํ•ด ์„ฑ๋Šฅ ํ‰๊ฐ€ ๋ฐ์ดํ„ฐ์…‹์„ ๊ฐœ๋ฐœํ•˜์—ฌ SciCUEval๊ณผ ๋ชฉ์ ์ด ์œ ์‚ฌํ•จ.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋‹ค์ค‘๋ชจ๋‹ฌ ๋ฐ ๋ฉ€ํ‹ฐ๋„๋ฉ”์ธ ๊ณผํ•™ ๋ฐ์ดํ„ฐ์…‹์„ ํ†ตํ•œ LLM ํ‰๊ฐ€๋กœ ๋‹ค์–‘ํ•œ ๊ณผํ•™์  ๋งฅ๋ฝ์—์„œ ์„ฑ๋Šฅ ์ฒ™๋„์˜ ์ผ์น˜์ ์ด ์žˆ์Œ.
๋‹ค๋ฅธ ์ ‘๊ทผ
713์ด ๋ฌธ๋งฅ์ดํ•ด NER ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ์•ˆํ•œ๋‹ค๋ฉด, 581์€ ๋…ผ๋ฌธ์˜ '๊ด€๋ จ ์—ฐ๊ตฌ' ์„น์…˜ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹์„ ํ™œ์šฉํ•œ ์ด์ข… NLU ๋ฒค์น˜๋งˆํฌ ์‚ฌ๋ก€๋ฅผ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Scicueval์€ ๋‹ค์–‘ํ•œ ๊ณผํ•™์  ์‹ฌ์ธต ์งˆ๋ฌธ๊ณผ ํ‰๊ฐ€ ์ง€ํ‘œ๋ฅผ ํ™œ์šฉํ•ด SciKnowEval์ด ์ œ์‹œํ•œ ๋‹ค์ธต LLM ์ง€์‹ ์ง„๋‹จ๊ณผ ๋น„๊ตํ•  ๋…ผ๋ฌธ์ž…๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Scicueval ๋…ผ๋ฌธ์€ SCIDQA์™€ ๋‹ฌ๋ฆฌ ๊ณผํ•™ ๋ถ„์•ผ LLM QA์˜ ์‹ ๋ขฐ์„ฑ ํ‰๊ฐ€์— ์ค‘์ ์„ ๋‘์–ด ๋ฌธํ•ญ ๊ตฌ์„ฑ ๋ฐ ํ‰๊ฐ€ ์ง€ํ‘œ์—์„œ ๋Œ€์กฐ ์ž๋ฃŒ๊ฐ€ ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๊ณผํ•™์  ๋ฌธํ—Œ์— ๋Œ€ํ•ด ์งˆ๋ฌธ ์‘๋‹ต๊ณผ ์ง€์‹ ํ‰๊ฐ€๋ฅผ ๋‹ค๋ฃจ๋Š” ์ข…ํ•ฉ์  ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ, 450์˜ ์ฃผ์ œ๋ณ„ ํƒ์ƒ‰๊ณผ๋Š” ๋‹ฌ๋ฆฌ QA ์ค‘์‹ฌ์˜ ํƒ์ƒ‰์  ํ‰๊ฐ€๋ฅผ ์‹œ๋„ํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์„ค๋ช… ๊ฐ€๋Šฅํ•œ ๋ฐ”์ด์˜ค๋ฉ”๋””์ปฌ claim ๊ฒ€์ฆ์ด๋ž€ ์‹œ๊ฐ์—์„œ, NER ๊ธฐ๋ฐ˜ context ์ดํ•ด์™€ claim verification์„ ์—ฐ๊ณ„ํ•œ ์‹ค์งˆ์  ์‘์šฉ์„ ๋‹ค๋ฃน๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๊ณผํ•™ ๋ฌธํ—Œ์—์„œ ๊ตฌ์กฐํ™”๋œ ์ง€์‹์„ ์ถ”์ถœํ•˜๋Š” ๋‹ค๋ฅธ ๋ฐฉ๋ฒ•์„ ์ œ์‹œํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
713 ๋…ผ๋ฌธ์€ ๋” ๊ด‘๋ฒ”์œ„ํ•œ ๊ณผํ•™์  ์งˆ์˜์‘๋‹ต ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ•์„ ๋ชฉํ‘œ๋กœ ํ•˜์—ฌ SciQAG์˜ ๋ฐ์ดํ„ฐ ์ž๋™ํ™” ํ๋ฆ„์„ ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •