Reviewing scientific papers for critical problems with reasoning llms: Baseline approaches and automatic evaluation

์ €์ž: Tianmai M. Zhang, Neil F. Abernethy (University of Washington) | ๋‚ ์งœ: 2025 | DOI: arXiv:2505.23824v2 📄 PDF


Essence

๋ณธ ๋…ผ๋ฌธ์€ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์„ ๊ณผํ•™ ๋…ผ๋ฌธ์˜ ๋น„ํŒ์  ์˜ค๋ฅ˜ ๊ฒ€์ถœ ๋„๊ตฌ๋กœ ํ™œ์šฉํ•˜๋Š” ๋ฐฉ์•ˆ์„ ์ œ์‹œํ•˜๋ฉฐ, ์ฒ ํšŒ๋œ arXiv ๋…ผ๋ฌธ ๋ฐ์ดํ„ฐ์…‹์„ ๋ฐ”ํƒ•์œผ๋กœ ์ถ”๋ก ํ˜• LLM๋“ค์˜ ์„ฑ๋Šฅ๊ณผ ๋น„์šฉ์„ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค.

Motivation

Achievement

  1. o3 ๋ชจ๋ธ์˜ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ: o3๊ฐ€ ๋ชจ๋“  ๋ชจ๋ธ ์ค‘ ๊ฐ€์žฅ ๋†’์€ ํžˆํŠธ์œจ(HR@5: 48.2% for PDF, 50.6% for LaTeX)์„ ๋‹ฌ์„ฑํ•˜๋ฉด์„œ๋„ ์ ์ •ํ•œ ๋น„์šฉ ์ˆ˜์ค€ ์œ ์ง€
  2. ํ˜•์‹ ์ €ํ•ญ์„ฑ ์ฐจ์ด: Gemini ๋ชจ๋ธ์€ LaTeX ํ˜•์‹์œผ๋กœ ์ „ํ™˜ ์‹œ ์„ฑ๋Šฅ ์ €ํ•˜(39.2% โ†’ 36.3%)๋ฅผ ๋ณด์˜€์œผ๋‚˜, OpenAI o-์‹œ๋ฆฌ์ฆˆ ๋ชจ๋ธ์€ ์•ˆ์ •์ (48.2% โ†’ 50.6%)
  3. Claude 3.7 Sonnet์˜ ํ•œ๊ณ„: PDF ์ ‘๊ทผ ๋ฐฉ์‹์—์„œ 64.9%์˜ ๋…ผ๋ฌธ์—์„œ ๋ฌธ์ œ๋ฅผ ๋ฐœ๊ฒฌํ•˜์ง€ ๋ชปํ•˜๋Š” ๋‚ฎ์€ ์„ฑ๋Šฅ(HR@5: 11.0%)
  4. ํฌ๊ด„์  ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ: ๋„๋ฉ”์ธ ์ „๋ฌธ๊ฐ€ ๋ชจ์ง‘์˜ ์–ด๋ ค์›€์„ ๊ทน๋ณตํ•˜๊ธฐ ์œ„ํ•ด ์—ฌ๋Ÿฌ LLM ํŒ์ •์ž๋ฅผ ํ™œ์šฉํ•œ ์ž๋™ ํ‰๊ฐ€ ๋ฐฉ์‹ ์ œ์‹œ

How

๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ•:

ํ‰๊ฐ€ ๋ฐฉ๋ฒ•๋ก :

์‹คํ—˜ ์„ค์ •:

Originality

Limitation & Further Study

Evaluation

์ดํ‰: ๋ณธ ๋…ผ๋ฌธ์€ LLM์„ ๋™๋ฃŒ ์‹ฌ์‚ฌ ๋ณด์กฐ ๋„๊ตฌ๋กœ ์œ„์น˜์ง€์–ด ์ฑ…์ž„๊ฐ ์žˆ๋Š” ํ™œ์šฉ์„ ์ถ”๊ตฌํ•˜๋ฉฐ, ์‹ค์ œ ์ฒ ํšŒ ๋ฐ์ดํ„ฐ๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ํ•œ ์‹ค์ฆ์  ํ‰๊ฐ€์™€ ์ž๋™ ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์‹œํ•˜์—ฌ ํ•™์ˆ  ์ถœํŒ ์‹œ์Šคํ…œ์˜ ๊ฐœ์„ ์— ์œ ์˜๋ฏธํ•œ ๊ธฐ์—ฌ๋ฅผ ํ•ฉ๋‹ˆ๋‹ค. ๋‹ค๋งŒ ์ž๋™ ํ‰๊ฐ€ ๋ฐฉ์‹์˜ ๊ฒ€์ฆ๊ณผ ๋„๋ฉ”์ธ ๋ณ„ ์ผ๋ฐ˜ํ™” ์ธก๋ฉด์—์„œ ์ถ”๊ฐ€ ์—ฐ๊ตฌ๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
680 ๋…ผ๋ฌธ์ด ํ™œ์šฉํ•œ ์ฒ ํšŒ ๋…ผ๋ฌธ ๋ฐ์ดํ„ฐ์…‹์€ 885์˜ ๋Œ€๊ทœ๋ชจ retraction ๋ฐ์ดํ„ฐ ๊ตฌ์ถ•์— ๊ธฐ๋ฐ˜ํ•˜๋ฏ€๋กœ ์ƒํ˜ธ์ฐธ์กฐ๊ฐ€ ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Meta-assessment of bias in science ๋…ผ๋ฌธ์€ ๋‹ค์–‘ํ•œ ํŽธํ–ฅ ๋ฐ ๋ฌธ์ œ ๊ฒ€์ถœ์„ ํ‰๊ฐ€ํ•˜๋Š” ๋Œ€์ฒด์  ๋ถ„์„ํ‹€์„ ์ œ๊ณตํ•˜์—ฌ LLM ์˜ค๋ฅ˜ ํƒ์ง€ ์ ‘๊ทผ๊ณผ ๋น„๊ตํ•˜๊ธฐ์— ์ ํ•ฉํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
680๋ฒˆ์€ LLM ๊ธฐ๋ฐ˜ ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ์˜ ๋ฌธ์ œ์  ํฌ์ธํŠธ์™€ ๋น„ํŒ์  ํ‰๊ฐ€ ๋Šฅ๋ ฅ์„ ์ง‘์ค‘์ ์œผ๋กœ ๋น„๊ตํ•ด, 678๋ฒˆ์˜ ReviewerGPT ์‹คํ—˜ ๊ฒฐ๊ณผ ํ•ด์„์— ๋ณด์™„์ด ๋œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
183์€ ๊ณผํ•™์  ํ—ˆ์œ„์ •๋ณด ํƒ์ง€์—์„œ LLM์˜ ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ์„ ๋‹ค๋ฃจ๋ฉฐ 680๊ณผ ์œ ์‚ฌ ๋ฌธ์ œ๋ฅผ ๋‹ค๋ฅธ ์‹œ๊ฐ์œผ๋กœ ์ ‘๊ทผํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
SciTrust๋Š” LLM์˜ ์‹ ๋ขฐ์„ฑ ํ‰๊ฐ€์ง€ํ‘œ๋ฅผ ๊ณผํ•™ ์ •๋ณด ์ถ”์ถœ/๊ฒ€์ฆ ๋งฅ๋ฝ์—์„œ ๊ฒ€ํ† ํ•˜์—ฌ ๋น„ํŒ์  ๊ด€์ ์„ ์ œ๊ณตํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM์„ ํ™œ์šฉํ•œ ๋…ผ๋ฌธ ๋น„ํ‰๊ณผ ๊ฒ€ํ†  ์—ญ๋Ÿ‰ ๋ถ„์„์ด๋ผ๋Š” ์ ์—์„œ 877๋ฒˆ ๋…ผ๋ฌธ๊ณผ ๊ทผ๋ณธ์ ์œผ๋กœ ์œ ์‚ฌํ•˜๋‚˜, ์ ‘๊ทผ ๋ฐฉ์‹๊ณผ ํ‰๊ฐ€ ๋ฒ”์œ„๊ฐ€ ๋‹ค๋ฆ…๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
665๋Š” LLM ๊ธฐ๋ฐ˜ ์ž๋™ ๋ฆฌ๋ทฐ ์ƒ์„ฑ์—์„œ reasoning๊ณผ hallucination ๋Œ€์‘ ๋ฐฉ์•ˆ์„ ๋‹ค๋ค„ 680๊ณผ ์—ฐ๊ฒฐ๋ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
680 ๋…ผ๋ฌธ์€ LLM ๋ฆฌ๋ทฐ๊ฐ€ ์‹ค์ œ๋กœ ์น˜๋ช…์  ๋ฌธ์ œ๋ฅผ ๋†“์น˜์ง€ ์•Š๋Š”์ง€, ์ด์œ ๊ธฐ๋ฐ˜ ํ‰๊ฐ€๋ฅผ ํ†ตํ•ด ๋ธ”๋ผ์ธ๋“œ ์ŠคํŒŸ(537) ํƒ์ง€์™€ ๋‹ค๋ฅธ ๊ด€์ ์˜ ๋น„ํŒ์„ ์ œ์‹œํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
680๋ฒˆ์€ LLM ๊ธฐ๋ฐ˜ ๋…ผ๋ฌธ ์‹ฌ์‚ฌ์˜ ํ•ต์‹ฌ ๋ฌธ์ œ ๋ฐœ๊ฒฌ ๋ฐ ๋น„ํŒ์  ํ‰๊ฐ€๋ฅผ ์ค‘์ ์ ์œผ๋กœ ๋‹ค๋ฃจ๋ฏ€๋กœ, 630๋ฒˆ์˜ ์—ฐ๊ตฌ ์•„์ด๋””์–ด outcome ์˜ˆ์ธก๊ณผ ๋ณด์™„์ ์œผ๋กœ ์ฝ์„ ์ˆ˜ ์žˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM์„ ํ™œ์šฉํ•œ ๊ณผํ•™ ๋…ผ๋ฌธ ํ’ˆ์งˆ ํ‰๊ฐ€ ์ ‘๊ทผ๋ฒ•์„ ๋‹ค๋ฃจ๋Š” ๋งค์šฐ ์œ ์‚ฌํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
๋ฐ˜๋ก /๋น„ํŒ
541 ๋…ผ๋ฌธ์€ ๊ฒฐ๋ก ์  ๋ฐ˜์ฆ์ด ์–ด๋ ค์šด NLP fact-checking์˜ ํ•œ๊ณ„๋ฅผ ๋…ผ์˜ํ•ด 680์—์„œ LLM ๊ธฐ๋ฐ˜ ์˜ค๋ฅ˜ ๊ฒ€์ถœ์˜ ํ˜„์‹ค์  ํ•œ๊ณ„๋ฅผ ๋น„ํ‰ํ•ฉ๋‹ˆ๋‹ค.
๋ฐ˜๋ก /๋น„ํŒ
AI ๊ณผํ•™์ž์˜ ์‹ค์ œ ๊ตฌํ˜„ ์—ญ๋Ÿ‰ ํ•œ๊ณ„๋ฅผ ๋น„ํŒ์ ์œผ๋กœ ๋‹ค๋ฃฌ 81๋ฒˆ ๋…ผ๋ฌธ๊ณผ ๋Œ€์กฐ์ ์œผ๋กœ, 680๋ฒˆ ๋…ผ๋ฌธ์€ LLM์˜ ์‹ค์ œ ๋…ผ๋ฌธ ์˜ค๋ฅ˜ ๊ฒ€์ถœ ๊ฐ€๋Šฅ์„ฑ์„ ๋ถ„์„ํ•ฉ๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •