When AI Co-Scientists Fail: SPOTโ€”a Benchmark for Automated Verification of Scientific Research

์ €์ž: Guijin Son, Jiwoo Hong, Honglu Fan, Heejeong Nam, Hyunwoo Ko, Seungwon Lim, Jinyeop Song, Jinhang Choi, Gonรงalo Paulo, Youngjae Yu, Stella Biderman | ๋‚ ์งœ: 2025 | DOI: N/A


Essence

Figure 1: Overview of SPOT

SPOT ๋ฒค์น˜๋งˆํฌ์˜ ๊ตฌ์ถ• ๊ณผ์ •: ์‹œ๋“œ ์ˆ˜์ง‘(๋…น์ƒ‰)๋ถ€ํ„ฐ ๊ฒ€์ฆ, ์ •๊ทœํ™”๋ฅผ ๊ฑฐ์ณ ํ‰๊ฐ€ ๋‹จ๊ณ„(ํŒŒ๋ž€์ƒ‰)๊นŒ์ง€ LLM ์ถœ๋ ฅ์„ ๊ธฐ์ค€ ์˜ค๋ฅ˜์™€ ๋น„๊ต

๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ(LLM)์ด ๊ณผํ•™ ๋…ผ๋ฌธ์˜ ์˜ค๋ฅ˜๋ฅผ ์ž๋™์œผ๋กœ ๊ฒ€์ฆํ•  ์ˆ˜ ์žˆ๋Š”๊ฐ€๋ฅผ ๋ฌป๋Š” ๋ณธ ๋…ผ๋ฌธ์€ 83๊ฐœ ์ถœํŒ ๋…ผ๋ฌธ๊ณผ 91๊ฐœ์˜ ๊ฒ€์ฆ๋œ ์˜ค๋ฅ˜๋กœ ๊ตฌ์„ฑ๋œ SPOT ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ์‹œํ•˜๋ฉฐ, ์ตœ์‹  LLM๋“ค๋„ 21.1% ์ดํ•˜์˜ ์žฌํ˜„์œจ(recall)์— ๋จธ๋ฌผ๋Ÿฌ ์‹ ๋ขฐ์„ฑ ์žˆ๋Š” ํ•™์ˆ  ๊ฒ€์ฆ ์ž๋™ํ™”๋Š” ์•„์ง ๋ถˆ๊ฐ€๋Šฅํ•จ์„ ๋ณด์—ฌ์ค€๋‹ค.

Motivation

Achievement

Figure 2: Distribution of annotated errors by research domain and error type

์˜ค๋ฅ˜์˜ ํ•™๋ฌธ ๋ถ„์•ผ๋ณ„, ์œ ํ˜•๋ณ„ ๋ถ„ํฌ: ์ˆ˜ํ•™/๋ฌผ๋ฆฌ/์ปดํ“จํ„ฐ๊ณผํ•™์€ ์ˆ˜์‹/์ฆ๋ช… ์˜ค๋ฅ˜์— ์ง‘์ค‘, ์ƒ๋ฌผํ•™์€ ๊ทธ๋ฆผ ์ค‘๋ณต์— ํŽธํ–ฅ

  1. ๋ฒค์น˜๋งˆํฌ ํ’ˆ์งˆ ํ™•๋ณด: ์ž๋™ ํ•„ํ„ฐ๋ง(2๋‹จ๊ณ„) โ†’ ์ €์ž ๊ฒ€์ฆ โ†’ ์ธ๊ฐ„ ๊ฒ€์ฆ(2๋‹จ๊ณ„) โ†’ ์ •๊ทœํ™”(GPT-4o + ์ˆ˜๋™ ๊ฐ์‚ฌ) ํŒŒ์ดํ”„๋ผ์ธ์œผ๋กœ ๋†’์€ ์‹ ๋ขฐ๋„์˜ ์˜ค๋ฅ˜ ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ•. ํ‰๊ท  12,877๊ฐœ ํ† ํฐ, 17.5๊ฐœ ์ด๋ฏธ์ง€๋กœ ์žฅ๋ฌธ๋งฅยท๋‹ค์ค‘๋ชจ๋“œ ๋ฒค์น˜๋งˆํฌ ์‹คํ˜„
  2. ์„ฑ๋Šฅ ๊ธ‰ ๋ถ€์กฑ ์ž…์ฆ: OpenAI o3(์ตœ๊ณ  ์„ฑ๋Šฅ ๋ชจ๋ธ)๋„ pass@1์—์„œ 18.4% ์ˆ˜์ค€์˜ ์„ฑ๋Šฅ๋งŒ ๋‹ฌ์„ฑ. 8ํšŒ ๋…๋ฆฝ ์‹œํ–‰์—์„œ ๋ชจ๋ธ์˜ ์‹ ๋ขฐ๋„(confidence)๋Š” ๊ฑฐ์˜ 0์— ๊ฐ€๊นŒ์šฐ๋ฉฐ ์ผ๊ด€๋œ ์˜ค๋ฅ˜ ์žฌํ˜„์— ์‹คํŒจ
  3. ๋‹ค๋ชจ๋‹ฌ ์•ฝ์  ๋…ธ์ถœ: ์ถ”๋ก  ๋ชจ๋ธ๋“ค์ด ํŠนํžˆ ๊ทธ๋ฆผ ๊ด€๋ จ ์˜ค๋ฅ˜ ํƒ์ง€์—์„œ ์‹ฌ๊ฐํ•œ ์„ฑ๋Šฅ ์ €ํ•˜๋ฅผ ๋ณด์ด๋ฉฐ, ํ˜„์žฌ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋Šฅ๋ ฅ์˜ ํ•œ๊ณ„ ๋“œ๋Ÿฌ๋ƒ„
  4. ์˜ค๋ฅ˜ ๋ถ„์„: ์ˆ˜ํ•™, ์žฌ๋ฃŒ๊ณผํ•™ ์ „๋ฌธ๊ฐ€์™€์˜ ์‚ฌ๋ก€ ์—ฐ๊ตฌ์—์„œ ๋ชจ๋ธ์ด ์›น ๋ฐ์ดํ„ฐ์— ๋ถ€์กฑํ•œ ์žฅ๊ผฌ๋ฆฌ ์ง€์‹(long-tail knowledge), ์ดˆ์žฅ๋ฌธ๋งฅ ์ฒ˜๋ฆฌ, ๋„๋ฉ”์ธ ํŠน์ • ๊ด€๋ก€ ๋ถ€์žฌ๋กœ ์ธํ•œ ํ•™์ƒ ์ˆ˜์ค€์˜ ์˜ค๋ฅ˜ ๋ฐ˜๋ณต

How

Figure 3: ์˜ค๋ฅ˜ ํƒ์ง€ ๊ณผ์ •

TP/FP/FN ๋ถ„๋ฅ˜: ๋ชจ๋ธ์ด ์ •ํ™•ํ•œ ์œ„์น˜์˜ ์˜ค๋ฅ˜๋ฅผ ๋ฐœ๊ฒฌํ•˜๋ฉด TP, ๋ฒค์น˜๋งˆํฌ์— ์—†๋Š” ์˜ค๋ฅ˜๋ฅผ ์ง€์ ํ•˜๋ฉด FP, ์‹ค์ œ ์˜ค๋ฅ˜๋ฅผ ๋†“์น˜๋ฉด FN

๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ๋ฐ ์ •๊ทœํ™”:

ํ‰๊ฐ€ ํ”„๋กœํ† ์ฝœ:

์˜ค๋ฅ˜ ๋ถ„๋ฅ˜:

Originality

Limitation & Further Study

ํ•œ๊ณ„:

ํ›„์† ์—ฐ๊ตฌ:

Evaluation

์ดํ‰: SPOT์€ LLM์˜ ์•ฝ์ ์„ ์ฒด๊ณ„์ ์œผ๋กœ ๋“œ๋Ÿฌ๋‚ด๋Š” ๊ฒฌ๊ณ ํ•œ ๋ฒค์น˜๋งˆํฌ๋กœ, ํ˜„์žฌ AI ์‹œ์Šคํ…œ์ด ์‹ ๋ขฐ์„ฑ ์žˆ๋Š” ๊ณผํ•™ ๊ฒ€์ฆ์ž๊ฐ€ ๋˜๊ธฐ ์œ„ํ•ด ๋„˜์–ด์•ผ ํ•  ์‹ค์งˆ์  ๊ฑฐ๋ฆฌ๊ฐ€ ์–ผ๋งˆ๋‚˜ ํฐ์ง€๋ฅผ ์ฆ๋ช…ํ•œ๋‹ค. ๊ทœ๋ชจ ํ•œ๊ณ„๋Š” ์žˆ์œผ๋‚˜, ์ €์ž ํ™•์ธ + ์ด์ค‘ ๊ฒ€์ฆ์„ ํ†ตํ•œ ์งˆ์  ์šฐ์ˆ˜์„ฑ๊ณผ ๋‹ค์ค‘๋ชจ๋‹ฌ ์žฅ๋ฌธ๋งฅ์˜ ํ˜„์‹ค์  ๋ณต์žก๋„์—์„œ ์˜์˜๊ฐ€ ํฌ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
882๋Š” LLM๊ณผ ์ธ์šฉ ๋ถ„์„์˜ ์ƒํ˜ธ ์ž‘์šฉ์„ ๋ฆฌ๋ทฐํ•˜๋Š” ๋…ผ๋ฌธ์œผ๋กœ, 881์˜ ๋…ผ๋ฌธ ๊ฒ€์ฆ ์ž๋™ํ™”๊ฐ€ ์ธ์šฉ ์‹ ๋ขฐ์„ฑ ํ‰๊ฐ€์™€๋„ ๋ฐ€์ ‘ํ•˜๊ฒŒ ๊ด€๋ จ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Withdrarxiv ๋…ผ๋ฌธ์€ ๋…ผ๋ฌธ ์ฒ ํšŒ ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ• ์‚ฌ๋ก€๋กœ, SPOT ๋ฒค์น˜๋งˆํฌ์™€ ํ•จ๊ป˜ LLM์˜ ๋…ผ๋ฌธ ์˜ค๋ฅ˜ ํƒ์ง€ ์„ฑ๋Šฅ ๋น„๊ต์— ์ ํ•ฉํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
852๋ฒˆ ๋…ผ๋ฌธ์€ ๊ณผํ•™ ๋…ผ๋ฌธ ์ „๋‹ฌ ๊ณผ์ •์—์„œ ์„ธ๋ฐ€ํ•œ ์‚ฌ์‹ค ์™œ๊ณก์˜ ํŒจํ„ด์„ ๋ถ„๋ฅ˜ํ•˜๋ฏ€๋กœ, ๋…ผ๋ฌธ ์˜ค๋ฅ˜ ํƒ์ง€ ํƒœ์Šคํฌ์˜ ๊ธฐ์ค€์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
LLM ๊ธฐ๋ฐ˜ ๊ณผํ•™ ์ง€์‹ ์ถ”์ถœ ๋ฐ ๊ฒ€์ฆ ๊ณผ์ •์˜ ํ˜„ํ™ฉ๊ณผ ๋ฌธ์ œ์ ์„ ํญ๋„“๊ฒŒ ๋‹ค๋ฃน๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
When AI Co-Scientists Fail: SPOT๋Š” ๊ณผํ•™ ๋…ผ๋ฌธ ์ž๋™ ๊ฒ€์ฆ ๋ฒค์น˜๋งˆํฌ๋กœ, ๋ฌธํ—Œ ์ž๋™ ๋ฆฌ๋ทฐ(897)์˜ ํ‰๊ฐ€ ์‹ ๋ขฐ์„ฑ ๋ฌธ์ œ์™€ ํ•ต์‹ฌ์ ์œผ๋กœ ๊ด€๋ จ๋œ ๋ฐ์ดํ„ฐ์™€ ํ‰๊ฐ€ ๊ด€์ ์„ ์ œ๊ณตํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
FactKG๋Š” ๊ณผํ•™๋ฌธํ—Œ ์˜ค๋ฅ˜ ๊ฒ€์ฆ์˜ ๋˜ ๋‹ค๋ฅธ ์ž๋™ํ™” ์ ‘๊ทผ๋ฒ•(์ง€์‹๊ทธ๋ž˜ํ”„ ๊ธฐ๋ฐ˜)์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM์˜ ์‚ฌ์‹ค ํ™•์ธ ๋ฐ ์˜ค๋ณด ํƒ์ง€ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ๊ด€๋ จ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
AI๊ฐ€ ๊ณผํ•™ ๋…ผ๋ฌธ ๋ฌธํ—Œ ๊ฒ€ํ†  ๋ฐ ์˜ค๋ฅ˜ ํƒ์ƒ‰์— ์‹ค์ œ๋กœ ํ•„์š”ํ•œ๊ฐ€์— ๋Œ€ํ•œ ์„ฑ์ฐฐ์  ๋…ผ์˜๋กœ, ์ž๋™ ์˜ค๋ฅ˜ ๊ฒ€์ฆ์˜ ํ•„์š”์„ฑ๊ณผ ํ•œ๊ณ„๋ฅผ ์ž…์ฒด์ ์œผ๋กœ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
scientometric ๋ฐฉ๋ฒ•์„ ํ™œ์šฉํ•œ ์—ฐ๊ตฌ ํ’ˆ์งˆ ํ‰๊ฐ€ ๊ด€๋ จ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Scaling Reproducibility: An AI-Assisted Workflow for Large-Scale Science ๋…ผ๋ฌธ์€ ๋…ผ๋ฌธ ์˜ค๋ฅ˜ ์ž๋™ ๊ฒ€์ฆ(881)๊ณผ ์œ ์‚ฌ ๋งฅ๋ฝ์—์„œ ์žฌํ˜„์„ฑ ์ž๋™ํ™” ์ง€์› ์›Œํฌํ”Œ๋กœ์šฐ๋ฅผ ํ†ตํ•ด ๋ฌธ์ œ๋ฅผ ๊ฐ„์ ‘ ํ•ด๊ฒฐํ•˜๋Š” ๋Œ€์•ˆ์„ ๋ณด์—ฌ์ค€๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
SPOT ๋ฒค์น˜๋งˆํฌ(881)๋Š” LLM์ด ๋…ผ๋ฌธ ์˜ค๋ฅ˜๋ฅผ ํƒ์ง€ํ•˜๋Š” ์‹ค์ œ ์„ฑ๋Šฅ ์ธก์ • ๊ธฐ์ค€์œผ๋กœ, ๊ณผํ•™ ์ปค๋ฎค๋‹ˆ์ผ€์ด์…˜ ์™œ๊ณก ํƒ์ง€ ์—ฐ๊ตฌ์˜ ํ™•์žฅ์ž…๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
SPOT(881)์€ ๋…ผ๋ฌธ ์˜ค๋ฅ˜ ์ž๋™ ๊ฒ€์ฆ์˜ ์‹ค์ œ ๋ฒค์น˜๋งˆํฌ๋กœ, claim ๊ฒ€์ฆ๊ฐ€๋Šฅ์„ฑ ๋ถ„์„ ์—ฐ๊ตฌ๋ฅผ ์‹ค์ „ ์ ์šฉ์œผ๋กœ ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
๊ณผํ•™ ๋ถ„์•ผ LLM์˜ ์‹ ๋ขฐ์„ฑ ํ‰๊ฐ€๋ฅผ ๋‹ค์–‘ํ•œ ์ง€ํ‘œ๋กœ ๋‹ค๋ค„, ๋…ผ๋ฌธ ์˜ค๋ฅ˜ ๊ฒ€์ฆ ์‹คํŒจ์˜ ํ•œ๊ณ„์™€ ๋ณด์™„์ ์„ ํ•จ๊ป˜ ๊ณ ๋ฏผํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
์‹ค์ œ ๋…ผ๋ฌธ ์˜ค๋ฅ˜ ์ž๋™ ๊ฒ€์ฆ ์‹คํŒจ ์‚ฌ๋ก€๊ฐ€ ๋ฆฌ๋ทฐ ๋…ผ๋ฌธ์—์„œ ์ง€์ ํ•œ LLM ๊ณผ์ œ์˜ ๊ตฌ์ฒด์  ์˜ˆ์‹œ๋กœ ์—ฐ๊ฒฐ๋ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
SciTrust ์‹ ๋ขฐ์„ฑ ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ๊ฐ€ ๋…ผ๋ฌธ ์˜ค๋ฅ˜ ๊ฒ€์ฆ ์ž๋™ํ™” ์‹คํŒจ ์‚ฌ๋ก€๋ฅผ ํ•ด์„ํ•˜๋Š” ๋ฐ ๋„์›€์„ ์ค๋‹ˆ๋‹ค.
๋ฐ˜๋ก /๋น„ํŒ
When AI Co-Scientists Fail ๋…ผ๋ฌธ์€ ์ž๋™ํ™” ๋ฆฌ๋ทฐยทํ‰๊ฐ€์˜ ์ทจ์•ฝ์ ๊ณผ ์‹คํŒจ ์‚ฌ๋ก€๋ฅผ ๋‹ด์•„, OpenReviewer ์‹œ์Šคํ…œ์˜ ํ•œ๊ณ„์™€ ๊ฐœ์„  ๋ฐฉํ–ฅ์„ ์ƒ๊ฐํ•ด ๋ณผ ์ˆ˜ ์žˆ๋‹ค.
๋ฐ˜๋ก /๋น„ํŒ
AI ๊ณผํ•™์ž ์‹คํ—˜์‹ค์˜ ์„ฑ๊ณต ์‚ฌ๋ก€์™€ ๋‹ฌ๋ฆฌ, LLM์ด ๊ณผํ•™ ๋…ผ๋ฌธ ์˜ค๋ฅ˜ ๊ฒ€์ฆ์— ํ•œ๊ณ„๋ฅผ ๋ณด์ธ๋‹ค๋Š” ์ ์—์„œ ์ƒ๋ฐ˜๋œ ์‹œ๊ฐ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๋ฐ˜๋ก /๋น„ํŒ
AI๊ฐ€ ๊ณผํ•™ ์ƒ์‚ฐ์„ฑ์— ๊ธฐ์—ฌํ•œ ์„ฑ๊ณต ์‚ฌ๋ก€์™€, ์ž๋™ ๊ฒ€์ฆ ์‹œ์Šคํ…œ์˜ ๋ถ€์กฑํ•จ์ด ๋Œ€๋น„๋˜์–ด ์˜๋ฏธ์žˆ๊ฒŒ ์ฝ์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋ฐ˜๋ก /๋น„ํŒ
Towards AI for science: developing a conceptual basis for trustworthy, responsible scientific discovery ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜ ๊ฒ€์ฆ ์ž๋™ํ™”์˜ ํ•œ๊ณ„(881)์™€ ๋‹ฌ๋ฆฌ ์‹ ๋ขฐํ•  ์ˆ˜ ์žˆ๋Š” ํ•™์ˆ  ๊ฒ€์ฆ AI ํ”„๋ ˆ์ž„์˜ ํ•„์š”์„ฑ๊ณผ ์„ค๊ณ„๋ฅผ ์ œ์•ˆํ•œ๋‹ค.
๋ฐ˜๋ก /๋น„ํŒ
When AI Co-Scientists Fail ๋…ผ๋ฌธ์€ ์ž๋™ํ™”๋œ LLM ๊ธฐ๋ฐ˜ ๊ฐ€์„ค ๊ฒ€์ฆ๊ณผ์ •์˜ ํ•œ๊ณ„๋ฅผ ๋ฒค์น˜๋งˆํฌ๋กœ ๋ณด์—ฌ์ฃผ๋ฉฐ, Co-Scientist ์ ‘๊ทผ์˜ ์ทจ์•ฝ์ ์„ ๋ณด์™„ํ•œ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •