ResearchBench: Benchmarking LLMs in Scientific Discovery via Inspiration-Based Task Decomposition

์ €์ž: Yujie Liu, Zonglin Yang, Tong Xie, Jinjie Ni, Ben Gao, Yuqiang Li, Shixiang Tang, Wanli Ouyang, Erik Cambria, Dongzhan Zhou | ๋‚ ์งœ: 2025 | DOI: arXiv:2503.21248v2 📄 PDF


Essence

๋ณธ ๋…ผ๋ฌธ์€ ๊ณผํ•™์  ๋ฐœ๊ฒฌ ๊ณผ์ •์—์„œ LLM์˜ ์—ญ๋Ÿ‰์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•œ ์ฒซ ๋ฒˆ์งธ ๋Œ€๊ทœ๋ชจ ๋ฒค์น˜๋งˆํฌ ResearchBench๋ฅผ ์ œ์‹œํ•œ๋‹ค. ์˜๊ฐ ๊ฒ€์ƒ‰(inspiration retrieval), ๊ฐ€์„ค ๊ตฌ์„ฑ(hypothesis composition), ๊ฐ€์„ค ์ˆœ์œ„ ๊ฒฐ์ •(hypothesis ranking)์˜ ์„ธ ๊ฐ€์ง€ ํ•˜์œ„ ์ž‘์—…์œผ๋กœ ๊ณผํ•™ ๋ฐœ๊ฒฌ ๊ณผ์ •์„ ๋ถ„ํ•ดํ•˜๊ณ , 12๊ฐœ ๋ถ„์•ผ์˜ 1,386ํŽธ ๋…ผ๋ฌธ(2024๋…„ ๋ฐœํ–‰)์œผ๋กœ๋ถ€ํ„ฐ ์ž๋™ ์ถ”์ถœ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ํ†ตํ•ด ๋ฒค์น˜๋งˆํฌ๋ฅผ ๊ตฌ์ถ•ํ–ˆ๋‹ค.

Motivation

Achievement

Figure 1: Overview of the inspiration retrieval framework.

์˜๊ฐ ๊ฒ€์ƒ‰ ํ”„๋ ˆ์ž„์›Œํฌ: ๋…ผ๋ฌธ์—์„œ ์ถ”์ถœ๋œ ์ž ์žฌ์  ์˜๊ฐ์„ ํ•„์š”์„ฑ ๊ฒ€์ฆ(Necessary Checker)๊ณผ ์ถฉ๋ถ„์„ฑ ๊ฒ€์ฆ(Sufficient Checker)์„ ๊ฑฐ์ณ ํ™•์ •

  1. ์ฒซ ๋ฒˆ์งธ ๋Œ€๊ทœ๋ชจ ๊ณผํ•™ ๋ฐœ๊ฒฌ ๋ฒค์น˜๋งˆํฌ ๊ตฌ์ถ•: 12๊ฐœ ๋ถ„์•ผ(ํ™”ํ•™, ๋ฌผ๋ฆฌํ•™, ์ฒœ๋ฌธํ•™, ์ƒ๋ฌผํ•™, ์žฌ๋ฃŒ๊ณผํ•™, ์—๋„ˆ์ง€๊ณผํ•™, ํ™˜๊ฒฝ๊ณผํ•™, ๋น„์ฆˆ๋‹ˆ์Šค, ๋ฒ•ํ•™, ์ˆ˜ํ•™ ๋“ฑ) 1,386ํŽธ์˜ Nature/Science ๊ธ‰ ๋…ผ๋ฌธ์œผ๋กœ ๊ตฌ์„ฑ. ์ „๋ฌธ๊ฐ€ ๊ฒ€์ฆ ๊ฒฐ๊ณผ 91.9% ์ •ํ™•๋„(์ฃผ์š” ์ด์Šˆ๋งŒ ๊ณ ๋ ค) ๋‹ฌ์„ฑ.
  2. ํ˜์‹ ์  LLM ๊ธฐ๋ฐ˜ ์ž๋™ ์ถ”์ถœ ํ”„๋ ˆ์ž„์›Œํฌ: ์—ฐ๊ตฌ ์งˆ๋ฌธ, ๋ฐฐ๊ฒฝ ์กฐ์‚ฌ, ๊ฐ€์„ค์˜ ์ง์ ‘์  ์ถ”์ถœ๊ณผ ๋‹ฌ๋ฆฌ, ์˜๊ฐ ์ถ”์ถœ์„ ์œ„ํ•ด ํ•„์š”์„ฑ/์ถฉ๋ถ„์„ฑ ๊ฒ€์ฆ ์ด์ค‘ ๊ตฌ์กฐ๋ฅผ ์„ค๊ณ„ํ•˜์—ฌ ์ •ํ™•๋„ ํ–ฅ์ƒ. ํ–ฅํ›„ LLM ํ•™์Šต ๋ฐ์ดํ„ฐ ์ปคํŠธ์˜คํ”„ ์ดํ›„์—๋„ ์ž๋™ ํ™•์žฅ ๊ฐ€๋Šฅํ•œ ์„ค๊ณ„.
  3. ๋ฐ์ดํ„ฐ ์˜ค์—ผ ๋ฐฉ์ง€ ๋ฐ ๋ถ„ํฌ ์™ธ(OOD) ์ž‘์—… ๋ฐœ๊ฒฌ: 2024๋…„ ์ดํ›„ ๋…ผ๋ฌธ๋งŒ ์„ ํƒํ•˜์—ฌ ๊ธฐ์กด LLM ์‚ฌ์ „ํ•™์Šต ๋ฐ์ดํ„ฐ์™€์˜ ์ค‘๋ณต ์ตœ์†Œํ™”. ์˜๊ฐ ๊ฒ€์ƒ‰์ด ๋ณธ์งˆ์ ์œผ๋กœ OOD ์ž‘์—…์ž„์„ ์ธ์‹ํ•˜๊ณ  ํ‰๊ฐ€โ€”GPT-4o๊ฐ€ ์ƒ์œ„ 4% ํ›„๋ณด ์ค‘ ์ง€๋ฉด ์˜๊ฐ์„ ํฌํ•จํ•  ํ™•๋ฅ ์ด 45.7%์— ๋‹ฌํ•˜๋Š” ๋†€๋ผ์šด ์„ฑ๋Šฅ ๋ฐœ๊ฒฌ.
  4. LLM์„ "์—ฐ๊ตฌ ๊ฐ€์„ค ์ฑ„๊ตด ๊ธฐ๊ณ„(research hypothesis mines)"๋กœ ์œ„์น˜ ์ง€์Œ: ์„ธ ๊ฐ€์ง€ ๊ธฐ๋ณธ ์ž‘์—…์—์„œ์˜ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์ด LLM์„ ๋Œ€๊ทœ๋ชจ ํ˜์‹  ๊ณผํ•™ ํ†ต์ฐฐ ์ž๋™ ์ƒ์„ฑ ๋„๊ตฌ๋กœ์„œ์˜ ๊ฐ€๋Šฅ์„ฑ์„ ์ œ์‹œ.

How

Figure 1: Overview of the inspiration retrieval framework.

๋ฒค์น˜๋งˆํฌ ๊ตฌ์ถ• ๋ฐฉ๋ฒ•๋ก 

ํ•ต์‹ฌ ๊ธฐ์ˆ  ํŠน์ง•

Originality

Limitation & Further Study

ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

Evaluation

Novelty: 4.5/5 Technical Soundness: 4/5 Significance: 4.5/5 Clarity: 4/5 Overall: 4.2/5

์ดํ‰: ResearchBench๋Š” ๊ณผํ•™ ๋ฐœ๊ฒฌ์—์„œ LLM์˜ ์—ญ๋Ÿ‰์„ ํ‰๊ฐ€ํ•˜๋Š” ์ฒซ ๋ฒˆ์งธ ์ฒด๊ณ„์ ์ด๊ณ  ๋Œ€๊ทœ๋ชจ์˜ ๋ฒค์น˜๋งˆํฌ๋กœ์„œ, ์˜๊ฐ ๊ฒ€์ƒ‰์˜ OOD ๋Šฅ๋ ฅ ๋ฐœ๊ฒฌ๊ณผ ์ž๋™ ์ถ”์ถœ ํ”„๋ ˆ์ž„์›Œํฌ์˜ ์„ค๊ณ„์—์„œ ์ƒ๋‹นํ•œ ์›์ฐฝ์„ฑ์„ ๋ณด์œ ํ•˜๊ณ  ์žˆ๋‹ค. ๋‹ค๋งŒ, ์ถ”์ถœ ์ •ํ™•๋„์˜ ํ•œ๊ณ„, "์˜๊ฐ"์˜ ์ฒ ํ•™์  ์ •์˜ ๋ถ€์žฌ, ์ƒ์„ฑ ๊ฐ€์„ค์˜ ๊ณผํ•™์  ํƒ€๋‹น์„ฑ ๊ฒ€์ฆ ๋ถ€์žฌ ๋“ฑ์ด ๋ฏธํ•ด๊ฒฐ ๊ณผ์ œ๋กœ ๋‚จ์•„ ์žˆ์œผ๋ฉฐ, ์ด๋“ค์ด ํ•ด์†Œ๋  ๊ฒฝ์šฐ ๊ณผํ•™ ๋ฐœ๊ฒฌ ์ž๋™ํ™” ์—ฐ๊ตฌ์˜ ์ค‘์š”ํ•œ ๊ธฐ๋ฐ˜์ด ๋  ์ˆ˜ ์žˆ์„ ๊ฒƒ์œผ๋กœ ํŒ๋‹จ๋œ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
669์—์„œ ์ œ์‹œ๋œ LLM ๊ธฐ๋ฐ˜ ๊ณผํ•™์  ์˜๊ฐ/๊ฐ€์„ค์ƒ์„ฑ-์ˆœ์œ„ํ™” ํ”„๋กœ์„ธ์Šค๋Š” 419์˜ LLM ๊ธฐ๋ฐ˜ ๊ฐ€์„ค ์ƒ์„ฑ ์›๋ฆฌ์™€ ์ง์ ‘ ์—ฐ๊ฒฐ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
ResearchBench์˜ ์˜๊ฐ/๊ฐ€์„ค ๋ฒค์น˜๋งˆํ‚น ์ž‘์—…์€ NSF-SCIFY์˜ ๊ฑฐ๋Œ€ ๊ณผํ•™์  ์ฃผ์žฅ ๋ฐ์ดํ„ฐ์…‹์„ ๊ธฐ๋ฐ˜ ์†Œ์Šค๋กœ ํ™œ์šฉํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๊ฐ€์„ค ๋ฐœ๊ฒฌยทํ‰๊ฐ€์— ์ดˆ์ ์„ ๋‘” ์ฒด๊ณ„์  ๋ฒค์น˜๋งˆํฌ๋กœ์„œ, ResearchBench์˜ ์„ค๊ณ„ ๋…ผ๋ฆฌ์™€ ๋ณด์™„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
ResearchBench์˜ ์˜๊ฐ ๊ฒ€์ƒ‰ยท๊ฐ€์„ค ์ˆœ์œ„ ๊ฒฐ์ • ์ž‘์—…์€ ์ด์ „์˜ Methodology inspiration retrieval ์—ฐ๊ตฌ ๋งฅ๋ฝ์—์„œ ํƒ„์ƒํ•œ ์ ‘๊ทผ๋ฒ•์ž…๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
LLM์˜ ๊ณผํ•™์  ๋ฐœ๊ฒฌ, ์ธ์šฉ ๋ฐ ํŽธํ–ฅ ์ธก์ •์— ๋Œ€ํ•œ ์ฒด๊ณ„์  ๋ฒค์น˜๋งˆํ‚น์œผ๋กœ ์ธ์šฉ ๋™์—ญํ•™ ๋ถ„์„๊ณผ์˜ ์ ‘์ ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
SciMON ๋…ผ๋ฌธ์€ ํ˜์‹ ์„ฑ๊ณผ ์ฐธ์‹ ์„ฑ์„ ์ตœ์ ํ™”ํ•˜๋Š” ์˜๊ฐ-๊ธฐ๋ฐ˜ ๊ณผํ•™์  ์•„์ด๋””์–ด ํ‰๊ฐ€ ์ฒด๊ณ„๋ฅผ ์ œ์•ˆํ•˜์—ฌ ์˜๊ฐ ๊ฒ€์ƒ‰, ๊ฐ€์„ค rank ๋ฐฉ์‹์˜ ๋‹ค๋ฅธ ์ ์šฉ๋ก€๋ฅผ ๋ณด์—ฌ์ค€๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ž๋™ ์—ฐ๊ตฌ ํ”„๋กœํ† ํƒ€์ดํ•‘ ๋ฐ ์‹ค์šฉ์  ํ๋ฃจํ”„ ๊ฐ€์„ค ํ‰๊ฐ€ ์‚ฌ๋ก€๋กœ, ์—ฐ๊ตฌ๋ฒค์น˜๋งˆํฌ๊ฐ€ ๋‹ค๋ฃจ์ง€ ์•Š์€ ์‹คํ—˜ ์ธก๋ฉด์„ ๋น„๊ต ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
ResearchBench ๋…ผ๋ฌธ์€ ๋‹ค์–‘ํ•œ ๊ณผํ•™ ํƒ๊ตฌ ๋ฌธ์ œ์— ๋Œ€ํ•œ LLM ์—์ด์ „ํŠธ ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ๊ณตํ•ด DeepResearch Bench์˜ ํ‰๊ฐ€ ์ง€ํ‘œ ๋ฐ ์‹คํ—˜๊ณผ ๋น„๊ต ๋ถ„์„์— ์ข‹์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๊ณผํ•™ ๋ฌธํ—Œ ๊ธฐ๋ฐ˜ ์ •๋ณด ํ•ฉ์„ฑ ๋ฐ ๋ณด๊ณ ์„œ ์ƒ์„ฑ์„ ๋‹ค๋ฃจ๋Š” ์œ ์‚ฌํ•œ ์‹œ์Šคํ…œ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๊ณผํ•™์  ๋ฐœ๊ฒฌ ๋ฐ ์š”์•ฝ ๊ณผ์ •์—์„œ LLM์˜ ์ถ”๋ก  ํŽธํ–ฅ, ์ผ๋ฐ˜ํ™”, ํ‰๊ฐ€ ๋ฌธ์ œ๋ฅผ ๊ฐ๊ฐ ๋‹ค๋ฅธ ๊ด€์ ์œผ๋กœ ๋ถ„์„ํ•˜๋ฉฐ ์ƒํ˜ธ๋ณด์™„์  ์‹œ๊ฐ์„ ์ œ๊ณตํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ž์œจ ์—ฐ๊ตฌ ์—์ด์ „ํŠธ๋“ค์˜ ํ˜‘์—… ๋˜๋Š” ๋ˆ„์ ์  ์ง€์‹ ๊ณต์œ ๋ฅผ ๋‹ค๋ฃจ๋Š” ์œ ์‚ฌํ•œ ํ”„๋ ˆ์ž„์›Œํฌ ์—ฐ๊ตฌ์ด๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
558์˜ ์‹คํ—˜ ๊ฐ€์ด๋“œ ๊ฐ€์„ค์ˆœ์œ„ ๊ณผ์ œ ๊ณต์ •์€ 669์˜ ์ฐฝ์˜์ /์˜๊ฐ ๊ธฐ๋ฐ˜ LLM ๊ฐ€์„ค ์ƒ์„ฑยทํ‰๊ฐ€ ๋ฒค์น˜๋งˆํฌ(ResearchBench)๋กœ ํ™•์žฅ๋˜๋ฉฐ, ์‹ค์ œ ๋ฒค์น˜๋งˆํฌ ๋น„๊ต๊ฐ€ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •