HypoBench: Towards Systematic and Principled Benchmarking for Hypothesis Generation

์ €์ž: Haokun Liu, Sicong Huang, Jingyu Hu, Yangqiaoyu Zhou, Chenhao Tan | ๋‚ ์งœ: 2025 | DOI: 10.48550/arXiv.2504.11524 📄 PDF


Essence

๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ(LLM)์˜ ๊ฐ€์„ค ์ƒ์„ฑ(Hypothesis Generation) ๋Šฅ๋ ฅ์„ ์ฒด๊ณ„์ ์œผ๋กœ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•ด 7๊ฐœ์˜ ์‹ค์ œ ๊ณผ์ œ์™€ 5๊ฐœ์˜ ํ•ฉ์„ฑ ๊ณผ์ œ๋กœ ๊ตฌ์„ฑ๋œ 194๊ฐœ ๋ฐ์ดํ„ฐ์…‹์„ ํฌํ•จํ•˜๋Š” ๋ฒค์น˜๋งˆํฌ HypoBench๋ฅผ ์ œ์‹œํ•œ๋‹ค. ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ์…‹์—์„œ ๋‚œ์ด๋„ ์ฆ๊ฐ€์— ๋”ฐ๋ผ ์„ฑ๋Šฅ์ด ๊ธ‰๊ฒฉํžˆ ์ €ํ•˜๋˜๋Š” ์ (์ตœ๊ณ  38.8% ํšŒ๋ณต์œจ)์„ ํ†ตํ•ด ํ˜„์กด ๊ฐ€์„ค ์ƒ์„ฑ ๋ฐฉ๋ฒ•์˜ ์ƒ๋‹นํ•œ ๊ฐœ์„  ์—ฌ์ง€๋ฅผ ๋“œ๋Ÿฌ๋‚ธ๋‹ค.

Motivation

Achievement

Figure 1: HypoBench ๋ฒค์น˜๋งˆํฌ ๊ฐœ์š”. 7๊ฐœ ์‹ค์ œ ๋ฐ 5๊ฐœ ํ•ฉ์„ฑ ์˜์—ญ์˜ 194๊ฐœ ๋ฐ์ดํ„ฐ์…‹๊ณผ ๋‚œ์ด๋„ ์ œ์–ด ๋ฐฉ์‹(๋Œ€ํ•™ ์ž…์‹œ ์‚ฌ๋ก€), ํ‰๊ฐ€ ์ง€ํ‘œ(์„ค๋ช…๋ ฅ, ํฅ๋ฏธ๋กœ์›€, ์‹ค์šฉ์„ฑ, ๊ฐ€์„ค ๋ฐœ๊ฒฌ์œจ)๋ฅผ ์‹œ๊ฐํ™”

๋Œ€ํ•™ ์ž…์‹œ ์˜ˆ์‹œ๋ฅผ ํ†ตํ•ด ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ์…‹์˜ ๋‚œ์ด๋„ ์ œ์–ด ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ๋ณด์—ฌ์คŒ: ํŠน์„ฑ ๊ฐœ์ˆ˜ ์ฆ๊ฐ€, ๋…ธ์ด์ฆˆ ์ถ”๊ฐ€, ํŠน์„ฑ ์ƒํ˜ธ์ž‘์šฉ, ๋ฐฉํ•ด ํŠน์„ฑ ์ถ”๊ฐ€

  1. ์ตœ์ดˆ์˜ ์ฒด๊ณ„์  ๋ฒค์น˜๋งˆํฌ ๊ตฌ์ถ•: ์‹ค์ œ ๊ณผ์ œ 7๊ฐœ(์‚ฌ๊ธฐ ๋ฆฌ๋ทฐ ํƒ์ง€, AI ์ƒ์„ฑ ์ฝ˜ํ…์ธ  ์‹๋ณ„, ์„ค๋“๋ ฅ ์žˆ๋Š” ์ฃผ์žฅ ์˜ˆ์ธก, ์ •์‹  ์ŠคํŠธ๋ ˆ์Šค ๊ฐ์ง€, ๋‰ด์Šค ํ—ค๋“œ๋ผ์ธ ์ฐธ์—ฌ๋„, ๋ฆฌํŠธ์œ—, ๋…ผ๋ฌธ ์ธ์šฉ)์™€ ํ•ฉ์„ฑ ๊ณผ์ œ 5๊ฐœ(๋Œ€์„ , ์„ฑ๊ฒฉ ์˜ˆ์ธก, ํ•ด์–‘ ์ƒํƒœ๊ณ„, ๋Œ€ํ•™ ์ž…์‹œ, ์‹ ๋ฐœ ํŒ๋งค)๋กœ ๊ตฌ์„ฑ๋œ 194๊ฐœ ๋ฐ์ดํ„ฐ์…‹ ์ œ๊ณต.
  2. ๋ฐฉ๋ฒ•๋ก  ๋น„๊ต ๋ถ„์„: 4๊ฐœ ์ตœ์‹  LLM(GPT-4, Claude, Qwen, Llama)๊ณผ 6๊ฐœ ๊ธฐ์กด ๊ฐ€์„ค ์ƒ์„ฑ ๋ฐฉ๋ฒ•(Zero-shot, Few-shot, Literature-Only, Data-Only, Literature+Data, HypoGeniC)์„ ์ข…ํ•ฉ ํ‰๊ฐ€. ์‹ค์ œ ๋ฐ์ดํ„ฐ์—์„œ๋Š” Literature+Data ๋ฐฉ์‹๊ณผ Qwen ๋ชจ๋ธ์ด ์ตœ๊ณ  ์„ฑ๋Šฅ.
  3. ๋‚œ์ด๋„ ์ œ์–ด๋ฅผ ํ†ตํ•œ ์„ฑ๋Šฅ ์ €ํ•˜ ๋ถ„์„: ๊ธฐ๋ณธ ํ•ฉ์„ฑ ๊ณผ์ œ์—์„œ 93.8% ๊ฐ€์„ค ๋ฐœ๊ฒฌ์œจ(HDR)์„ ๋ณด์ด๋‚˜, ๋‚œ์ด๋„ ์ฆ๊ฐ€(ํŠน์„ฑ ์ƒํ˜ธ์ž‘์šฉ, ๋…ธ์ด์ฆˆ ์ถ”๊ฐ€, ๋ฐฉํ•ด ํŠน์„ฑ)์— ๋”ฐ๋ผ 38.8%๊นŒ์ง€ ๊ธ‰๊ฒฉํžˆ ์ €ํ•˜๋˜์–ด ๊ฐœ์„  ์—ฌ์ง€ ์ž…์ฆ.
  4. ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ ํ‰๊ฐ€: ๋„๋ฉ”์ธ ๋‚ด(IND)์™€ ๋„๋ฉ”์ธ ์™ธ(OOD) ๋ถ„ํ• ์„ ํ†ตํ•ด ๋ฐœ๊ฒฌ๋œ ๊ฐ€์„ค์˜ ์‹ค์ œ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ ์ธก์ •, ๊ธฐ์กด ๋ฐฉ๋ฒ•๋“ค์˜ ํ”Œ๋กœ์‹œ๋นŒ๋ฆฌํ‹ฐ(plausibility)์™€ ์ฐธ์‹ ์„ฑ(novelty) ๊ฐ„ ๊ท ํ˜• ๋ฌธ์ œ ์ง€์ .

How

Figure 2: ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ์…‹์—์„œ HypoGeniC์˜ ๋‚œ์ด๋„๋ณ„ ๊ฐ€์„ค ๋ฐœ๊ฒฌ์œจ(HDR) ๊ฒฐ๊ณผ

Originality

Limitation & Further Study

Evaluation

์ดํ‰: HypoBench๋Š” ๊ฐ€์„ค ์ƒ์„ฑ ๋ถ„์•ผ์˜ ์ฒซ ์ฒด๊ณ„์  ๋ฒค์น˜๋งˆํฌ๋กœ์„œ, ๋ช…ํ™•ํ•œ ๋ฌธ์ œ ์ •์˜์™€ 194๊ฐœ ๋ฐ์ดํ„ฐ์…‹์˜ ๋ฐฉ๋Œ€ํ•œ ๊ทœ๋ชจ์—์„œ ํฐ ๊ฐ€์น˜๋ฅผ ์ง€๋‹Œ๋‹ค. ํŠนํžˆ ๋‚œ์ด๋„ ์ œ์–ด ๊ฐ€๋Šฅํ•œ ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ๋ฅผ ํ†ตํ•ด ํ˜„์กด ๋ฐฉ๋ฒ•(38.8% HDR)์˜ ํ•œ๊ณ„๋ฅผ ์ •๋Ÿ‰ํ™”ํ•œ ์ ์€ ํ–ฅํ›„ ์—ฐ๊ตฌ์— ๋ช…ํ™•ํ•œ ๋ฐฉํ–ฅ์„ฑ์„ ์ œ์‹œํ•œ๋‹ค. ๋‹ค๋งŒ ์‹ค์ œ ๋ฐ์ดํ„ฐ์˜ ๊ทธ๋ผ์šด๋“œ ํŠธ๋ฃจ์Šค ๋ถ€์žฌ์™€ ํฅ๋ฏธ๋กœ์›€ ์ง€ํ‘œ์˜ ๋ฏธ์™„์„ฑ์ด ํ‰๊ฐ€์˜ ์™„์ „์„ฑ์„ ์ œ์•ฝํ•˜๋ฏ€๋กœ, ํ›„์† ๊ฐœ์„ ๊ณผ ํ™•์žฅ์ด ๊ธฐ๋Œ€๋œ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
HypoBench ๋…ผ๋ฌธ์€ ์ฒด๊ณ„์  ๊ณผํ•™์  ๋ฌธ์ œ์™€ ๊ฐ€์„ค๋ฐœ๊ฒฌ ํƒœ์Šคํฌ๋ฅผ ๋ฒค์น˜๋งˆํ‚นํ•˜์—ฌ SciBench์˜ ํ‰๊ฐ€ ๋„๊ตฌ ๊ธฐ์ดˆ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
From Reasoning to Learning(363)์€ ๊ณผํ•™์  ๊ฐ€์„ค ๋ฐœ๊ฒฌ/์ƒ์„ฑ์„ ์œ„ํ•œ LLM ๋ฐฉ๋ฒ•๋ก ์„ ์„œ๋ฒ ์ดํ•˜๋ฉฐ, 417์˜ ๋ฒค์น˜๋งˆํฌ ์„ค๊ณ„ ์‹œ์ ์— ๋ฐฐ๊ฒฝ์ง€์‹์œผ๋กœ ์ ํ•ฉํ•˜๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๊ฐ€์„ค ๋ฐœ๊ฒฌยทํ‰๊ฐ€์— ์ดˆ์ ์„ ๋‘” ์ฒด๊ณ„์  ๋ฒค์น˜๋งˆํฌ๋กœ์„œ, ResearchBench์˜ ์„ค๊ณ„ ๋…ผ๋ฆฌ์™€ ๋ณด์™„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
417(HypoBench)๋Š” LLM ๋ฐ ์—์ด์ „ํŠธ ๊ธฐ๋ฐ˜ ๊ณผํ•™ ๊ฐ€์„ค๋ฒค์น˜๋งˆํฌ ๊ฐœ๋ฐœ ๋ฐ ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ์˜ ์ด๋ก ์  ๊ธฐ๋ฐ˜์„ ์ œ์‹œํ•˜์—ฌ 558์˜ ๊ณผ์ œ ์„ค๊ณ„์— ์ž์–‘๋ถ„์„ ์ค๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
417 ๋…ผ๋ฌธ์€ ๊ณผํ•™์  ๊ฐ€์„ค ํ‰๊ฐ€๋ฅผ ์œ„ํ•œ ์ฒด๊ณ„์  ๋ฒค์น˜๋งˆํฌ๋ฅผ ๊ตฌ์ถ•ํ•ด 763์˜ HypoGen ๋ฐ์ดํ„ฐ์…‹ ๊ธฐ๋ฐ˜ ๊ฐ€์„ค ์ƒ์„ฑ ํ”„๋ ˆ์ž„ ์„ค๊ณ„์— ๊ทผ๊ฑฐ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
HypoBench(417)์€ ํ˜์‹ ์  ๋ฌธ์ œ-๊ฐ€์„ค ์กฐํ•ฉ ํ‰๊ฐ€๋ฅผ ์œ„ํ•œ systematic benchmarking์„ ์ œ๊ณตํ•ด, 777๋ฒˆ์˜ ํ˜์‹ ์  ๊ตฌ์กฐ ๋ฐœ๊ฒฌ ํ”„๋ ˆ์ž„์›Œํฌ์˜ ๊ธฐ๋ฐ˜์ด ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๊ณผํ•™์  ๊ฐ€์„ค ์ƒ์„ฑ์— ๋Œ€ํ•œ ์‹œ์Šคํ…œ์  ๋ฒค์น˜๋งˆํ‚น์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•œ ๊ธฐ๋ณธ ์—ฐ๊ตฌ๋กœ ํ˜„ HypoBench ๋ฐ์ดํ„ฐ์…‹ ๋ฐ ํ‰๊ฐ€ ๊ธฐ์ค€ ์„ค์ •์˜ ๋ผˆ๋Œ€๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๊ณผํ•™์  ๊ฐ€์„ค ์ƒ์„ฑ ๋ฐ ๊ฒ€์ฆ ๋ฒค์น˜๋งˆํ‚น์˜ ์›์น™์  ๊ธฐ์ค€ ์ˆ˜๋ฆฝ์„ ํ†ตํ•ด MolQuest์˜ ์—์ด์ „ํŠธ ํ‰๊ฐ€ ์ง€ํ‘œ ์ •์˜์— ์ด๋ก ์  ๋ฐฐ๊ฒฝ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
417์€ LLM์„ ํ™œ์šฉํ•œ ๊ณผํ•™์  ์•„์ด๋””์–ด ์ƒ์„ฑ ๋ฒค์น˜๋งˆํฌ ํ‰๊ฐ€๋ฅผ ๋‹ค๋ฃจ์–ด, 153์˜ ์ฐฝ์˜์„ฑ ๋น„๊ต ์‹คํ—˜๊ณผ ๋ฌธ์ œ์˜์‹์ด ๊ฒน์นœ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋‘ ๋…ผ๋ฌธ ๋ชจ๋‘ LLM ๊ธฐ๋ฐ˜ ๊ณผํ•™ ๊ฐ€์„ค ์ƒ์„ฑ์˜ ํ‰๊ฐ€ ๋ฐฉ๋ฒ•์— ์ง‘์ค‘ํ•˜๋‚˜, ํ•˜๋‚˜๋Š” ๋ฒค์น˜๋งˆํฌ ์„ค๊ณ„์—, ๋‹ค๋ฅธ ํ•˜๋‚˜๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜ ๊ฐœ์„ ์— ์ดˆ์ ์„ ๋‘ก๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๊ฐ€์„ค ์ƒ์„ฑ LLM์˜ ์‹ ๋ขฐ์„ฑยท์ •ํ™•์„ฑ ๊ธฐ์ค€์„ ํ‰๊ฐ€ํ•˜๋Š” ๋ฒค์น˜๋งˆํฌ๋กœ, HypoBench์˜ ๋ฐ์ดํ„ฐ์™€ ์„ฑ๋Šฅ ํ•œ๊ณ„๋ฅผ ๋น„๊ตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
HypoBench๋Š” LLM์˜ ๊ณผํ•™์  ๊ฐ€์„ค ์ƒ์„ฑ/๊ฒ€์ฆ ์—ญ๋Ÿ‰์„ ์—„๋ฐ€ํ•˜๊ฒŒ ๋ฒค์น˜๋งˆํ‚นํ•˜๋Š” ํ”„๋ ˆ์ž„์›Œํฌ๋กœ, EAIRA์™€ ์œ ์‚ฌํ•˜๊ฒŒ AI์˜ ๊ณผํ•™์  ํ‰๊ฐ€๋ฅผ ๋‹ค์–‘ํ•œ ์‹œ๊ฐ์—์„œ ์ ‘๊ทผํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋ฌผ๋ฆฌ์  ์ œ์•ฝ์„ ๋ฐ˜์˜ํ•œ ๊ฒฐ์ • ๊ตฌ์กฐ ์„ค๊ณ„๋ฅผ ์œ„ํ•œ ๋Œ€์•ˆ์  ๋ฐฉ๋ฒ•๋ก ์„ ์ œ์‹œํ•˜๋Š” ์—ฐ๊ตฌ์ด๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
์ƒ์˜ํ•™ ์ง€์‹ ๋„คํŠธ์›Œํฌ ๊ธฐ๋ฐ˜ ๊ฐ€์„ค ์ƒ์„ฑ์„ ํŠน์ • ์‘์šฉ ๋ถ„์•ผ์— ์ ์šฉํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
HypoBench๋Š” ๊ฐ€์„ค ๋ฐœ๊ฒฌ ๋ฐ ๊ทœ์น™ํ•™์Šต ๊ด€๋ จ LLM ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ๊ณตํ•˜์—ฌ, Survey ๋…ผ๋ฌธ์ด ์ œ๊ธฐํ•œ ๊ฐ€์„คํ˜• AI์˜ ์‹ค์ฆ์  ํ‰๊ฐ€ ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
HypoBench(417)๋Š” LLM ๊ธฐ๋ฐ˜ ์˜คํ”ˆ ๋„๋ฉ”์ธ ๊ณผํ•™ ๊ฐ€์„ค ํƒ์ƒ‰ ์„ฑ๋Šฅ์„ ์‹œํ—˜ํ•  ์‹ค์ œ ๋ฒค์น˜๋งˆํฌ ๋ฐ์ดํ„ฐ์…‹์„ ์ œ๊ณตํ•œ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •