Toward Reliable Scientific Hypothesis Generation: Evaluating Truthfulness and Hallucination in Large Language Models

์ €์ž: Guangzhi Xiong, Eric Xie, Corey Williams, Myles Kim, Amir Hassan Shariatmadari | ๋‚ ์งœ: 2025 | DOI: 10.24963/ijcai.2025/873 📄 PDF


Essence

Figure 1

Figure 1: Overview of the TruthHypo benchmark, including dataset construction, task formulation, and truthfulness evalua

LLM์ด ์ƒ์„ฑํ•œ ๊ณผํ•™ ๊ฐ€์„ค์˜ ์‹ ๋ขฐ์„ฑ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•ด TruthHypo ๋ฒค์น˜๋งˆํฌ์™€ KnowHD ํ• ๋ฃจ์‹œ๋„ค์ด์…˜ ํƒ์ง€ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•˜๋ฉฐ, ๊ธฐ์กด ์ง€์‹์— ๊ธฐ๋ฐ˜ํ•œ ๊ฐ€์„ค ํ•„ํ„ฐ๋ง์˜ ํšจ๊ณผ๋ฅผ ์ž…์ฆํ•œ๋‹ค.

Motivation

Achievement

How

Figure 1

Figure 1: Overview of the TruthHypo benchmark, including dataset construction, task formulation, and truthfulness evalua

Originality

Limitation & Further Study

Evaluation

Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

์ดํ‰: ๋ณธ ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜ ๊ณผํ•™ ๊ฐ€์„ค ์ƒ์„ฑ์˜ ์‹ ๋ขฐ์„ฑ ํ‰๊ฐ€๋ผ๋Š” ์ค‘์š”ํ•œ ๋ฌธ์ œ๋ฅผ ์ฒด๊ณ„์ ์œผ๋กœ ๋‹ค๋ฃจ๋ฉฐ, ์‹œ๊ฐ„ ๊ธฐ๋ฐ˜ ๋ฒค์น˜๋งˆํฌ์™€ ์ถ”๋ก  ๊ณผ์ • ๋ถ„์„์„ ํ†ตํ•œ ํ• ๋ฃจ์‹œ๋„ค์ด์…˜ ํƒ์ง€๋ผ๋Š” ํ˜์‹ ์  ์ ‘๊ทผ์„ ์ œ์‹œํ•œ๋‹ค. ๋‹ค๋งŒ ์ƒ์˜ํ•™ ๋„๋ฉ”์ธ ํ•œ์ •๊ณผ ์ธ๊ฐ„ ํ‰๊ฐ€์˜ ์ œํ•œ ๋“ฑ์„ ๊ฐœ์„ ํ•œ๋‹ค๋ฉด ๋”์šฑ ๊ฐ•๋ ฅํ•œ ๊ธฐ์—ฌ๊ฐ€ ๋  ์ˆ˜ ์žˆ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
419๋Š” LLM ๊ธฐ๋ฐ˜ ๊ณผํ•™ ๊ฐ€์„ค ์ƒ์„ฑ์˜ ๊ทผ๊ฐ„ ๊ฐœ๋…๊ณผ ํ•œ๊ณ„๋ฅผ ์„ค๋ช…ํ•˜์—ฌ, 820์˜ ์‹ ๋ขฐ์„ฑ ํ‰๊ฐ€์™€ ๋Œ€์‘์ฑ… ์„ค์ •์˜ ๋ฐฐ๊ฒฝ์ด ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
763์€ ๊ฐ€์„ค ์ƒ์„ฑ์šฉ ๊ตฌ์กฐํ™” ๋ฐ์ดํ„ฐ์…‹๊ณผ ๋ชจ๋ธ์„ ์ œ์•ˆํ•˜๋ฉฐ, 820์—์„œ ๋ฒค์น˜๋งˆํฌ๋กœ ํ™œ์šฉ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
์‹ ๋ขฐํ•  ์ˆ˜ ์žˆ๋Š” ๊ณผํ•™์  ๊ฐ€์„ค ์ƒ์„ฑ ๋ฐ ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ํ†ตํ•ด ์‹คํ—˜์‹ค ๊ฒ€์ฆ ์—ฐ๊ตฌ์˜ ์‹ ๋ขฐ์„ฑ ๊ทผ๊ฑฐ๋ฅผ ์ œ๊ณตํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ƒ์˜ํ•™ ์ง€์‹ ๋„คํŠธ์›Œํฌ๋ฅผ ํ™œ์šฉํ•œ ๊ฐ€์„ค ์ƒ์„ฑ์„ ๋‹ค๋ฅธ ๋ฐฉ๋ฒ•๋ก ์œผ๋กœ ์ ‘๊ทผํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
426์€ ์ง€์‹ ๊ธฐ๋ฐ˜ ํ•„ํ„ฐ๋ง ๋ฐ ๊ทธ๋ž˜ํ”„๋ฅผ ํ†ตํ•ด ๊ณผํ•™ ๊ฐ€์„ค ํ‰๊ฐ€์— ์ ‘๊ทผํ•˜์—ฌ 820์˜ TruthHypo ๋ฒค์น˜๋งˆํฌ์™€ ๋น„๊ตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์˜๋ฃŒ ๋ถ„์•ผ์—์„œ LLM์„ ํ™œ์šฉํ•œ ์ง€์‹ ์ถ”์ถœ ๋ฐ ๋ฌธํ—Œ ๋ถ„์„์„ ๋‹ค๋ฃจ๋Š” ์œ ์‚ฌํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
820์€ ๊ณผํ•™ ๊ฐ€์„ค ์ƒ์„ฑ์—์„œ LLM ํ™˜๊ฐ ๋ฐ ์‹ ๋ขฐ์„ฑ ๋ฌธ์ œ๋ฅผ ์‹คํ—˜์ ์œผ๋กœ ๋‹ค๋ฃจ๋ฉฐ, 736๊ณผ ์‹ ๋ขฐ์„ฑ ํ‰๊ฐ€ ๋ฒ”์œ„๊ฐ€ ์—ฐ๊ฒฐ๋ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๊ฐ€์„ค ์ƒ์„ฑ LLM์˜ ์‹ ๋ขฐ์„ฑยท์ •ํ™•์„ฑ ๊ธฐ์ค€์„ ํ‰๊ฐ€ํ•˜๋Š” ๋ฒค์น˜๋งˆํฌ๋กœ, HypoBench์˜ ๋ฐ์ดํ„ฐ์™€ ์„ฑ๋Šฅ ํ•œ๊ณ„๋ฅผ ๋น„๊ตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์‹ ๋ขฐ์„ฑ์— ์ดˆ์ ์„ ๋งž์ถ˜ LLM ๊ธฐ๋ฐ˜ ๊ณผํ•™์  ๊ฐ€์„ค ์ƒ์„ฑ ๋ฐ ์ธ๊ณผ์ถ”๋ก  ํ‰๊ฐ€ ์—ฐ๊ตฌ๋กœ, 474์˜ zero-shot ์ธ๊ณผ์ถ”๋ก  ํ”„๋ ˆ์ž„์›Œํฌ์™€ ๋ณด์™„์  ๊ด€์ ์—์„œ ์ฝ์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
820์€ ๊ณผํ•™์  ๊ฐ€์„ค ์ƒ์„ฑ ํšจ์šฉ์„ฑ ๋ฐ ์‹ ๋ขฐ๋„ ํ‰๊ฐ€ ๊ธฐ์ค€์„ ์ œ์•ˆํ•˜๋ฉฐ, 149์˜ ๋ฒ ์ด์ง€์•ˆยท์—”ํŠธ๋กœํ”ผ ๊ธฐ๋ฐ˜ ๋ฐ˜๋ณต ํ‰๊ฐ€ ๋ฐฉ์‹๊ณผ ๋‹ค๋ฅธ ์‹ ๋ขฐ์„ฑ ๊ฒ€์ฆ ์‹œ๊ฐ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋‹ค์ค‘ ์–ธ์–ด ๋ฐ ๋‹ค์ค‘ ๋ชจ๋‹ฌ LLM์˜ ํ™˜๊ฐ ๋ฌธ์ œ๋ฅผ ํ‰๊ฐ€ํ•˜๋Š” ์œ ์‚ฌํ•œ ๋ฒค์น˜๋งˆํฌ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
ResearchAgent ๋…ผ๋ฌธ์€ ๊ณผํ•™ ๋…ผ๋ฌธ์— ๋Œ€ํ•œ ์•„์ด๋””์–ด ๋ฐ ๊ฐ€์„ค ์ƒ์„ฑ์„ ๋ฐ˜๋ณต์ ์œผ๋กœ ํ‰๊ฐ€ํ•˜๋Š” ์‹œ์Šคํ…œ์„ ์ œ์‹œํ•˜์—ฌ TruthHypo ๋ฒค์น˜๋งˆํฌ์™€ ์‹ ๋ขฐ๋„ ํ‰๊ฐ€ ๋ฐฉ์‹์ด ์œ ์‚ฌํ•˜๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
820๋ฒˆ ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜ ๊ณผํ•™์  ๊ฐ€์„ค ์ƒ์„ฑ์˜ ์‹ ๋ขฐ์„ฑ ํ‰๊ฐ€์— ์ดˆ์ ์„ ๋งž์ถ”์–ด, ์–ธ์–ด ์—์ด์ „ํŠธ์˜ ๊ณผํ•™์  ์‹ค๋ฌด ๋Šฅ๋ ฅ์— ๋Œ€ํ•œ ๋‹ค์–‘ํ•œ ํ‰๊ฐ€ ๋ฐฉ์‹์„ ์„œ๋กœ ๋น„๊ตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
820๋ฒˆ ๋…ผ๋ฌธ์€ ๊ณผํ•™์  ๊ฐ€์„ค ๋ฐ ์‹คํ—˜ ์‹ ๋ขฐ๋„ ํ‰๊ฐ€์— ์ดˆ์ ์„ ๋งž์ถ”์–ด, ์‚ฐ์—…ํ˜„์žฅ ์‹คํ—˜ ์ตœ์ ํ™”์™€ ๋‹ค๋ฅธ ์ธก๋ฉด์˜ ์—์ด์ „ํŠธ ํ™œ์šฉ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
820์€ LLM์˜ ๊ณผํ•™์  ๊ฐ€์„ค ์ƒ์„ฑ ์‹œ ์‹ ๋ขฐ์„ฑ๊ณผ ํ‰๊ฐ€ ์ฒ™๋„์— ์ง‘์ค‘ํ•˜์—ฌ, 468์˜ ์ฃผ์žฅ์— ์‹ค์ฆ์  ๊ทผ๊ฑฐ์™€ ์‹ค์ œ์  ํ•œ๊ณ„๋ฅผ ๋”ํ•ด์ค€๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
820์€ ๊ณผํ•™์  ๊ฐ€์„ค ์ƒ์„ฑ์˜ ์‹ ๋ขฐ์„ฑ๊ณผ ์‹ค์ œ์  ๊ฒ€์ฆ ๊ธฐ์ค€์„ ํ™•๋ฆฝํ•˜์—ฌ, MOOSE-Chem์˜ ์ž๋™ ๊ฐ€์„ค ์ถ”์ฒœ ํ•œ๊ณ„ ๋ฐ ๊ฐœ์„ ๋ฐฉํ–ฅ์„ ์ œ์‹œํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
LLM ๊ธฐ๋ฐ˜ ์‹ ๋ขฐ๊ฐ€๋Šฅํ•œ ๊ณผํ•™์  ๊ฐ€์„ค ๋ฐ ์˜ค๋ณด ํŒ๋ณ„ ํ”„๋ ˆ์ž„์›Œํฌ ๊ฐœ๋ฐœ๋กœ, scientific news์—์„œ ์˜ค๋ณด ํƒ์ง€ task์˜ ํ™•์žฅ ์‚ฌ๋ก€์ž…๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
736์€ ๊ณผํ•™ ๋ถ„์•ผ์—์„œ LLM์˜ ์‹ ๋ขฐ์„ฑ(framework)์„ ์ข…ํ•ฉ์ ์œผ๋กœ ํ‰๊ฐ€ํ•˜์—ฌ, 820์˜ ์ง„์‹ค์„ฑ ๋ฐ ํ™˜๊ฐ ์ด์Šˆ ํ‰๊ฐ€์™€ ์ง์ ‘์ ์œผ๋กœ ์—ฐ๊ฒฐ๋ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
827์€ ์‚ฌ์‹ค์  ์ฃผ์žฅ ์ถ”์ถœ๊ณผ ํ‰๊ฐ€ ๊ตฌ์กฐ์— ์ดˆ์ ์„ ๋งž์ถ”์–ด 820์˜ ์ง„์‹ค์„ฑ ๋ฒค์น˜๋งˆํฌ ๊ตฌ์ถ•์„ ๋ณด์™„ํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
820์€ LLM ๊ธฐ๋ฐ˜ ๊ณผํ•™ ๊ฐ€์„ค ์‹ ๋ขฐ์„ฑ ํ‰๊ฐ€ ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ์‹œ, 763์—์„œ ์ƒ์„ฑ๋œ ๊ฐ€์„ค๊ณผ์˜ ์ •ํ•ฉ๋„๋ฅผ ์ •๋Ÿ‰์ ์œผ๋กœ ์ธก์ •ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Toward Reliable Scientific Hypothesis Generation ๋…ผ๋ฌธ์€ ๊ณผํ•™์  ๋ฐœ๊ฒฌ ๊ณผ์ •์—์„œ ์‹ ๋ขฐ์„ฑ ํ™•๋ณด ๋ฐฉ์•ˆ์— ์ดˆ์ ์„ ๋‘์–ด, SafeScientist์˜ ๋ฆฌ์Šคํฌ ์ธ์‹ ์•ˆ์ „ ๋ฉ”์ปค๋‹ˆ์ฆ˜๊ณผ ์ง์ ‘์ ์œผ๋กœ ์—ฐ๊ฒฐ๋œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
๊ณผํ•™์  ๊ฐ€์„ค์ƒ์„ฑ์˜ ์‹ ๋ขฐ์„ฑ ํ‰๊ฐ€, ์‹ค์ œ ์ ์šฉ์˜ ํ•œ๊ณ„์™€ ์ „๋žต์„ ๋‹ค๋ฃจ๋ฏ€๋กœ, 031์ด ์ œ์‹œํ•œ โ€˜ํ–ฅํ›„ ์‹œ์‚ฌ์ โ€™์„ ์‹ค์ œ๋กœ ๋‹ค๋ฃฌ ์—ฐ๊ตฌ์ž„.
์‘์šฉ ์‚ฌ๋ก€
๋™์  ์‹œ์Šคํ…œ์— ๋Œ€ํ•œ ์ƒ์„ฑ์  ๋จธ์‹ ๋Ÿฌ๋‹ ๋ฐ ์ž๋™ ๋ฐœ๊ฒฌ ์ ์šฉ ์‚ฌ๋ก€๋กœ, LLM์„ ํ™œ์šฉํ•œ ๊ณผํ•™์  ๊ฐ€์„ค ์ƒ์„ฑ์˜ ์‹ค์ œ ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ์„ ์‚ดํŽด๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋ฐ˜๋ก /๋น„ํŒ
๊ฐ€์„ค ์ƒ์„ฑ ๋ฐ ๊ฒ€์ฆ ์ž๋™ํ™”์— ๋Œ€ํ•œ ์‹ ๋ขฐ์„ฑยทํƒ€๋‹น์„ฑ ๋ฌธ์ œ์™€ ์‹ค์ œ ๊ตฌํ˜„ ๊ณผ์ •์—์„œ POPPER์˜ ํ•œ๊ณ„๋ฅผ ๊ฒฝํ—˜์ ์œผ๋กœ ๋ถ„์„ํ•ฉ๋‹ˆ๋‹ค.
๋ฐ˜๋ก /๋น„ํŒ
๊ณผํ•™ ๋ฌธ์ œ์—์„œ LLM์˜ ์‹ ๋ขฐ์„ฑ๊ณผ ๋ฐ˜๋ณต์  ์ž๊ธฐ๊ฒ€์ฆ์— ๋Œ€ํ•œ ํ‰๊ฐ€๊ฐ€ ์ฝ”๋“œ ํ’ˆ์งˆ๊ณผ similarํ•˜๊ฒŒ ์—ฐ๊ฒฐ๋ฉ๋‹ˆ๋‹ค.
๋ฐ˜๋ก /๋น„ํŒ
๋ถ„์‚ฐ๋œ ๋ฐ์ดํ„ฐ ํŠน์„ฑ, ์‹ ๋ขฐ์„ฑ ๋ฌธ์ œ ๋“ฑ ํ˜„์‹ค์  ์ œ์•ฝ ํ•˜์—์„œ ๊ณผํ•™ ์—ฐ๊ตฌ ์ž๋™ํ™”๋ฅผ LLM ๊ธฐ๋ฐ˜ ๊ฐ€์„ค ์ƒ์„ฑ ๋งฅ๋ฝ์—์„œ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •