Large Language Models for Automated Open-domain Scientific Hypotheses Discovery

์ €์ž: Zonglin Yang, Xinya Du, Junxian Li, Jie Zheng, Soujanya Poria | ๋‚ ์งœ: 2023.09 | DOI: ๋ฏธ์ œ๊ณต 📄 PDF


Essence

Figure 1

Figure 1: Comparison of the two paradigms for scien-

๋ณธ ๋…ผ๋ฌธ์€ LLMs(Large Language Models)์„ ํ™œ์šฉํ•œ ์ž๋™ํ™”๋œ ํ•™์ˆ ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ(ASPR: Automated Scholarly Paper Review) ํ˜„ํ™ฉ์— ๋Œ€ํ•œ ์ข…ํ•ฉ์ ์ธ ์„œ๋ฒ ์ด ์—ฐ๊ตฌ์ด๋‹ค. ChatGPT ์ถœ์‹œ ์ดํ›„ LLMs๊ฐ€ ํ•™์ˆ  ์ถœํŒ ๋ฐ ํ”ผ์–ด ๋ฆฌ๋ทฐ ๊ณผ์ •์— ๋ฏธ์นœ ์˜ํ–ฅ์„ ์ฒด๊ณ„์ ์œผ๋กœ ๋ถ„์„ํ•˜๊ณ , ํ˜„์žฌ์˜ ASPR๊ณผ ์ „ํ†ต์  ํ”ผ์–ด ๋ฆฌ๋ทฐ์˜ ๊ณต์กด ๋‹จ๊ณ„๋ฅผ ๋‹ค๋ฃฌ๋‹ค.

Motivation

Achievement

Figure 1

Figure 1: Comparison of the two paradigms for scien-

์ฃผ์š” ๋ฐœ๊ฒฌ์‚ฌํ•ญ:

How

Figure 1

Figure 1: Comparison of the two paradigms for scien-

Originality

Limitation & Further Study

Evaluation

Novelty: 3/5 Technical Soundness: 3/5 Significance: 3/5 Clarity: 3/5 Overall: 3/5

์ดํ‰: ๋ณธ ๋…ผ๋ฌธ์€ LLMs๋ฅผ ํ™œ์šฉํ•œ ์ž๋™ํ™”๋œ ํ•™์ˆ  ๋ฆฌ๋ทฐ์˜ ํ˜„ํ™ฉ์„ ์ตœ์ดˆ๋กœ ์ฒด๊ณ„์ ์œผ๋กœ ์กฐ์‚ฌํ•œ ์ข…ํ•ฉ ์„œ๋ฒ ์ด๋กœ, ASPR ๋ถ„์•ผ์˜ LLM ์ƒํƒœ๊ณ„(๋ชจ๋ธ ์„ ํƒ, ๊ธฐ์ˆ ์  ๊ธฐ์—ฌ, ์ƒˆ๋กœ์šด ๋ฆฌ์†Œ์Šค, ์œค๋ฆฌ ์ด์Šˆ)๋ฅผ ์ผ๋ชฉ์š”์—ฐํ•˜๊ฒŒ ์ •๋ฆฌํ•œ ์‹ค์šฉ์  ๊ฐ€์น˜๊ฐ€ ์žˆ๋‹ค. ๋‹ค๋งŒ ์ œ๊ณต๋œ ์ดˆ๋ฐ˜ ์„น์…˜๋งŒ์œผ๋กœ๋Š” ๋…ผ๋ฌธ์˜ ํ•ต์‹ฌ ๊ธฐ์—ฌ(๊ธฐ์ˆ ์  ๋ณ‘๋ชฉ ํ•ด๊ฒฐ, ์„ฑ๋Šฅ ๋ถ„์„, ์ถœํŒ๊ณ„ ๋ฐ˜์‘, ํ–ฅํ›„ ๊ณผ์ œ)๋ฅผ ์™„์ „ํžˆ ํ‰๊ฐ€ํ•˜๊ธฐ ์–ด๋ ค์šฐ๋ฉฐ, ๋น ๋ฅด๊ฒŒ ๋ณ€ํ™”ํ•˜๋Š” LLM ๋ถ„์•ผ์˜ ๋™์  ์„ฑ๊ฒฉ์ƒ ์žฅ๊ธฐ์  ์œ ์šฉ์„ฑ ๊ฒ€์ฆ์ด ํ•„์š”ํ•˜๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ์„ ํ†ตํ•œ ๊ณผํ•™์  ๊ฐ€์„ค ์ƒ์„ฑ ๊ธฐ์ดˆ์™€ ๊ธฐ์กด ๋ฐฉ๋ฒ•๋ก ์˜ ํ•œ๊ณ„๋ฅผ ์„ค๋ช…ํ•˜์—ฌ, ๋ณธ ๋…ผ๋ฌธ์ด ์ด๋ฃฌ ๋„์•ฝ์„ ์ดํ•ดํ•˜๋Š” ๋ฐ ๋„์›€์ด ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
LLM์„ ํ™œ์šฉํ•œ ๊ฐœ๋ฐฉ ๋„๋ฉ”์ธ ๊ณผํ•™ ๊ฐ€์„ค ์ž๋™ ์ƒ์„ฑ ์‹œ์Šคํ…œ์„ ์ œ์•ˆํ•˜์—ฌ, ์žฌ๋ฃŒ๊ณผํ•™ ๊ฐ€์„ค์ƒ์„ฑ ์‘์šฉ์˜ ๊ธฐ๋ฐ˜์ด ๋œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM์„ ํ™œ์šฉํ•œ ๋…ผ๋ฌธ ์•„์ด๋””์–ด ์ž๋™ ์ œ์•ˆ ์‹œ์Šคํ…œ์œผ๋กœ, ๊ฐ€์„ค ์ƒ์„ฑ ์ž๋™ํ™”์˜ ๋‹ค์–‘ํ•œ ์‹ค์ œ ๊ตฌํ˜„์„ ๋น„๊ตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๊ณผํ•™์  ์˜ค๋ณด ํƒ์ง€ ๋ฐ ์ž๋™ ์˜คํ”ˆ๋„๋ฉ”์ธ ๊ฐ€์„ค ํ™•์ธ์— ๋Œ€ํ•œ LLM ๊ธฐ๋ฐ˜ ์ ‘๊ทผ์„ ์‹ค์ œ ์‹œ์Šคํ…œ์— ์ ์šฉํ•œ ์‚ฌ๋ก€์ž…๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
473 'Large Language Models for Automated Open-domain Scientific Hypothesis Generation' ๋…ผ๋ฌธ์€ ๋ฏธ๋ž˜ ์—ฐ๊ตฌ ์งˆ๋ฌธ ์ƒ์„ฑ์ด๋ผ๋Š” ๋ชฉ์ ์— ๋Œ€ํ•ด LLM ๊ธฐ๋ฐ˜์˜ ํ•˜์ดํฌ์‹œ์Šค ์ž๋™ ์ƒ์„ฑ ์ ‘๊ทผ๋ฒ•์„ ์ œ์‹œํ•ด ๋‘ ๋…ผ๋ฌธ์„ ๋น„๊ตํ•˜๋ฉด RAG vs ์ƒ๋žตํ˜• ๋ฐฉ๋ฒ•๋ก ์˜ ์ฐจ์ด๋ฅผ ์•Œ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
719๋Š” LLM ๊ธฐ๋ฐ˜ ๊ฐœ๋ฐฉํ˜• ๊ณผํ•™ ๊ฐ€์„ค์ƒ์„ฑ์˜ ์ž ์žฌ๋ ฅ๊ณผ ํ•œ๊ณ„์— ๋Œ€ํ•œ ๋น„๊ต ํ‰๊ฐ€๋ฅผ ํ†ตํ•ด, 473 ๋…ผ๋ฌธ์˜ ์ž๋™ํ™” ์‹œ์Šคํ…œ๊ณผ ์ƒํ˜ธ ๋ณด์™„์  ๋…ผ์˜๊ฐ€ ๊ฐ€๋Šฅํ•˜๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
473๋ฒˆ ๋…ผ๋ฌธ์€ LLM์„ ํ™œ์šฉํ•œ ๊ณผํ•™์  ๊ฐ€์„ค ์ž๋™์ƒ์„ฑ ์‹คํ—˜๊ณผ ํ‰๊ฐ€ ๋ฐฉ๋ฒ•์— ์ดˆ์ ์„ ๋งž์ถ”๋ฉฐ, 882๋ฒˆ ์ธ์šฉยทLLM ์ƒํ˜ธ์ž‘์šฉ ์‹ฌ์ธต ์กฐ์‚ฌ์˜ ์‘์šฉํŒ์ด๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
479๋Š” ๋Œ€๊ทœ๋ชจ LLM์„ ํ™œ์šฉํ•œ ๊ณผํ•™ ์ง€์‹ ํ•ฉ์„ฑยท๋ฐœ๊ฒฌ ๊ณผ์ •์˜ ์ฒด๊ณ„์  ํ”„๋ ˆ์ž„์„ ์ œ์•ˆํ•˜๋ฉฐ, 473์˜ ๊ฐœ๋ฐฉํ˜• ๊ฐ€์„ค์ƒ์„ฑ ์—ฐ๊ตฌ๋ฅผ ํฌ๊ด„์ ์œผ๋กœ ํ™•์žฅํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
ResearchAgent(668)๋Š” LLM์„ ์ด์šฉํ•œ ์—ฐ๊ตฌ์•„์ด๋””์–ด ์ƒ์„ฑ๊ณผ ๊ฒ€์ฆ์„ ๋ฐ˜๋ณตํ•˜๋Š” ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•˜์—ฌ, 473 ๋…ผ๋ฌธ์˜ ์ž๋™ ์—ฐ๊ตฌ ๊ฐ€์„ค ์‹œ์Šคํ…œ์„ ํ™•์žฅํ•œ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
LLM์„ ํ™œ์šฉํ•œ ์‹ค์ œ ๊ณผํ•™์  ๊ฐ€์„ค ์ƒ์„ฑ ๋ฐ ์ž๋™ ๋ฌธํ—Œ QA ์‘์šฉ ์‚ฌ๋ก€๋กœ, 467์˜ LLM ๊ฐœ๋…์  ์„ค๋ช…์ด ์‹ค์งˆ์ ์œผ๋กœ ์—ฐ๊ตฌ์— ํ™œ์šฉ๋˜๋Š” ๋ฐฉ์‹์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
HypoBench(417)๋Š” LLM ๊ธฐ๋ฐ˜ ์˜คํ”ˆ ๋„๋ฉ”์ธ ๊ณผํ•™ ๊ฐ€์„ค ํƒ์ƒ‰ ์„ฑ๋Šฅ์„ ์‹œํ—˜ํ•  ์‹ค์ œ ๋ฒค์น˜๋งˆํฌ ๋ฐ์ดํ„ฐ์…‹์„ ์ œ๊ณตํ•œ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •