Research hypothesis generation over scientific knowledge graphs

์ €์ž: Agustรญn Borrego, Danilo Dessรฌ, Daniel Ayala, Inma Hernรกndez, Francesco Osborne, Diego Reforgiato Recupero, Davide Buscaldi, David Ruiz, Enrico Motta | ๋‚ ์งœ: 04/2025 | DOI: 10.1016/j.knosys.2025.113280 📄 PDF


Essence

Figure 1

Fig. 1. The proposed approach to generate research hypotheses from a scientific KG.

ResearchLink๋Š” knowledge graph์˜ ๊ฒฝ๋กœ ๊ธฐ๋ฐ˜ ํŠน์ง•, KGE, ํ…์ŠคํŠธ ์ž„๋ฒ ๋”ฉ์„ ๊ฒฐํ•ฉํ•˜์—ฌ ๊ณผํ•™ ๋ถ„์•ผ ์ „๋ฐ˜์— ๊ฑธ์ณ ๋„๋ฉ”์ธ ๋…๋ฆฝ์ ์œผ๋กœ ์—ฐ๊ตฌ ๊ฐ€์„ค์„ ์ƒ์„ฑํ•˜๋Š” ๋ฐฉ๋ฒ•๋ก ์ด๋‹ค.

Motivation

Achievement

Figure 2

Fig. 2. Results summary of each tested method. ResearchLink (best) denotes the version

How

Figure 1

Fig. 1. The proposed approach to generate research hypotheses from a scientific KG.

Originality

Limitation & Further Study

Evaluation

Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

์ดํ‰: ResearchLink๋Š” ๊ธฐ์กด์˜ ๋‹จ์ˆœ KGE ๊ธฐ๋ฐ˜ link prediction ๋ฐฉ๋ฒ•์„ ๋„˜์–ด ํ…์ŠคํŠธ ์˜๋ฏธ๋ก ๊ณผ ์„œ์ง€ํ•™์  ๋งฅ๋ฝ์„ ํ†ตํ•ฉํ•จ์œผ๋กœ์จ ์‹ค์งˆ์  ์—ฐ๊ตฌ ๊ฐ€์„ค ์ƒ์„ฑ์— ์ ํ•ฉํ•œ ์ฐฝ์˜์  ๋ฐฉ๋ฒ•๋ก ์„ ์ œ์‹œํ•˜๋ฉฐ, ๊ณต๊ฐœ ๋ฐ์ดํ„ฐ์…‹๊ณผ ์˜คํ”ˆ์†Œ์Šค๋ฅผ ํ†ตํ•ด ์žฌํ˜„์„ฑ๊ณผ ํ™•์žฅ์„ฑ์„ ํ™•๋ณดํ•œ ์šฐ์ˆ˜ํ•œ ์—ฐ๊ตฌ์ด๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
419๋Š” LLM์„ ํ™œ์šฉํ•œ ๊ณผํ•™์  ๊ฐ€์„ค ์ƒ์„ฑ์˜ ๊ธฐ์ดˆ ์›๋ฆฌ๋ฅผ ๋‹ค๋ฃจ๋ฉฐ, 666์˜ ์—ฐ๊ตฌ์— ์ด๋ก ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
์ง€์‹ ๊ทธ๋ž˜ํ”„์™€ LLM์„ ์ด์šฉํ•œ ๊ณผํ•™์  ๊ฐ€์„ค ์ƒ์„ฑ์˜ ์ด๋ก ์  ๊ธฐ๋ฐ˜์„ ๊ตฌ์ถ•ํ•œ ๋…ผ๋ฌธ์œผ๋กœ, KG-CoI ์‹œ์Šคํ…œ์˜ ํ•ต์‹ฌ ๊ฐœ๋…๊ณผ ๋งฅ๋ฝ์ด ํ†ตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Research hypothesis generation over scientific knowledge graph ๋…ผ๋ฌธ์€ LLM๊ณผ ์ง€์‹๊ทธ๋ž˜ํ”„ ๊ธฐ๋ฐ˜ ๊ฐ€์„ค์ƒ์„ฑ ๋…ผ์˜์˜ ์ด๋ก ์  ๊ทผ๊ฐ„์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
์ง€์‹ ๊ทธ๋ž˜ํ”„ ๊ธฐ๋ฐ˜ ๊ณผํ•™ ์•„์ด๋””์–ด ์ƒ์„ฑ ๋ฐฉ์‹์— ์ง‘์ค‘ํ•œ ๋…ผ๋ฌธ์œผ๋กœ, ResearchLink์˜ ๋ฐฉ๋ฒ•๋ก ์  ๊ธฐ๋ฐ˜ ์‚ฌ๋ก€๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
666๋ฒˆ ๋…ผ๋ฌธ์€ ๊ณผํ•™์ง€์‹ ๊ทธ๋ž˜ํ”„ ๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ ๊ฐ€์„ค ์ƒ์„ฑ ๋ฒค์น˜๋งˆํฌ๋กœ, 3107์˜ ์งˆ๋ณ‘ ํŠน์ด embedding alignment ๋ฐ ๋„คํŠธ์›Œํฌ ์‹ ํ˜ธ ํ†ตํ•ฉ์˜ ๊ทผ๊ฑฐ๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
426๋ฒˆ ๋…ผ๋ฌธ์€ ์ง€์‹๊ทธ๋ž˜ํ”„ ๊ธฐ๋ฐ˜ ๊ณผํ•™์  ๊ฐ€์„ค ์ƒ์„ฑ ๋ฐฉ๋ฒ•์„ ์ œ์•ˆํ•˜์—ฌ, 666๋ฒˆ์˜ ResearchLink์—์„œ ๊ฒฝ๋กœ ๊ธฐ๋ฐ˜ ์ง€์‹ ๊ทธ๋ž˜ํ”„ ํŠน์„ฑ์„ ํ™œ์šฉํ•œ ๊ฒƒ๊ณผ ๋น„๊ต๋œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋Œ€ํ™” ์‹œ์Šคํ…œ์—์„œ ๋ช…ํ™•ํ™” ์งˆ๋ฌธ์„ ์ƒ์„ฑํ•˜๋Š” ๋‹ค๋ฅธ ์ ‘๊ทผ๋ฒ•์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๊ณผํ•™ ๋ฌธํ—Œ ๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ ๊ฐ€์„ค ์ƒ์„ฑ ๋ฐ ํŒฉํŠธ์ฒดํฌ๋ฅผ ๋‹ค์–‘ํ•œ ๊ทธ๋ž˜ํ”„ ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•์œผ๋กœ ๊ตฌํ˜„ํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Knowledge graph์™€ LLM์„ ํ™œ์šฉํ•˜์—ฌ ๊ฐ€์„ค ์ž๋™ ์ƒ์„ฑ ๋ฐ ํ‰๊ฐ€๋ฅผ ์ˆ˜ํ–‰ํ•˜๋Š” ๋˜๋‹ค๋ฅธ ๋ฐฉ๋ฒ•์„ ์ œ์‹œํ•ด, ๋‘ ์‹œ์Šคํ…œ์˜ ํŠน์ง•์„ ๋น„๊ตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๊ฐ€์„ค ๊ฒ€์ฆ/์ˆœ์œ„ ์ง€์ • ๋ฌธ์ œ๋ฅผ ๋‹ค๋ฃจ๋‚˜, Research hypothesis generation์€ ์ง€์‹๊ทธ๋ž˜ํ”„ ๊ธฐ๋ฐ˜ ์ž๋™ ์ƒ์„ฑยทํ‰๊ฐ€ ๋ฐฉ์‹์„ ์ฑ„ํƒํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋‘ ๋…ผ๋ฌธ ๋ชจ๋‘ knowledge graph์™€ ์ž„๋ฒ ๋”ฉ ๊ธฐ๋ฐ˜์œผ๋กœ ๊ณผํ•™ ์—ฐ๊ตฌ ์•„์ด๋””์–ด ๋˜๋Š” ๊ฐ€์„ค์„ ์ƒ์„ฑํ•˜๋Š” ๋ฐฉ๋ฒ•๋ก ์„ ์ œ์‹œํ•˜๋‚˜, ํ•˜๋‚˜๋Š” ๊ฒฝ๋กœ ๊ธฐ๋ฐ˜, ๋‹ค๋ฅธ ํ•˜๋‚˜๋Š” MAG ๊ธฐ๋ฐ˜์„ ์‚ฌ์šฉํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Scientific knowledge graph ๊ธฐ๋ฐ˜์˜ ๊ฐ€์„ค ์ƒ์„ฑ ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ ์ œ์‹œ๋กœ, ์‚ฌ์ „ ๋ถ„ํฌ ๊ธฐ๋ฐ˜ ์ž๋™ ํ‰๊ฐ€ ๋ฐฉ๋ฒ•๊ณผ ๋น„๊ต๋œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๊ณผํ•™์  ๋ฐœ๊ฒฌ์„ ์œ„ํ•œ LLM ๊ธฐ๋ฐ˜ ๊ฐ€์„ค ์ƒ์„ฑ ๋ฐ ํ‰๊ฐ€๋ฅผ ๋‹ค๋ฃจ๋Š” ๋งค์šฐ ์œ ์‚ฌํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
847์€ ๋ฉ€ํ‹ฐ์—์ด์ „ํŠธ ์‹œ์Šคํ…œ์„ ํ™œ์šฉํ•ด ๊ฐ€์„ค ์ƒ์„ฑ ๊ณผ์ •์„ ๋”์šฑ ํ˜์‹ ์ ์œผ๋กœ ๋ฐœ์ „์‹œํ‚ค๋ฏ€๋กœ 666์˜ ์—ฐ์žฅ์„ ์ƒ์— ์žˆ์Šต๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
492์—์„œ ๋…ผ๋ฌธ+๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜ ์‹œ๋„ˆ์ง€ ๊ฐ€์„ค ์ƒ์„ฑ ์ ‘๊ทผ๋ฒ•์„ ์ œ์•ˆํ•˜๊ณ , 666์€ ์ง€์‹ ๊ทธ๋ž˜ํ”„ ๊ธฐ๋ฐ˜ ๊ณผํ•™ ๊ฐ€์„ค ์ƒ์„ฑ ํ”„๋ ˆ์ž„์›Œํฌ๋กœ ์ด๋ฅผ ๊ตฌ์กฐํ™”ํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
๊ณผํ•™ ์ง€์‹ ๊ทธ๋ž˜ํ”„ ๊ธฐ๋ฐ˜ ๊ฐ€์„ค ์ƒ์„ฑ ํ”„๋ ˆ์ž„์›Œํฌ ๋…ผ๋ฌธ์€ HypoGeniC์˜ ํƒ์ƒ‰-ํ™œ์šฉ ๊ธฐ๋ฐ˜ ์ž๋™ ๊ฐ€์„ค ์ƒ์„ฑ์˜ ๊ตฌ์กฐ์  ํ™•์žฅ ์˜ˆ์‹œ๋ฅผ ์ค๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
MIR ๋…ผ๋ฌธ๋„ KG์™€ ์ž„๋ฒ ๋”ฉ ๊ธฐ๋ฐ˜์œผ๋กœ ์—ฐ๊ตฌ ๋ฌธ์ œ/๊ฐ€์„ค ์˜๊ฐ์„ ์ฃผ๋Š” ๊ณผ๊ฑฐ ์—ฐ๊ตฌ๋ฅผ ๊ฒ€์ƒ‰ยท์กฐํ•ฉํ•ด, ๊ฒฝ๋กœ ๊ธฐ๋ฐ˜ ๊ฐ€์„ค ์ƒ์„ฑ๊ณผ ์ƒํ˜ธ ๋ณด์™„ ๋ฐ ๋น„๊ต ๋ถ„์„์ด ๊ฐ€๋Šฅํ•˜๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
๊ณผํ•™์  ๊ฐ€์„ค ์ƒ์„ฑ์˜ ์ง€์‹ ๊ทธ๋ž˜ํ”„ ์ ‘๊ทผ์„ ๋” ๋„“๊ฒŒ ์ ์šฉํ•œ ์—ฐ๊ตฌ๋กœ GraphEval์˜ ์•„์ด๋””์–ด ํ‰๊ฐ€์™€ ์—ฐ๊ฒฐ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
666๋ฒˆ ๋…ผ๋ฌธ์€ ์ง€์‹ ๊ทธ๋ž˜ํ”„ ๊ธฐ๋ฐ˜ ๊ณผํ•™์  ๊ฐ€์„ค ์ƒ์„ฑ ๋ฐฉ๋ฒ•๋ก ์„ ๋…ผ์˜ํ•ด, 3096์—์„œ ๋‹ค๋ฃฌ ๋ฐ์ดํ„ฐ ๋ถ„ํ•  ๋ฐ Benchmark ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•  ์ˆ˜ ์žˆ๋Š” ๋Œ€์•ˆ์  ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
488๋ฒˆ์€ ์ง€์‹๊ทธ๋ž˜ํ”„ ๊ธฐ๋ฐ˜ LLM ์งˆ์˜์‘๋‹ต ์‘์šฉ์„ ๋‹ค๋ฃจ์–ด, 666๋ฒˆ์˜ ์—ฐ๊ตฌ ๊ฐ€์„ค ์ƒ์„ฑ ๋ฉ”์ปค๋‹ˆ์ฆ˜์˜ ์‹ค์ œ ํ™œ์šฉ ์‚ฌ๋ก€๋กœ ์—ฐ๊ฒฐ๋œ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •