Graphusion: a rag framework for knowledge graph construction with a global perspective

์ €์ž: Rui Yang, Boming Yang, Xinjie Zhao, Fan Gao, Aosong Feng, Sixun Ouyang, Moritz Blum, Tianwei She, Yuang Jiang, Freddy Lecue, Jinghui Lu, Irene Li | ๋‚ ์งœ: 2024 | DOI: TBD 📄 PDF


Essence

Figure 1

Figure 1: Zero-shot LLM, RAG ํ”„๋ ˆ์ž„์›Œํฌ, Graphusion์˜ ์ง€์‹๊ทธ๋ž˜ํ”„ ๊ตฌ์ถ• ๋ฐฉ์‹ ๋น„๊ต

๋ณธ ๋…ผ๋ฌธ์€ ๋Œ€๊ทœ๋ชจ์–ธ์–ด๋ชจ๋ธ(LLM)์„ ํ™œ์šฉํ•˜์—ฌ ์ž์œ ๋กœ์šด ํ…์ŠคํŠธ์—์„œ ์ „์—ญ์  ๊ด€์ (global perspective)์„ ๊ณ ๋ คํ•œ ๊ณผํ•™ ๋ถ„์•ผ์˜ ์ง€์‹๊ทธ๋ž˜ํ”„(Knowledge Graph, KG)๋ฅผ ๊ตฌ์ถ•ํ•˜๋Š” ์ƒˆ๋กœ์šด ํ”„๋ ˆ์ž„์›Œํฌ Graphusion์„ ์ œ์•ˆํ•œ๋‹ค. ๊ธฐ์กด ๋กœ์ปฌ ์ค‘์‹ฌ์˜ ๋ฐฉ๋ฒ•์„ ๋„˜์–ด ์—”ํ‹ฐํ‹ฐ ๋ณ‘ํ•ฉ, ์ถฉ๋Œ ํ•ด๊ฒฐ, ์‹ ๊ทœ ๊ด€๊ณ„ ๋ฐœ๊ฒฌ์„ ํ†ตํ•ด ํ†ตํ•ฉ๋œ ์ง€์‹๊ทธ๋ž˜ํ”„๋ฅผ ์ƒ์„ฑํ•œ๋‹ค.

Motivation

Achievement

Figure 2

Figure 2: Graphusion์˜ 3๋‹จ๊ณ„ ํ”„๋ ˆ์ž„์›Œํฌ - ์‹œ๋“œ ์—”ํ‹ฐํ‹ฐ ์ƒ์„ฑ, ํ›„๋ณด ์‚ผ์ค‘ํ•ญ ์ถ”์ถœ, ์ง€์‹๊ทธ๋ž˜ํ”„ ์œตํ•ฉ

  1. ๋†’์€ ์ถ”์ถœ ์ •ํ™•๋„: ์—”ํ‹ฐํ‹ฐ ์ถ”์ถœ 2.92/3, ๊ด€๊ณ„ ์ธ์‹ 2.37/3 ๋‹ฌ์„ฑ
  2. QA ๋ฒค์น˜๋งˆํฌ์—์„œ ์„ฑ๋Šฅ ๊ฐœ์„ : ์ƒˆ๋กœ์šด ์ „๋ฌธ๊ฐ€ ๊ฒ€์ฆ ๋ฒค์น˜๋งˆํฌ TutorQA(1,200๊ฐœ QA ์Œ, 6๊ฐ€์ง€ ์ž‘์—…)๋ฅผ ๊ตฌ์ถ•ํ•˜์—ฌ ๊ตฌ์ถ•๋œ KG ํ™œ์šฉ ์‹œ ๋ถ€๋ถ„๊ทธ๋ž˜ํ”„ ์™„์„ฑ ์ž‘์—…์—์„œ 9.2% ์ •ํ™•๋„ ํ–ฅ์ƒ
  3. ๋งํฌ ์˜ˆ์ธก ์„ฑ๋Šฅ: ๊ฐ„๋‹จํ•œ ํ”„๋กฌํ”„ํŠธ ๋ฐฉ์‹์ด ๊ฐ๋…ํ•™์Šต ๊ธฐ๋ฐ˜๋ผ์ธ์„ 3% ์ƒํšŒํ•˜๋Š” F1 ์Šค์ฝ”์–ด ๋‹ฌ์„ฑ
  4. ํšจ์œจ์„ฑ: GraphRAG ๋Œ€๋น„ ๋‚ฎ์€ ๊ณ„์‚ฐ ๋น„์šฉ์œผ๋กœ ์ „์—ญ์  ๊ด€์  ์ œ๊ณต

How

Figure 3

Figure 3: Graphusion์˜ GPT-4o ๋ชจ๋ธ์— ๋Œ€ํ•œ ์ผ€์ด์Šค ์Šคํ„ฐ๋””

Step 1: ์‹œ๋“œ ์—”ํ‹ฐํ‹ฐ ์ถ”์ถœ (Seed Entity Extraction)

Step 2: ํ›„๋ณด ์‚ผ์ค‘ํ•ญ ์ถ”์ถœ (Candidate Triplet Extraction)

Step 3: ์ง€์‹๊ทธ๋ž˜ํ”„ ์œตํ•ฉ (Knowledge Graph Fusion) - ํ•ต์‹ฌ ๋ชจ๋“ˆ

Originality

Limitation & Further Study

Evaluation

์ดํ‰: Graphusion์€ LLM ๊ธฐ๋ฐ˜ ์ง€์‹๊ทธ๋ž˜ํ”„ ๊ตฌ์ถ•์—์„œ ๋กœ์ปฌ์—์„œ ์ „์—ญ์  ๊ด€์ ์œผ๋กœ์˜ ์ „ํ™˜์„ ํšจ๊ณผ์ ์œผ๋กœ ๊ตฌํ˜„ํ•˜๋ฉฐ, ํŠนํžˆ ์ฒด๊ณ„์ ์ธ ์ง€์‹ ์œตํ•ฉ ๋ชจ๋“ˆ๊ณผ ๊ต์œก ๋„๋ฉ”์ธ์˜ ์‹ค์ œ ์ ์šฉ์„ ํ†ตํ•ด ์‹ค์งˆ์  ๊ธฐ์—ฌ๋ฅผ ์ œ์‹œํ•œ๋‹ค. ๋‹ค๋งŒ ๋„๋ฉ”์ธ ํŠนํ™”์„ฑ, ์ถฉ๋Œ ํ•ด๊ฒฐ ๋ฉ”์ปค๋‹ˆ์ฆ˜์˜ ์ƒ์„ธ ๊ธฐ์ˆ ํ™”, ๋Œ€๊ทœ๋ชจ ํ™•์žฅ์„ฑ ๊ฒ€์ฆ์ด ์ถ”๊ฐ€๋กœ ํ•„์š”ํ•˜๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
219์˜ ์ธ์šฉ ์ถ”์ฒœ์—์„œ ์‚ฌ์šฉํ•˜๋Š” ์ƒ์„ฑ์  ์ ‘๊ทผ์€ 393์˜ knowledge graph ๊ธฐ๋ฐ˜ RAG ํ”„๋ ˆ์ž„์›Œํฌ์™€ ์—ฐ๊ฒฐํ•ด ๋” ๋„“์€ ๋ฌธํ—Œ ์ถ”์ฒœ ๋ชจ๋ธ๋กœ ํ™•์žฅ ๊ฐ€๋Šฅํ•˜๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Graphusion ๋…ผ๋ฌธ์€ ๋…ผ๋ฌธ ์ง€์‹๊ตฌ์กฐ๋ฅผ ์ž๋™ ๊ตฌ์ถ•ํ•˜๋Š” RAG ํ”„๋ ˆ์ž„์›Œํฌ๋กœ, ๋ฌธํ—Œ ๊ตฌ์กฐํ™”์™€ ์ž๋™ ๋ถ„๋ฅ˜์˜ ๊ธฐ๋ฐ˜์ด ๋œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ง€์‹๊ทธ๋ž˜ํ”„ ์ž๋™ ์ƒ์„ฑ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ๊ณตํ•˜์—ฌ, ๋ณธ ๋…ผ๋ฌธ์˜ ๊ธฐ๋ฐ˜ ์ด๋ก ์„ ์‹ค์ œ ์‹œ์Šคํ…œ ๊ตฌ์ถ• ๊ด€์ ์—์„œ ๋ณด์™„ํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
HeLM ๋…ผ๋ฌธ์€ ํ…Œ์ด๋ธ”-ํ…์ŠคํŠธ ์š”์•ฝ์ด๋‚˜ ์ฆ๊ฑฐ ๊ฐ•์กฐ๋ฅผ ํ†ตํ•ด ๊ทธ๋ž˜ํ”„ ๊ธฐ๋ฐ˜ ์š”์•ฝ ํ’ˆ์งˆ์„ ๋†’์ด๋ฏ€๋กœ, ๋ฌธ์„œ ์š”์•ฝ์—์„œ์˜ ๊ทธ๋ž˜ํ”„ ํ™œ์šฉ์˜ ๋‹ค์–‘ํ•œ ๊ตฌํ˜„์„ ๋ณด์—ฌ์ค€๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
393์€ ์ง€์‹ ๊ทธ๋ž˜ํ”„๋ฅผ ํ™œ์šฉํ•œ RAG ํ”„๋ ˆ์ž„์›Œํฌ๋กœ, 675์˜ RAG ๊ฐœ๋…์„ ๊ทธ๋ž˜ํ”„ ๊ธฐ๋ฐ˜์œผ๋กœ ์žฌ๊ตฌ์„ฑํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋…ผ๋ฌธ ๊ฐ„ ๊ด€๊ณ„ ํฌ์ฐฉ์„ ์ง€์‹๊ทธ๋ž˜ํ”„์™€ LLM ๊ฒฐํ•ฉ ํ”„๋ ˆ์ž„์›Œํฌ๋กœ ์ ‘๊ทผํ•˜์—ฌ, feature-based prompt ๋ฐฉ์‹๊ณผ ์ƒ์ดํ•œ ๋Œ€์•ˆ์ž„์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Graph ๊ธฐ๋ฐ˜ LLM-์ง€์‹๊ทธ๋ž˜ํ”„ ๊ตฌ์ถ•์˜ ๊ธ€๋กœ๋ฒŒ/๋กœ์ปฌ ๋ชจ๋ธ๋ง ๋น„๊ต, ์ธ์šฉ ๊ธฐ๋ฐ˜๊ณผ ์ปจํ…์ธ  ๊ธฐ๋ฐ˜์˜ ์ฐจ๋ณ„์ ์„ ๊ตฌ์ฒด์ ์œผ๋กœ ์ดํ•ดํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Graphusion์€ KG ๊ธฐ๋ฐ˜ RAG ๊ธฐ๋ฒ•์„ ํ™œ์šฉํ•˜์—ฌ ์ˆ˜๋งŽ์€ ๋…ผ๋ฌธ์„ ํ†ตํ•ฉ์ ์œผ๋กœ ์š”์•ฝยท์ดํ•ดํ•˜๋Š” ์ตœ์‹  ํ”„๋ ˆ์ž„์›Œํฌ์ด๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
์ง€์‹๊ทธ๋ž˜ํ”„์˜ ์ž๋™ ๊ฒ€์ฆ/ํ†ตํ•ฉ์„ ๋ชฉํ‘œ๋กœ ํ•˜๋Š” ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ํ†ตํ•ด Graphusion์˜ ์ „์—ญ์  ๊ด€์  KG ๊ตฌ์ถ• ๋ฐฉ๋ฒ•์ด ์–ด๋–ป๊ฒŒ ์ ์šฉ๋  ์ˆ˜ ์žˆ๋Š”์ง€ ์•ˆ๋‚ดํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
๊ธ€๋กœ๋ฒŒ ๊ด€์ ์˜ ์ง€์‹๊ทธ๋ž˜ํ”„ ๊ตฌ์ถ•๊ณผ ๊ฒ€์ƒ‰ ๊ฒฐ๊ณผ ํ†ตํ•ฉ ์‚ฌ๋ก€๋ฅผ ํ†ตํ•ด, Knowledge Navigator์˜ ํƒ์ƒ‰ ํšจ์œจ์„ฑ ๊ฐœ์„  ๊ฐ€๋Šฅ์„ฑ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
๊ณผํ•™ ์›Œํฌํ”Œ๋กœ์šฐ์˜ ์‹ ๋ขฐ์„ฑ ๋ฐ ์ž๊ธฐ-๊ฐœ์ • ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ๊ฐ•์กฐํ•ด SciToolAgent์˜ ์‹ ๋ขฐ์„ฑ ๊ฐ•ํ™”๋ฅผ ๋„๋ชจํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
์ง€์‹ ๊ทธ๋ž˜ํ”„์™€ RAG๋ฅผ ๊ฒฐํ•ฉํ•œ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์‹ค์ œ ์ง€์‹ ํƒ์ƒ‰ ๋ฐ ์ƒ์„ฑ์— ์ ์šฉํ•œ ์‚ฌ๋ก€๋กœ, ๋ชจ๋“ˆ์‹ ์„ค๊ณ„์˜ ๋‹ค์–‘์„ฑ์„ ์‹ค์ œ๋กœ ํ™•์žฅํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Interesting scientific idea generation using knowledge graph ๋…ผ๋ฌธ์€ ์ƒ์„ฑํ˜• ์ ‘๊ทผ๋ฒ•์„ ๊ณผํ•™ ์•„์ด๋””์–ด ์ƒ์„ฑ/์žฌ๊ตฌ์„ฑ์— ์ ์šฉํ•ด Graphusion์˜ ์‹ค์ œ ํ™œ์šฉ ๋ฐฉํ–ฅ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Graphusion์ฒ˜๋Ÿผ LLM๊ณผ KG๋ฅผ ๊ฒฐํ•ฉํ•œ ์ง€์‹ ๊ทธ๋ž˜ํ”„ ๊ตฌ์ถ•์€ HypoChainer์˜ RAG ๊ธฐ๋ฐ˜ ํƒ์ƒ‰ ๋ฐ ๊ฐ€์„ค ๊ฒ€์ฆ ํ˜‘์—… ๋‹จ๊ณ„์˜ ๊ธฐ์ˆ ์  ํ™•์žฅ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Graphusion ๋“ฑ LLM ๊ธฐ๋ฐ˜ ๋…ผ๋ฌธ ๋‚ด์šฉ ์ง์ ‘ ์ง€์‹ ๊ทธ๋ž˜ํ”„ํ™” ๋ฐฉ์‹์ด ์ธ์šฉ ๋„คํŠธ์›Œํฌ ๊ธฐ๋ฐ˜ ์ „ํ†ต์  ์ ‘๊ทผ๊ณผ ๋Œ€๋น„๋˜๋ฉฐ, Turnining Citation Networks Inside Out์˜ ๋ฐฉ๋ฒ•์„ ํ™•์žฅ์‹œํ‚ฌ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •