์ ์: Rui Yang, Boming Yang, Xinjie Zhao, Fan Gao, Aosong Feng, Sixun Ouyang, Moritz Blum, Tianwei She, Yuang Jiang, Freddy Lecue, Jinghui Lu, Irene Li | ๋ ์ง: 2024 | DOI: TBD 📄 PDF
Essence
Figure 1: Zero-shot LLM, RAG ํ๋ ์์ํฌ, Graphusion์ ์ง์๊ทธ๋ํ ๊ตฌ์ถ ๋ฐฉ์ ๋น๊ต
๋ณธ ๋
ผ๋ฌธ์ ๋๊ท๋ชจ์ธ์ด๋ชจ๋ธ(LLM)์ ํ์ฉํ์ฌ ์์ ๋ก์ด ํ
์คํธ์์ ์ ์ญ์ ๊ด์ (global perspective)์ ๊ณ ๋ คํ ๊ณผํ ๋ถ์ผ์ ์ง์๊ทธ๋ํ(Knowledge Graph, KG)๋ฅผ ๊ตฌ์ถํ๋ ์๋ก์ด ํ๋ ์์ํฌ Graphusion์ ์ ์ํ๋ค. ๊ธฐ์กด ๋ก์ปฌ ์ค์ฌ์ ๋ฐฉ๋ฒ์ ๋์ด ์ํฐํฐ ๋ณํฉ, ์ถฉ๋ ํด๊ฒฐ, ์ ๊ท ๊ด๊ณ ๋ฐ๊ฒฌ์ ํตํด ํตํฉ๋ ์ง์๊ทธ๋ํ๋ฅผ ์์ฑํ๋ค.
How
Figure 3: Graphusion์ GPT-4o ๋ชจ๋ธ์ ๋ํ ์ผ์ด์ค ์คํฐ๋
Step 1: ์๋ ์ํฐํฐ ์ถ์ถ (Seed Entity Extraction)
- ํ ํฝ ๋ชจ๋ธ๋ง(Topic Modeling)์ ํ์ฉํ์ฌ ๋๋ฉ์ธ ๊ด๋ จ ์ํฐํฐ ๋ชฉ๋ก ์์ฑ
- ํ์ ์ํฐํฐ ์ถ์ถ ๋จ๊ณ์ ๊ฐ์ด๋ ์ ๊ณต
- ์ํฐํฐ ํด์๋ ์ ์ด ๊ฐ๋ฅ
Step 2: ํ๋ณด ์ผ์คํญ ์ถ์ถ (Candidate Triplet Extraction)
- LLM์ ์์ ํ์ต(zero-shot) ๋ฅ๋ ฅ์ ํ์ฉํ์ฌ ๊ธฐ๊ณ ๋ฒ์ญ(Machine Translation), ์ด๋ฒคํธ ๊ฐ์ง(Event Detection), ์์กด์ฑ ํ์ฑ(Dependency Parsing) ๋ฑ ๋ค์ํ NLP ๊ฐ๋
์ค์ฌ ์ผ์คํญ ์ถ์ถ
- ๊ตฌ์กฐํ๋ ํ๋กฌํํ
์ผ๋ก ์ผ๊ด์ฑ ์๋ ์ถ๋ ฅ ์ ๋
Step 3: ์ง์๊ทธ๋ํ ์ตํฉ (Knowledge Graph Fusion) - ํต์ฌ ๋ชจ๋
- a) ์ํฐํฐ ๋ณํฉ (Entity Merging): ์ค๋ณต๋ ์ํฐํฐ ์๋ณ ๋ฐ ํตํฉ (์: NMT, Neural MT, Neural Machine Translation โ ๋จ์ผ ํ์ค ์ํฐํฐ)
- b) ์ถฉ๋ ํด๊ฒฐ (Conflict Resolution): ๊ฐ์ ์ํฐํฐ ์์ ๋ํ ์์ถฉํ๋ ๊ด๊ณ ํ์
์กฐ์
- c) ์ ๊ท ์ผ์คํญ ์ถ๋ก (Novel Triple Inference): ๋ค์ค ๋ฌธ์์์ ์ถ์ถ๋ ๋ก์ปฌ ๊ทธ๋ํ์ ๊ตฌ์กฐ์ ํจํด ๋ถ์์ผ๋ก ์๋ก์ด ๊ด๊ณ ๋ฐ๊ฒฌ
Evaluation
์ดํ: Graphusion์ LLM ๊ธฐ๋ฐ ์ง์๊ทธ๋ํ ๊ตฌ์ถ์์ ๋ก์ปฌ์์ ์ ์ญ์ ๊ด์ ์ผ๋ก์ ์ ํ์ ํจ๊ณผ์ ์ผ๋ก ๊ตฌํํ๋ฉฐ, ํนํ ์ฒด๊ณ์ ์ธ ์ง์ ์ตํฉ ๋ชจ๋๊ณผ ๊ต์ก ๋๋ฉ์ธ์ ์ค์ ์ ์ฉ์ ํตํด ์ค์ง์ ๊ธฐ์ฌ๋ฅผ ์ ์ํ๋ค. ๋ค๋ง ๋๋ฉ์ธ ํนํ์ฑ, ์ถฉ๋ ํด๊ฒฐ ๋ฉ์ปค๋์ฆ์ ์์ธ ๊ธฐ์ ํ, ๋๊ท๋ชจ ํ์ฅ์ฑ ๊ฒ์ฆ์ด ์ถ๊ฐ๋ก ํ์ํ๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
219์ ์ธ์ฉ ์ถ์ฒ์์ ์ฌ์ฉํ๋ ์์ฑ์ ์ ๊ทผ์ 393์ knowledge graph ๊ธฐ๋ฐ RAG ํ๋ ์์ํฌ์ ์ฐ๊ฒฐํด ๋ ๋์ ๋ฌธํ ์ถ์ฒ ๋ชจ๋ธ๋ก ํ์ฅ ๊ฐ๋ฅํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Graphusion ๋
ผ๋ฌธ์ ๋
ผ๋ฌธ ์ง์๊ตฌ์กฐ๋ฅผ ์๋ ๊ตฌ์ถํ๋ RAG ํ๋ ์์ํฌ๋ก, ๋ฌธํ ๊ตฌ์กฐํ์ ์๋ ๋ถ๋ฅ์ ๊ธฐ๋ฐ์ด ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
์ง์๊ทธ๋ํ ์๋ ์์ฑ ํ๋ ์์ํฌ๋ฅผ ์ ๊ณตํ์ฌ, ๋ณธ ๋
ผ๋ฌธ์ ๊ธฐ๋ฐ ์ด๋ก ์ ์ค์ ์์คํ
๊ตฌ์ถ ๊ด์ ์์ ๋ณด์ํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
HeLM ๋
ผ๋ฌธ์ ํ
์ด๋ธ-ํ
์คํธ ์์ฝ์ด๋ ์ฆ๊ฑฐ ๊ฐ์กฐ๋ฅผ ํตํด ๊ทธ๋ํ ๊ธฐ๋ฐ ์์ฝ ํ์ง์ ๋์ด๋ฏ๋ก, ๋ฌธ์ ์์ฝ์์์ ๊ทธ๋ํ ํ์ฉ์ ๋ค์ํ ๊ตฌํ์ ๋ณด์ฌ์ค๋ค.
๋ค๋ฅธ ์ ๊ทผ
393์ ์ง์ ๊ทธ๋ํ๋ฅผ ํ์ฉํ RAG ํ๋ ์์ํฌ๋ก, 675์ RAG ๊ฐ๋
์ ๊ทธ๋ํ ๊ธฐ๋ฐ์ผ๋ก ์ฌ๊ตฌ์ฑํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋
ผ๋ฌธ ๊ฐ ๊ด๊ณ ํฌ์ฐฉ์ ์ง์๊ทธ๋ํ์ LLM ๊ฒฐํฉ ํ๋ ์์ํฌ๋ก ์ ๊ทผํ์ฌ, feature-based prompt ๋ฐฉ์๊ณผ ์์ดํ ๋์์์ ๋ณด์ฌ์ค๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
Graph ๊ธฐ๋ฐ LLM-์ง์๊ทธ๋ํ ๊ตฌ์ถ์ ๊ธ๋ก๋ฒ/๋ก์ปฌ ๋ชจ๋ธ๋ง ๋น๊ต, ์ธ์ฉ ๊ธฐ๋ฐ๊ณผ ์ปจํ
์ธ ๊ธฐ๋ฐ์ ์ฐจ๋ณ์ ์ ๊ตฌ์ฒด์ ์ผ๋ก ์ดํดํ ์ ์์ต๋๋ค.
ํ์ ์ฐ๊ตฌ
Graphusion์ KG ๊ธฐ๋ฐ RAG ๊ธฐ๋ฒ์ ํ์ฉํ์ฌ ์๋ง์ ๋
ผ๋ฌธ์ ํตํฉ์ ์ผ๋ก ์์ฝยท์ดํดํ๋ ์ต์ ํ๋ ์์ํฌ์ด๋ค.
ํ์ ์ฐ๊ตฌ
์ง์๊ทธ๋ํ์ ์๋ ๊ฒ์ฆ/ํตํฉ์ ๋ชฉํ๋ก ํ๋ ํ๋ ์์ํฌ๋ฅผ ํตํด Graphusion์ ์ ์ญ์ ๊ด์ KG ๊ตฌ์ถ ๋ฐฉ๋ฒ์ด ์ด๋ป๊ฒ ์ ์ฉ๋ ์ ์๋์ง ์๋ดํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
๊ธ๋ก๋ฒ ๊ด์ ์ ์ง์๊ทธ๋ํ ๊ตฌ์ถ๊ณผ ๊ฒ์ ๊ฒฐ๊ณผ ํตํฉ ์ฌ๋ก๋ฅผ ํตํด, Knowledge Navigator์ ํ์ ํจ์จ์ฑ ๊ฐ์ ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์ค๋๋ค.
ํ์ ์ฐ๊ตฌ
๊ณผํ ์ํฌํ๋ก์ฐ์ ์ ๋ขฐ์ฑ ๋ฐ ์๊ธฐ-๊ฐ์ ๋ฉ์ปค๋์ฆ์ ๊ฐ์กฐํด SciToolAgent์ ์ ๋ขฐ์ฑ ๊ฐํ๋ฅผ ๋๋ชจํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
์ง์ ๊ทธ๋ํ์ RAG๋ฅผ ๊ฒฐํฉํ ํ๋ ์์ํฌ๋ฅผ ์ค์ ์ง์ ํ์ ๋ฐ ์์ฑ์ ์ ์ฉํ ์ฌ๋ก๋ก, ๋ชจ๋์ ์ค๊ณ์ ๋ค์์ฑ์ ์ค์ ๋ก ํ์ฅํ๋ค.
ํ์ ์ฐ๊ตฌ
Interesting scientific idea generation using knowledge graph ๋
ผ๋ฌธ์ ์์ฑํ ์ ๊ทผ๋ฒ์ ๊ณผํ ์์ด๋์ด ์์ฑ/์ฌ๊ตฌ์ฑ์ ์ ์ฉํด Graphusion์ ์ค์ ํ์ฉ ๋ฐฉํฅ์ ๋ณด์ฌ์ค๋๋ค.
ํ์ ์ฐ๊ตฌ
Graphusion์ฒ๋ผ LLM๊ณผ KG๋ฅผ ๊ฒฐํฉํ ์ง์ ๊ทธ๋ํ ๊ตฌ์ถ์ HypoChainer์ RAG ๊ธฐ๋ฐ ํ์ ๋ฐ ๊ฐ์ค ๊ฒ์ฆ ํ์
๋จ๊ณ์ ๊ธฐ์ ์ ํ์ฅ์ ์ ๊ณตํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
Graphusion ๋ฑ LLM ๊ธฐ๋ฐ ๋
ผ๋ฌธ ๋ด์ฉ ์ง์ ์ง์ ๊ทธ๋ํํ ๋ฐฉ์์ด ์ธ์ฉ ๋คํธ์ํฌ ๊ธฐ๋ฐ ์ ํต์ ์ ๊ทผ๊ณผ ๋๋น๋๋ฉฐ, Turnining Citation Networks Inside Out์ ๋ฐฉ๋ฒ์ ํ์ฅ์ํฌ ์ ์์ต๋๋ค.