Turning Citation Networks Inside Out: Studying Science Using Content-Based Knowledge Graphs from LLM-Derived Taxonomies
์ ์: Seorin Kim, Vincent Holst, Vincent Ginis | ๋ ์ง: 2026-01-21 | URL: https://arxiv.org/abs/2601.15062 📄 PDF
Essence
Figure 1: Framework overview. a. From an initial corpus of 16,819 publications, LLM-assisted curation identifies
๋ณธ ๋
ผ๋ฌธ์ ์ธ์ฉ ๋คํธ์ํฌ ๋์ LLM์ ํ์ฉํ์ฌ ํ์ ๋
ผ๋ฌธ์ ๋ด์ฉ์ผ๋ก๋ถํฐ ์ง์ ์ง์ ๊ทธ๋ํ๋ฅผ ๊ตฌ์ถํ๋ "๋ด๋ถ-์ธ๋ถ" ์ ๊ทผ๋ฒ์ ์ ์ํ๋ค. ๊ฐ ๋
ผ๋ฌธ์ ์ธก์ (measure), ๋ฐ์ดํฐ ์ ํ, ์ฐ๊ตฌ ์ง๋ฌธ ์ ํ์ ์ผ์คํญ์ผ๋ก ์ธ์ฝ๋ฉํ์ฌ ์ง์ ๊ทธ๋ํ์ ๋
ธ๋๋ก ์ฌ์ฉํ๊ณ , ๊ณต์ ๋
ผ๋ฌธ ์๋ก ์ฃ์ง ๊ฐ์ค์น๋ฅผ ๊ฒฐ์ ํ๋ค.
Motivation
- Known: ์ธ์ฉ ๋คํธ์ํฌ ๋ถ์๊ณผ ํค์๋ ๊ณต๋ ์ถํ ๋ถ์์ ๊ณผํ ๋ถ์ผ์ ๊ตฌ์กฐ๋ฅผ ๋งคํํ๋ ํ์ค์ ์ธ ๋ฐฉ๋ฒ์ด๋, ์ธ์ฉ์ ์ค์ ๋
ผ๋ฌธ ๋ด์ฉ์ ์๊ณกํ ์ ์๊ณ ํค์๋์ ๋ถ์ผ๊ด์ฑ์ด ์ ๋ขฐ์ฑ์ ์ ํดํ๋ค๋ ๋ฌธ์ ๊ฐ ์๋ ค์ ธ ์๋ค. ์ต๊ทผ word embedding๊ณผ concept extraction ์ ๊ทผ๋ฒ์ด ์ ์๋์์ง๋ง ํด์ ๊ฐ๋ฅ์ฑ๊ณผ ๋๋ฉ์ธ๋ณ ์ ์์ฑ ์ธก๋ฉด์์ ์ ์ฝ์ด ์๋ค.
- Gap: ๊ธฐ์กด ์ธ์ฉ ๊ธฐ๋ฐ ๋ฐ ํค์๋ ๊ธฐ๋ฐ ์ ๊ทผ๋ฒ์ ๋
ผ๋ฌธ ๋ด์ฉ์ ์ค์ ์ง์ ํ๋ฆ์ ์ ๋๋ก ํฌ์ฐฉํ์ง ๋ชปํ๋ฉฐ, word embedding ๊ธฐ๋ฐ ๋ฐฉ๋ฒ์ ํด์ ๋ถ๊ฐ๋ฅํ๊ณ ๊ธฐ์ ๋๋ฉ์ธ์ ์ ์ํ๊ธฐ ์ด๋ ต๋ค. LLM์ ํ์ฉํ์ฌ ๋๋ฉ์ธ๋ณ ๋ถ๋ฅ ์ฒด๊ณ๋ฅผ ์๋์ผ๋ก ์์ฑํ๊ณ ๋ด์ฉ ๊ธฐ๋ฐ์ ํด์ ๊ฐ๋ฅํ ์ง์ ๊ทธ๋ํ๋ฅผ ๊ตฌ์ถํ๋ ์ฒด๊ณ์ ์ ๊ทผ์ด ํ์ํ๋ค.
- Why: ์ธ์ฉ ๋คํธ์ํฌ๋ ๊ณผํ ์ง์์ ์ค์ ํ๋ฆ์ ์ ๋๋ก ๋ฐ์ํ์ง ๋ชปํ ์ ์์ผ๋ฉฐ, ๋
ผ๋ฌธ์ ์ค์ง์ ์ธ ๋ฐฉ๋ฒ๋ก ์ ยท๊ฐ๋
์ ๊ตฌ์กฐ๋ฅผ ํ์
ํ๋ ค๋ฉด ๋ด์ฉ ๊ธฐ๋ฐ์ ์ ๊ทผ์ด ํ์์ ์ด๋ค. LLM์ ๋ฐ์ ์ ์ด๋ฅผ ๊ท๋ชจ์์ ์๋ํํ ์ ์๊ฒ ํด์ฃผ๋ฏ๋ก ์ค์ํ๋ค.
- Approach: LLM(GPT o3-mini)์ ์ฌ์ฉํ์ฌ OpenAlex์์ ์์งํ 16,819๊ฐ ๋
ผ๋ฌธ ์ค intergenerational wealth mobility ๊ด๋ จ 617๊ฐ ์์ด ์ ๋ ๋
ผ๋ฌธ์ ์ ์ ํ๋ค. LLM์ผ๋ก ๋๋ฉ์ธ๋ณ ๋ถ๋ฅ ์ฒด๊ณ(measures 8๊ฐ, data types 14๊ฐ, research question types 9๊ฐ)๋ฅผ ์์ฑํ๊ณ ๊ฐ ๋
ผ๋ฌธ์ ์ด๋ก์ ๋ถ๋ฅํ๋ค. ์ผ์คํญ {M, D, R}์ผ๋ก ์ธ์ฝ๋ฉ๋ ๋
ผ๋ฌธ๋ค๋ก๋ถํฐ ์ง์ ๊ทธ๋ํ๋ฅผ ๊ตฌ์ถํ์ฌ ๋
ธ๋ ์ฐจ์, ๊ฐ๋(๊ฐ์ค ์ฐจ์), betweenness ๋ฑ์ ์ค์ฌ์ฑ ์งํ์ ์ ๊ทํ๋ betweenness-์ฐจ์ ๋น์จ์ ๋ถ์ํ๋ค.
Achievement
Figure 2: Popular nodes, pairs, and triangles in the intergenerational wealth mobility literature across six periods.
์์ ์ ์ธ ๋ฐฉ๋ฒ๋ก ์ ๋ฐฑ๋ณธ ์๋ณ: regression-based measures๊ฐ 2006-2010 ์ดํ wealth mobility ๋ฌธํ์ ์ง์์ ์ธ ์ค์ฌ์ผ๋ก ๋ํ๋จ. ์๊ฐ์ ๋ณํ ๋ถ์: ๋
ธ๋ ์์ค์ ๋์ญํ๋ณด๋ค ์ ์์ค์ ๊ฒฐํฉ ๋ฐฉ์์์ ๋ ํฐ ๋ณํ ๋ฐ์. ๊ตฌ์กฐ์ ์ค๊ฐ์ ๋ฐ๊ฒฌ: ์ ๋ช
๋์ ๋นํด ๋ถ๊ท ํ์ ์ผ๋ก ์ค์ํ ๊ตฌ์กฐ์ ์ญํ ์ ํ๋ ์ฑ๋ถ๊ณผ ์์ betweenness-์ฐ๊ฒฐ์ฑ ๋น์จ๋ก ์๋ณ. ํด์ ๊ฐ๋ฅํ ์ง์ ๊ทธ๋ํ: ๋ด์ฉ ๊ธฐ๋ฐ ๋ถ๋ฅ๋ฒ์ผ๋ก ์ธ์ฉ ๊ธฐ๋ฐ ์ ๊ทผ๋ฒ์ ๋ณด์ํ๋ ์๋ฏธ์๋ ์๊ฐ ์ ๊ณต.
How
Figure 1: Framework overview. a. From an initial corpus of 16,819 publications, LLM-assisted curation identifies
โข LLM-assisted curation์ ํตํด ๊ด๋ จ์ฑ ๊ฒ์ฆ ๋ฐ ์ค๋ณต ์ ๊ฑฐ. โข GPT o3-mini๋ก ์ด๋ก์ ๋ถ์ํ์ฌ (measure, data type, research-question type) ์ผ์คํญ ์๋ ํ ๋น. โข ๊ณต์ ๋
ผ๋ฌธ ์๋ก ๊ฐ์ค๋ ์ฃ์ง๋ฅผ ๊ฐ์ง ์ผ๋ถ๋ถ ์ง์ ๊ทธ๋ํ ๊ตฌ์ถ. โข ๋
ธ๋ ์ฐจ์, ๊ฐ๋, betweenness, ์ ๊ทํ๋ ๋น์จ(B/D, B/count) ๊ณ์ฐํ์ฌ ์ค์ฌ์ฑ ๋ถ์. โข ์๊ฐ ๊ฒฝ๊ณผ์ ๋ฐ๋ฅธ ๋
ธ๋, ์, ์ผ๊ฐํ์ ๋ถํฌ ๋ฐ ์ค์ฌ์ฑ ์งํ ์ถ์ .
Originality
โข ์ธ์ฉ ๋คํธ์ํฌ ๋์ ๋
ผ๋ฌธ ๋ด์ฉ์์ ์ง์ ์ง์ ๊ทธ๋ํ๋ฅผ ๊ตฌ์ถํ๋ "๋ด๋ถ-์ธ๋ถ" ํจ๋ฌ๋ค์ ์ ์. โข LLM์ ํ์ฉํ์ฌ ๋๋ฉ์ธ๋ณ ๋ถ๋ฅ ์ฒด๊ณ๋ฅผ ์๋์ผ๋ก ์ ๋ํ๊ณ ์ ์ฉํ๋ ์๋ก์ด ๋ฐฉ์. โข ์ผ์คํญ ํํ๊ณผ ์ ๊ทํ๋ betweenness-์ฐจ์ ๋น์จ์ ๊ฒฐํฉํ ์๋ก์ด ๊ตฌ์กฐ ๋ถ์ ๋ฐฉ๋ฒ. โข ๊ธฐ์กด ์ธ์ฉ ๋ฐ ํค์๋ ๊ธฐ๋ฐ ์ ๊ทผ๊ณผ ๊ตฌ๋ณ๋๋ ๋ช
ํํ ๋์์ ๊ด์ ์ ๊ณต.
Limitation & Further Study
โข ๋จ์ผ ๋๋ฉ์ธ(intergenerational wealth mobility)์ ์ผ์ด์ค ์คํฐ๋๋ก ๋ฐฉ๋ฒ์ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ ๋ฏธํ์ธ. โข LLM ๋ถ๋ฅ์ ์ ํ์ฑ ๊ฒ์ฆ ๋ถ์ฌโ์ธ๊ฐ ์ฃผ์์์์ inter-rater reliability ๋ฏธ๋ณด๊ณ . โข 617๊ฐ ๋
ผ๋ฌธ์ ์ ํ๋ ์ํ๋ก ๊ฒฐ๊ณผ์ ํต๊ณ์ ๊ฒฌ๊ณ ์ฑ ์๋ฌธ. โข ์ผ์คํญ ํํ์ ์ ๋ณด ์์ค ์ ๋ ๋ฏธ๋ถ์โ์ด๋ก์์ ๋์น ์ค์ํ ๋ด์ฉ์ด ์์ ์ ์์. โข ์๊ฐ ๊ฒฝ๊ณผ ๋ถ์์ด 6๊ฐ ๊ธฐ๊ฐ(T1-T6)์ผ๋ก ๋จ์ํ๋์ด ์ธ๋ฐํ ์๊ฐ์ ํจํด ํฌ์ฐฉ ์ ํ. โข LLM ๋ฒ์ (GPT o3-mini) ์์กด์ฑ๊ณผ ๋ชจ๋ธ ๊ฐ ์ฌํ์ฑ ๋ฏธ๊ฒํ .
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ ์ธ์ฉ ๋คํธ์ํฌ ๋ถ์์ ๊ทผ๋ณธ์ ์ธ ํ๊ณ๋ฅผ ์ง์ ํ๊ณ LLM ๊ธฐ๋ฐ์ ๋ด์ฉ ์ค์ฌ ์ง์ ๊ทธ๋ํ ๊ตฌ์ถ์ด๋ผ๋ ์ฐฝ์์ ์ธ ๋์์ ์ ์ํ๋ค. ๋ฐฉ๋ฒ๋ก ์ด ๋ช
ํํ๊ณ ์ผ๊ด๋๋ฉฐ, wealth mobility ๋ฌธํ์ ์ผ์ด์ค ์คํฐ๋์์ ์๋ฏธ์๋ ํต์ฐฐ์ ๋์ถํ๋ค. ๋ค๋ง ๋จ์ผ ๋๋ฉ์ธ ์ฌ๋ก, ๋ถ๋ฅ ์ ํ์ฑ ๊ฒ์ฆ ๋ถ์ฌ, ์ ํ๋ ์ํ ํฌ๊ธฐ ๋ฑ์ผ๋ก ์ธํด ๋ฐฉ๋ฒ์ ๋ณดํธ์ ๊ฐ์น ์
์ฆ์ด ๋ถ์ถฉ๋ถํ๋ค. ์ถ๊ฐ ๋๋ฉ์ธ ์ ์ฉ๊ณผ ์ธ๊ฐ ๊ฒ์ฆ์ ํตํ ๊ฐํ๊ฐ ํ์ํ๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๋ค๋ฅธ ์ ๊ทผ
Graph ๊ธฐ๋ฐ LLM-์ง์๊ทธ๋ํ ๊ตฌ์ถ์ ๊ธ๋ก๋ฒ/๋ก์ปฌ ๋ชจ๋ธ๋ง ๋น๊ต, ์ธ์ฉ ๊ธฐ๋ฐ๊ณผ ์ปจํ
์ธ ๊ธฐ๋ฐ์ ์ฐจ๋ณ์ ์ ๊ตฌ์ฒด์ ์ผ๋ก ์ดํดํ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
Exploiting LLMs for Automatic Hypothesis Assessment ๋
ผ๋ฌธ์ ๋ณ์๊ฐ ์๊ด๊ด๊ณ ๋ฐ ๊ฐ์ค์ LLM memory๋ฅผ ํตํด ์ ๋ํํ๋ ๋ฑ cit-net ๊ธฐ๋ฐ์ด ์๋ ๋ด์ฌ์ ๊ด๊ณ ์ธ์ ์ ๊ทผ๋ฒ์ ๋ณด์ฌ์ค๋ค.
๋ค๋ฅธ ์ ๊ทผ
ResearchAgent ๋
ผ๋ฌธ์ ๊ธฐ์กด์ ์ธ์ฉ ๋คํธ์ํฌ ๊ธฐ๋ฐ์ด ์๋ LLM ๊ธฐ๋ฐ์ผ๋ก ๊ณผํ ์์ด๋์ด์ ์ฐ๊ฒฐ๋ง ์์ฑ์ ์ง์คํ ๋์์ ์ฐ๊ตฌ ์ ๊ทผ์ ์ ์ํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๊ณผํ์ ์๋ฎฌ๋ ์ด์
์์ ๋๊ท๋ชจ ์ํฌํ๋ก์ฐ์ AI ํตํฉ์ ๋
ผ์ํด ๋ณธ ๋
ผ๋ฌธ์ ์ ์ฉํ ์ ์์ต๋๋ค.
ํ์ ์ฐ๊ตฌ
Turning Citation Networks Inside Out๋ ๊ธฐ์กด ์ธ์ฉ ๋คํธ์ํฌ ๊ธฐ๋ฐ ์ง์ ๊ทธ๋ํ ๋์ ๋
ผ๋ฌธ ๋ด์ฉ ๊ธฐ๋ฐ ์ผ์คํญ ์ถ์ถ์ด๋ผ๋ RAG ์์ฉ์ ์๋ก์ด ํ์ฅ์ ์คํํ๋ค.
ํ์ ์ฐ๊ตฌ
Graphusion ๋ฑ LLM ๊ธฐ๋ฐ ๋
ผ๋ฌธ ๋ด์ฉ ์ง์ ์ง์ ๊ทธ๋ํํ ๋ฐฉ์์ด ์ธ์ฉ ๋คํธ์ํฌ ๊ธฐ๋ฐ ์ ํต์ ์ ๊ทผ๊ณผ ๋๋น๋๋ฉฐ, Turnining Citation Networks Inside Out์ ๋ฐฉ๋ฒ์ ํ์ฅ์ํฌ ์ ์์ต๋๋ค.
์์ฉ ์ฌ๋ก
3397๋ฒ ๋
ผ๋ฌธ์ ์ธ์ฉ ๋คํธ์ํฌ๋ฅผ ํ์ฉํด ๊ณผํ ๋ด ์ฐ๊ตฌ์์ญ๊ฐ ๊ด๊ณ ๋ถ์์ ์ํํ์ฌ, 632๋ฒ์ ์๋ฏธ๋ก ์ ์ฐ๊ฒฐ๋ง ๊ธฐ๋ฐ ์ฐ๊ตฌ ๋ฐฉํฅ ์์ธก ์ค๋ฌด์ ์์ฉ์ ๋ณด์ฌ์ค๋๋ค.
์์ฉ ์ฌ๋ก
LLM์ ํ์ฉํ ๊ฐ์ธํ๋ ๊ทธ๋ํ ๊ธฐ๋ฐ ๊ฒ์ ๋ฐฉ๋ฒ์ ์ปจํ
์ธ ๊ธฐ๋ฐ ๋
ผ๋ฌธ-์ง์ ๊ทธ๋ํ ๊ตฌ์ถ์ ์ค์ ํ์ฉ ์ฌ๋ก๋ฅผ ๋ณด์ฌ์ค๋๋ค.
์์ฉ ์ฌ๋ก
์ธ์ฉ ๋คํธ์ํฌ ๋ฐ ๊ณ ๊ธ ์ ๋ณด ๊ธฐ๋ฐ RAG ์ ์ฉ ๋
ผ๋ฌธ์ผ๋ก, ๋ช
์์ ์์น์ ๋ณด ํน์ ํ๋ ๋ด๋ด ์๊ทธ๋์ ๊ณผํ์ ํด์ ์ ์ฉ์ ์ฐธ๊ณ ํ ๋งํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์