Turning Citation Networks Inside Out: Studying Science Using Content-Based Knowledge Graphs from LLM-Derived Taxonomies

์ €์ž: Seorin Kim, Vincent Holst, Vincent Ginis | ๋‚ ์งœ: 2026-01-21 | URL: https://arxiv.org/abs/2601.15062 📄 PDF


Essence

Figure 1

Figure 1: Framework overview. a. From an initial corpus of 16,819 publications, LLM-assisted curation identifies

๋ณธ ๋…ผ๋ฌธ์€ ์ธ์šฉ ๋„คํŠธ์›Œํฌ ๋Œ€์‹  LLM์„ ํ™œ์šฉํ•˜์—ฌ ํ•™์ˆ  ๋…ผ๋ฌธ์˜ ๋‚ด์šฉ์œผ๋กœ๋ถ€ํ„ฐ ์ง์ ‘ ์ง€์‹ ๊ทธ๋ž˜ํ”„๋ฅผ ๊ตฌ์ถ•ํ•˜๋Š” "๋‚ด๋ถ€-์™ธ๋ถ€" ์ ‘๊ทผ๋ฒ•์„ ์ œ์•ˆํ•œ๋‹ค. ๊ฐ ๋…ผ๋ฌธ์„ ์ธก์ •(measure), ๋ฐ์ดํ„ฐ ์œ ํ˜•, ์—ฐ๊ตฌ ์งˆ๋ฌธ ์œ ํ˜•์˜ ์‚ผ์ค‘ํ•ญ์œผ๋กœ ์ธ์ฝ”๋”ฉํ•˜์—ฌ ์ง€์‹ ๊ทธ๋ž˜ํ”„์˜ ๋…ธ๋“œ๋กœ ์‚ฌ์šฉํ•˜๊ณ , ๊ณต์œ  ๋…ผ๋ฌธ ์ˆ˜๋กœ ์—ฃ์ง€ ๊ฐ€์ค‘์น˜๋ฅผ ๊ฒฐ์ •ํ•œ๋‹ค.

Motivation

Achievement

Figure 2

Figure 2: Popular nodes, pairs, and triangles in the intergenerational wealth mobility literature across six periods.

์•ˆ์ •์ ์ธ ๋ฐฉ๋ฒ•๋ก ์  ๋ฐฑ๋ณธ ์‹๋ณ„: regression-based measures๊ฐ€ 2006-2010 ์ดํ›„ wealth mobility ๋ฌธํ—Œ์˜ ์ง€์†์ ์ธ ์ค‘์‹ฌ์œผ๋กœ ๋‚˜ํƒ€๋‚จ. ์‹œ๊ฐ„์  ๋ณ€ํ™” ๋ถ„์„: ๋…ธ๋“œ ์ˆ˜์ค€์˜ ๋™์—ญํ•™๋ณด๋‹ค ์Œ ์ˆ˜์ค€์˜ ๊ฒฐํ•ฉ ๋ฐฉ์‹์—์„œ ๋” ํฐ ๋ณ€ํ™” ๋ฐœ์ƒ. ๊ตฌ์กฐ์  ์ค‘๊ฐœ์ž ๋ฐœ๊ฒฌ: ์œ ๋ช…๋„์— ๋น„ํ•ด ๋ถˆ๊ท ํ˜•์ ์œผ๋กœ ์ค‘์š”ํ•œ ๊ตฌ์กฐ์  ์—ญํ• ์„ ํ•˜๋Š” ์„ฑ๋ถ„๊ณผ ์Œ์„ betweenness-์—ฐ๊ฒฐ์„ฑ ๋น„์œจ๋กœ ์‹๋ณ„. ํ•ด์„ ๊ฐ€๋Šฅํ•œ ์ง€์‹ ๊ทธ๋ž˜ํ”„: ๋‚ด์šฉ ๊ธฐ๋ฐ˜ ๋ถ„๋ฅ˜๋ฒ•์œผ๋กœ ์ธ์šฉ ๊ธฐ๋ฐ˜ ์ ‘๊ทผ๋ฒ•์„ ๋ณด์™„ํ•˜๋Š” ์˜๋ฏธ์žˆ๋Š” ์‹œ๊ฐ ์ œ๊ณต.

How

Figure 1

Figure 1: Framework overview. a. From an initial corpus of 16,819 publications, LLM-assisted curation identifies

โ€ข LLM-assisted curation์„ ํ†ตํ•ด ๊ด€๋ จ์„ฑ ๊ฒ€์ฆ ๋ฐ ์ค‘๋ณต ์ œ๊ฑฐ. โ€ข GPT o3-mini๋กœ ์ดˆ๋ก์„ ๋ถ„์„ํ•˜์—ฌ (measure, data type, research-question type) ์‚ผ์ค‘ํ•ญ ์ž๋™ ํ• ๋‹น. โ€ข ๊ณต์œ  ๋…ผ๋ฌธ ์ˆ˜๋กœ ๊ฐ€์ค‘๋œ ์—ฃ์ง€๋ฅผ ๊ฐ€์ง„ ์‚ผ๋ถ€๋ถ„ ์ง€์‹ ๊ทธ๋ž˜ํ”„ ๊ตฌ์ถ•. โ€ข ๋…ธ๋“œ ์ฐจ์ˆ˜, ๊ฐ•๋„, betweenness, ์ •๊ทœํ™”๋œ ๋น„์œจ(B/D, B/count) ๊ณ„์‚ฐํ•˜์—ฌ ์ค‘์‹ฌ์„ฑ ๋ถ„์„. โ€ข ์‹œ๊ฐ„ ๊ฒฝ๊ณผ์— ๋”ฐ๋ฅธ ๋…ธ๋“œ, ์Œ, ์‚ผ๊ฐํ˜•์˜ ๋ถ„ํฌ ๋ฐ ์ค‘์‹ฌ์„ฑ ์ง€ํ‘œ ์ถ”์ .

Originality

โ€ข ์ธ์šฉ ๋„คํŠธ์›Œํฌ ๋Œ€์‹  ๋…ผ๋ฌธ ๋‚ด์šฉ์—์„œ ์ง์ ‘ ์ง€์‹ ๊ทธ๋ž˜ํ”„๋ฅผ ๊ตฌ์ถ•ํ•˜๋Š” "๋‚ด๋ถ€-์™ธ๋ถ€" ํŒจ๋Ÿฌ๋‹ค์ž„ ์ œ์‹œ. โ€ข LLM์„ ํ™œ์šฉํ•˜์—ฌ ๋„๋ฉ”์ธ๋ณ„ ๋ถ„๋ฅ˜ ์ฒด๊ณ„๋ฅผ ์ž๋™์œผ๋กœ ์œ ๋„ํ•˜๊ณ  ์ ์šฉํ•˜๋Š” ์ƒˆ๋กœ์šด ๋ฐฉ์‹. โ€ข ์‚ผ์ค‘ํ•ญ ํ‘œํ˜„๊ณผ ์ •๊ทœํ™”๋œ betweenness-์ฐจ์ˆ˜ ๋น„์œจ์„ ๊ฒฐํ•ฉํ•œ ์ƒˆ๋กœ์šด ๊ตฌ์กฐ ๋ถ„์„ ๋ฐฉ๋ฒ•. โ€ข ๊ธฐ์กด ์ธ์šฉ ๋ฐ ํ‚ค์›Œ๋“œ ๊ธฐ๋ฐ˜ ์ ‘๊ทผ๊ณผ ๊ตฌ๋ณ„๋˜๋Š” ๋ช…ํ™•ํ•œ ๋Œ€์•ˆ์  ๊ด€์  ์ œ๊ณต.

Limitation & Further Study

โ€ข ๋‹จ์ผ ๋„๋ฉ”์ธ(intergenerational wealth mobility)์˜ ์ผ€์ด์Šค ์Šคํ„ฐ๋””๋กœ ๋ฐฉ๋ฒ•์˜ ์ผ๋ฐ˜ํ™” ๊ฐ€๋Šฅ์„ฑ ๋ฏธํ™•์ธ. โ€ข LLM ๋ถ„๋ฅ˜์˜ ์ •ํ™•์„ฑ ๊ฒ€์ฆ ๋ถ€์žฌโ€”์ธ๊ฐ„ ์ฃผ์„์ž์™€์˜ inter-rater reliability ๋ฏธ๋ณด๊ณ . โ€ข 617๊ฐœ ๋…ผ๋ฌธ์˜ ์ œํ•œ๋œ ์ƒ˜ํ”Œ๋กœ ๊ฒฐ๊ณผ์˜ ํ†ต๊ณ„์  ๊ฒฌ๊ณ ์„ฑ ์˜๋ฌธ. โ€ข ์‚ผ์ค‘ํ•ญ ํ‘œํ˜„์˜ ์ •๋ณด ์†์‹ค ์ •๋„ ๋ฏธ๋ถ„์„โ€”์ดˆ๋ก์—์„œ ๋†“์นœ ์ค‘์š”ํ•œ ๋‚ด์šฉ์ด ์žˆ์„ ์ˆ˜ ์žˆ์Œ. โ€ข ์‹œ๊ฐ„ ๊ฒฝ๊ณผ ๋ถ„์„์ด 6๊ฐœ ๊ธฐ๊ฐ„(T1-T6)์œผ๋กœ ๋‹จ์ˆœํ™”๋˜์–ด ์„ธ๋ฐ€ํ•œ ์‹œ๊ฐ„์  ํŒจํ„ด ํฌ์ฐฉ ์ œํ•œ. โ€ข LLM ๋ฒ„์ „(GPT o3-mini) ์˜์กด์„ฑ๊ณผ ๋ชจ๋ธ ๊ฐ„ ์žฌํ˜„์„ฑ ๋ฏธ๊ฒ€ํ† .

Evaluation

Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

์ดํ‰: ๋ณธ ๋…ผ๋ฌธ์€ ์ธ์šฉ ๋„คํŠธ์›Œํฌ ๋ถ„์„์˜ ๊ทผ๋ณธ์ ์ธ ํ•œ๊ณ„๋ฅผ ์ง€์ ํ•˜๊ณ  LLM ๊ธฐ๋ฐ˜์˜ ๋‚ด์šฉ ์ค‘์‹ฌ ์ง€์‹ ๊ทธ๋ž˜ํ”„ ๊ตฌ์ถ•์ด๋ผ๋Š” ์ฐฝ์˜์ ์ธ ๋Œ€์•ˆ์„ ์ œ์‹œํ•œ๋‹ค. ๋ฐฉ๋ฒ•๋ก ์ด ๋ช…ํ™•ํ•˜๊ณ  ์ผ๊ด€๋˜๋ฉฐ, wealth mobility ๋ฌธํ—Œ์˜ ์ผ€์ด์Šค ์Šคํ„ฐ๋””์—์„œ ์˜๋ฏธ์žˆ๋Š” ํ†ต์ฐฐ์„ ๋„์ถœํ•œ๋‹ค. ๋‹ค๋งŒ ๋‹จ์ผ ๋„๋ฉ”์ธ ์‚ฌ๋ก€, ๋ถ„๋ฅ˜ ์ •ํ™•์„ฑ ๊ฒ€์ฆ ๋ถ€์žฌ, ์ œํ•œ๋œ ์ƒ˜ํ”Œ ํฌ๊ธฐ ๋“ฑ์œผ๋กœ ์ธํ•ด ๋ฐฉ๋ฒ•์˜ ๋ณดํŽธ์  ๊ฐ€์น˜ ์ž…์ฆ์ด ๋ถˆ์ถฉ๋ถ„ํ•˜๋‹ค. ์ถ”๊ฐ€ ๋„๋ฉ”์ธ ์ ์šฉ๊ณผ ์ธ๊ฐ„ ๊ฒ€์ฆ์„ ํ†ตํ•œ ๊ฐ•ํ™”๊ฐ€ ํ•„์š”ํ•˜๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๋‹ค๋ฅธ ์ ‘๊ทผ
Graph ๊ธฐ๋ฐ˜ LLM-์ง€์‹๊ทธ๋ž˜ํ”„ ๊ตฌ์ถ•์˜ ๊ธ€๋กœ๋ฒŒ/๋กœ์ปฌ ๋ชจ๋ธ๋ง ๋น„๊ต, ์ธ์šฉ ๊ธฐ๋ฐ˜๊ณผ ์ปจํ…์ธ  ๊ธฐ๋ฐ˜์˜ ์ฐจ๋ณ„์ ์„ ๊ตฌ์ฒด์ ์œผ๋กœ ์ดํ•ดํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Exploiting LLMs for Automatic Hypothesis Assessment ๋…ผ๋ฌธ์€ ๋ณ€์ˆ˜๊ฐ„ ์ƒ๊ด€๊ด€๊ณ„ ๋ฐ ๊ฐ€์„ค์„ LLM memory๋ฅผ ํ†ตํ•ด ์ •๋Ÿ‰ํ™”ํ•˜๋Š” ๋“ฑ cit-net ๊ธฐ๋ฐ˜์ด ์•„๋‹Œ ๋‚ด์žฌ์  ๊ด€๊ณ„ ์ธ์‹ ์ ‘๊ทผ๋ฒ•์„ ๋ณด์—ฌ์ค€๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
ResearchAgent ๋…ผ๋ฌธ์€ ๊ธฐ์กด์˜ ์ธ์šฉ ๋„คํŠธ์›Œํฌ ๊ธฐ๋ฐ˜์ด ์•„๋‹Œ LLM ๊ธฐ๋ฐ˜์œผ๋กœ ๊ณผํ•™ ์•„์ด๋””์–ด์™€ ์—ฐ๊ฒฐ๋ง ์ƒ์„ฑ์— ์ง‘์ค‘ํ•œ ๋Œ€์•ˆ์  ์—ฐ๊ตฌ ์ ‘๊ทผ์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๊ณผํ•™์  ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ ๋Œ€๊ทœ๋ชจ ์›Œํฌํ”Œ๋กœ์šฐ์™€ AI ํ†ตํ•ฉ์„ ๋…ผ์˜ํ•ด ๋ณธ ๋…ผ๋ฌธ์— ์ ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Turning Citation Networks Inside Out๋Š” ๊ธฐ์กด ์ธ์šฉ ๋„คํŠธ์›Œํฌ ๊ธฐ๋ฐ˜ ์ง€์‹ ๊ทธ๋ž˜ํ”„ ๋Œ€์‹  ๋…ผ๋ฌธ ๋‚ด์šฉ ๊ธฐ๋ฐ˜ ์‚ผ์ค‘ํ•ญ ์ถ”์ถœ์ด๋ผ๋Š” RAG ์‘์šฉ์˜ ์ƒˆ๋กœ์šด ํ™•์žฅ์„ ์‹คํ˜„ํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Graphusion ๋“ฑ LLM ๊ธฐ๋ฐ˜ ๋…ผ๋ฌธ ๋‚ด์šฉ ์ง์ ‘ ์ง€์‹ ๊ทธ๋ž˜ํ”„ํ™” ๋ฐฉ์‹์ด ์ธ์šฉ ๋„คํŠธ์›Œํฌ ๊ธฐ๋ฐ˜ ์ „ํ†ต์  ์ ‘๊ทผ๊ณผ ๋Œ€๋น„๋˜๋ฉฐ, Turnining Citation Networks Inside Out์˜ ๋ฐฉ๋ฒ•์„ ํ™•์žฅ์‹œํ‚ฌ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
3397๋ฒˆ ๋…ผ๋ฌธ์€ ์ธ์šฉ ๋„คํŠธ์›Œํฌ๋ฅผ ํ™œ์šฉํ•ด ๊ณผํ•™ ๋‚ด ์—ฐ๊ตฌ์˜์—ญ๊ฐ„ ๊ด€๊ณ„ ๋ถ„์„์„ ์ˆ˜ํ–‰ํ•˜์—ฌ, 632๋ฒˆ์˜ ์˜๋ฏธ๋ก ์  ์—ฐ๊ฒฐ๋ง ๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ ์˜ˆ์ธก ์‹ค๋ฌด์  ์‘์šฉ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
LLM์„ ํ™œ์šฉํ•œ ๊ฐœ์ธํ™”๋œ ๊ทธ๋ž˜ํ”„ ๊ธฐ๋ฐ˜ ๊ฒ€์ƒ‰ ๋ฐฉ๋ฒ•์€ ์ปจํ…์ธ  ๊ธฐ๋ฐ˜ ๋…ผ๋ฌธ-์ง€์‹ ๊ทธ๋ž˜ํ”„ ๊ตฌ์ถ•์˜ ์‹ค์ œ ํ™œ์šฉ ์‚ฌ๋ก€๋ฅผ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
์ธ์šฉ ๋„คํŠธ์›Œํฌ ๋ฐ ๊ณ ๊ธ‰ ์ •๋ณด ๊ธฐ๋ฐ˜ RAG ์ ์šฉ ๋…ผ๋ฌธ์œผ๋กœ, ๋ช…์‹œ์  ์ˆ˜์น˜์ •๋ณด ํ˜น์€ ํžˆ๋“  ๋‰ด๋Ÿด ์‹œ๊ทธ๋„์˜ ๊ณผํ•™์  ํ•ด์„ ์ ์šฉ์— ์ฐธ๊ณ ํ•  ๋งŒํ•˜๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •