HLM-Cite: Hybrid Language Model Workflow for Text-based Scientific Citation Prediction

์ €์ž: Jingyang Fan, Qianyue Hao, Yong Li, Fengli Xu, Jian Yuan | ๋‚ ์งœ: 2024 | DOI: N/A 📄 PDF


Essence

Figure 1

Figure 1: (a) ํ•ต์‹ฌ ์ธ์šฉ(Core Citation) ์ •์˜. (b)(c) ํ•ต์‹ฌ ์ธ์šฉ๊ณผ ํ‘œ๋ฉด์  ์ธ์šฉ์˜ ํ†ต๊ณ„์  ์ฐจ์ด: ํ‚ค์›Œ๋“œ ๊ฒน์นจ(b)๊ณผ ์ฃผ์š” ํ…์ŠคํŠธ ๋‚ด ์–ธ๊ธ‰ ๋นˆ๋„(c)

๋ณธ ๋…ผ๋ฌธ์€ ๊ณผํ•™ ๋…ผ๋ฌธ์˜ ์ธ์šฉ ์˜ˆ์ธก ๋ฌธ์ œ๋ฅผ ๋‹จ์ˆœํ•œ ์ด์ง„ ๋ถ„๋ฅ˜์—์„œ ๋ฒ—์–ด๋‚˜ ํ•ต์‹ฌ ์ธ์šฉ(core citations)์„ ํ‘œ๋ฉด์  ์ธ์šฉ ๋ฐ ๋น„์ธ์šฉ๊ณผ ๊ตฌ๋ณ„ํ•˜๋Š” ๋‹ค๋‹จ๊ณ„ ๋ถ„๋ฅ˜ ๋ฌธ์ œ๋กœ ์žฌ์ •์˜ํ•˜๊ณ , ์ž„๋ฒ ๋”ฉ ๋ชจ๋ธ๊ณผ ์ƒ์„ฑํ˜• LLM์„ ๊ฒฐํ•ฉํ•œ ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ์›Œํฌํ”Œ๋กœ์šฐ(HLM-Cite)๋ฅผ ์ œ์•ˆํ•œ๋‹ค.

Motivation

Achievement

Figure 2

Figure 2: ์ œ์•ˆ๋œ HLM-Cite ์›Œํฌํ”Œ๋กœ์šฐ์˜ ๊ตฌ์กฐ. (a) ์ „์ฒด ๊ฐœ์š”: ๊ฒ€์ƒ‰ ๋ชจ๋“ˆ๊ณผ LLM ์—์ด์ „ํŠธ ์ˆœ์œ„ ๊ฒฐ์ • ๋ชจ๋“ˆ์˜ ๋‘ ๋‹จ๊ณ„. (b) ๊ฒ€์ƒ‰ ๋ชจ๋“ˆ์˜ ์ปค๋ฆฌํ˜๋Ÿผ ํŒŒ์ธํŠœ๋‹: ๋ถ„๋ฅ˜(Stage 1)์—์„œ ์ˆœ์œ„ ๊ฒฐ์ •(Stage 2) ํƒœ์Šคํฌ๋กœ ์ „์ด. (c) LLM ์—์ด์ „ํŠธ ์ˆœ์œ„ ๊ฒฐ์ •: Guider, Analyzer, Decider์˜ ์„ธ ์—ญํ•  ๋ถ„๋‹ด

  1. ํ•ต์‹ฌ ์ธ์šฉ ๊ฐœ๋… ๋„์ž…:
    • ์ˆ˜ํ•™์  ์ •์˜: $\tilde{S}_q = \{s_q \in S_q | \exists p \in F_q, q \in S_p, s_q \in S_p\}$ (๋ฏธ๋ž˜ ์ธ์šฉ ๋…ผ๋ฌธ๊ณผ์˜ ๊ณตํ†ต ์ธ์šฉ ๊ธฐ๋ฐ˜)
    • ๊ธฐ์กด์˜ ๋‹จ์ˆœ ์ด์ง„ ๋ถ„๋ฅ˜๋ฅผ ์„ธ ๊ฐ€์ง€ ์นดํ…Œ๊ณ ๋ฆฌ(ํ•ต์‹ฌ/ํ‘œ๋ฉด์ /๋น„์ธ์šฉ) ๊ตฌ๋ถ„ ๋ฌธ์ œ๋กœ ํ™•์žฅ
    • 19๊ฐœ ๊ณผํ•™ ๋ถ„์•ผ 13๊ฐœ ์ง€ํ‘œ์—์„œ ํ†ต๊ณ„์  ์œ ์˜์„ฑ ํ™•์ธ
  2. ํ™•์žฅ๋œ ๋ฐฉ๋ฒ•๋ก  ๊ฐœ๋ฐœ:
    • 100K ๊ทœ๋ชจ์˜ ํ›„๋ณด ์ง‘ํ•ฉ ์ฒ˜๋ฆฌ ๊ฐ€๋Šฅ (๊ธฐ์กด ๋ฐฉ๋ฒ• ๋Œ€๋น„ ์ˆ˜์ฒœ ๋ฐฐ ํ–ฅ์ƒ)
    • SOTA ๋Œ€๋น„ 17.6% ์„ฑ๋Šฅ ๊ฐœ์„  (์ •ํ™•๋„ ๋ฉ”ํŠธ๋ฆญ)
    • ํฌ๋กœ์Šคํ•„๋“œ(cross-field) ๋ฐ์ดํ„ฐ์…‹์—์„œ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ ์ž…์ฆ

How

Figure 3

Figure 3: LLM ์—์ด์ „ํŠธ ์ˆœ์œ„ ๊ฒฐ์ • ๋ชจ๋“ˆ์˜ ์‚ฌ๋ก€ ์—ฐ๊ตฌ. Guider์˜ ์›์ƒท ํ•™์Šต ์˜ˆ์‹œ(2โ†’3โ†’1์˜ ์ •๋ ฌ)๋ฅผ ํ†ตํ•ด Analyzer์™€ Decider๊ฐ€ ๋…ผ๋ฆฌ์  ๊ด€๊ณ„๋ฅผ ์ถ”๋ก ํ•˜๊ณ  ์ˆœ์œ„๋ฅผ ๊ฒฐ์ •

2๋‹จ๊ณ„ ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ์›Œํฌํ”Œ๋กœ์šฐ

Stage 1: ๊ฒ€์ƒ‰ ๋ชจ๋“ˆ (Embedding-based Retrieval)

Stage 2: LLM ์—์ด์ „ํŠธ ์ˆœ์œ„ ๊ฒฐ์ • ๋ชจ๋“ˆ (Generative LLM-based Reasoning)

์ฃผ์š” ์„ค๊ณ„ ํŠน์ง•

Originality

Limitation & Further Study

Evaluation

์ดํ‰: ๋ณธ ๋…ผ๋ฌธ์€ ์ธ์šฉ ์˜ˆ์ธก ๋ฌธ์ œ๋ฅผ ๊ฐœ๋…์ ์œผ๋กœ ์žฌ์ •์˜ํ•˜๊ณ  ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ๋ชจ๋ธ์„ ํ†ตํ•ด ์‹ค์งˆ์ ์ธ ํ™•์žฅ์„ฑ์„ ๋‹ฌ์„ฑํ•œ ๊ฒฌ์‹คํ•œ ์—ฐ๊ตฌ์ด๋‹ค. ํŠนํžˆ 100K ํ›„๋ณด ์ง‘ํ•ฉ ์ฒ˜๋ฆฌ์™€ 17.6% ์„ฑ๋Šฅ ๊ฐœ์„ ์€ ์‹ค๋ฌด์  ๊ฐ€์น˜๊ฐ€ ๋†’์œผ๋‚˜, ํ•ต์‹ฌ ์ธ์šฉ ์ •์˜์˜ ์ˆœํ™˜์„ฑ๊ณผ LLM ๊ธฐ๋ฐ˜ ์ถ”๋ก ์˜ ํšจ์œจ์„ฑ ๊ฐœ์„ ์ด ํ–ฅํ›„ ์ค‘์š”ํ•œ ๊ณผ์ œ๋กœ ๋‚จ์•„์žˆ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
์ง€์‹๊ทธ๋ž˜ํ”„ ๊ธฐ๋ฐ˜ ์‚ฌ์‹ค ๊ฒ€์ฆ์˜ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹ ๋ฐ ๋ฐฉ๋ฒ•๋ก ์„ ๊ธฐ๋ฐ˜์œผ๋กœ, ๊ณผํ•™ ๋…ผ๋ฌธ ์ธ์šฉ ์˜ˆ์ธก ๋ฐ ํ‰๊ฐ€๋ฅผ ๊ตฌํ˜„ํ•  ์ˆ˜ ์žˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
ํ…์ŠคํŠธ ๊ธฐ๋ฐ˜ ๊ณผํ•™ ์ธ์šฉ ์ƒ์„ฑ ์›Œํฌํ”Œ๋กœ์šฐ์—์„œ LCM ๋ฌธ๋งฅ ํ™œ์šฉ ์„ฑ๋Šฅ ํ‰๊ฐ€์˜ ๊ธฐ๋ฐ˜์ด ๋˜๋Š” ๋ฐฉ๋ฒ•์  ๋…ผ์˜๊ฐ€ ๋‹ด๊ฒจ ์žˆ์Šต๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
MOF ๊ด€๋ จ ๋Œ€๊ทœ๋ชจ ๋ฌธํ—Œ์˜ ์ž๋™ ๋ถ„์„ ๋ฐ ๋ฐ์ดํ„ฐ ์ถ”์ถœ ๊ฒฝํ—˜์ด ์ธ์šฉ ์˜ˆ์ธก ์›Œํฌํ”Œ๋กœ์šฐ ๊ฐœ๋ฐœ์˜ ๊ธฐ๋ฐ˜์ด ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
406์˜ ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ์–ธ์–ด๋ชจ๋ธ ์›Œํฌํ”Œ๋กœ์šฐ๋Š” ์˜๋ฏธ-๋ฌผ๋ฆฌ ๋‹จ์ ˆ ์ด์Šˆ ๋ฐ ์‹ ๊ฒฝ-์‹ฌ๋ณผ๋ฆญ ํ†ตํ•ฉ์˜ ์ด๋ก ์  ๋ฐฐ๊ฒฝ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
TLDR ๋…ผ๋ฌธ์€ ๊ณผํ•™ ๋…ผ๋ฌธ์˜ ์š”์•ฝ ์ƒ์„ฑ ๋ฌธ์ œ๋ฅผ ๋‹ค๋ฃจ๋ฉฐ, ์ธ์šฉ์˜ˆ์ธก๊ณผ ๋”๋ถˆ์–ด ๊ณผํ•™ ๋ฌธ์„œ ์ฒ˜๋ฆฌ ํƒœ์Šคํฌ์˜ ๋Œ€์•ˆ ์ž‘์—…์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
ILCiteR ๋…ผ๋ฌธ์€ ๋…ผ๋ฌธ ์ธ์šฉ ์ถ”์ฒœ์„ ํ•ด์„๊ฐ€๋Šฅ์„ฑ๊ณผ ๊ทผ๊ฑฐ ์œ„์ฃผ๋กœ ์ˆ˜ํ–‰ํ•˜๋ฉฐ, HLM-Cite์—์„œ ์ œ๊ธฐ๋œ ์ธ์šฉ ๊ตฌ๋ถ„ ๋ฌธ์ œ์˜ ๋‹ค์–‘ํ•œ ํ•ด๊ฒฐ์ฑ…์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
ํ•™์ˆ  ๋…ผ๋ฌธ ์ถ”์ฒœ, ์ธ์šฉ ์ƒ์„ฑ ๋“ฑ LLM ๊ธฐ๋ฐ˜ ์›Œํฌํ”Œ๋กœ์šฐ์˜ ๋‹ค๋ฅธ ๊ตฌํ˜„ ์‚ฌ๋ก€๋กœ, ์ธ์šฉ ์˜ˆ์ธก๊ณผ ์ถ”์ฒœ์˜ ์‹ค์ œ ๋น„๊ต๊ฐ€ ๊ฐ€๋Šฅํ•˜๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Scirgc ๋…ผ๋ฌธ์€ ์ธ์šฉ ์ถ”์ฒœ ๋ฐ ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ํ†ตํ•ด ์ธ์šฉ์˜ˆ์ธก์˜ ๋‹ค์–‘ํ•œ ์ž๋™ํ™” ๋ฐฉ์‹๊ณผ ํšจ๊ณผ๋ฅผ ๋น„๊ตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Co-Scientist ๋…ผ๋ฌธ์€ ๊ณผํ•™์  ์ฐฝ์˜์„ฑ๊ณผ ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ํ˜‘์—… ๋ฃจํ”„ ๋ชจ๋ธ๋ง์—์„œ HLM-Cite์™€ ๋Œ€์ฒด์  ์ ‘๊ทผ์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
HLM-Cite ๋…ผ๋ฌธ์€ ํ•˜์ด๋ธŒ๋ฆฌ๋“œ LM ๊ธฐ๋ฐ˜ ๋…ผ๋ฌธ ์ธ์šฉ ์ƒ์„ฑ ์›Œํฌํ”Œ๋กœ์šฐ๋ฅผ ์ œ์•ˆํ•˜์—ฌ ์ธ์šฉ hallucination ํƒ์ง€์˜ ๋Œ€์•ˆ ์‹œ์Šคํ…œ์„ ๋ณด์—ฌ์ค€๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
HLM-Cite ๋…ผ๋ฌธ์€ ์ฝ”์–ด ์ธ์šฉ ๋ถ„๋ฅ˜ ์ž๋™ํ™”์— ๊ฒ€์ƒ‰์ฆ๊ฐ• ์–ธ์–ด ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜๋ฅผ ์‹ค์งˆ์  ์›Œํฌํ”Œ๋กœ์šฐ๋กœ ํ™•์žฅ ์ ์šฉํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Leveraging LLMs in Scholarly Knowledge Graph Question Answering ๋…ผ๋ฌธ์€ ๋…ผ๋ฌธ ๊ทธ๋ž˜ํ”„ ๊ธฐ๋ฐ˜ ๋ฌธํ—Œ๊ฐ„ ์˜๋ฏธ ์ถ”์ถœ๊ณผ ์ง€์‹๊ทธ๋ž˜ํ”„ ํ™œ์šฉ์„ ํ™•์žฅํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Benchmark for evaluation and analysis of citation recommendations ๋…ผ๋ฌธ์€ ๋‹ค์–‘ํ•œ ์ธ์šฉ ๋ถ„๋ฅ˜์™€ ์ถ”์ฒœ ํƒœ์Šคํฌ์˜ ๋ฒค์น˜๋งˆํฌ๋กœ ์‹ค์ œ ํ‰๊ฐ€ ๋ฐฉํ–ฅ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Towards an AI co-scientist ๋…ผ๋ฌธ์€ HLM-Cite์˜ ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ์›Œํฌํ”Œ๋กœ์šฐ์™€ ํ†ตํ•ฉ ์—ฐ๊ตฌ ํ˜‘์—… ํˆด ๋ฐœ์ „์„ ํ•œ ๋‹จ๊ณ„ ๋” ๋ฐœ์ „์‹œํ‚ต๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
The Adoption and Usage of AI Agents ๋…ผ๋ฌธ์€ ์‹ค์ œ ํ•™๊ณ„ ๋‚ด AI ํ˜‘์—… ๋„๊ตฌ ๋ฐ ์ธ์šฉ ๊ด€๋ จ ์—์ด์ „ํŠธ ํ™œ์šฉ ์–‘์ƒ์„ ๋ถ„์„ํ•ด ์‹ ์†ํ•œ ์—ฐ๊ตฌ ์ „ํ™˜์„ ๋’ท๋ฐ›์นจํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
HLM-Cite ๋…ผ๋ฌธ์€ ์ฆ๊ฐ• ์–ธ์–ด ๋ชจ๋ธ์˜ ์‹ค์ œ ๊ณผํ•™ ๋…ผ๋ฌธ ์ธ์šฉ ์˜ˆ์ธก ๋ฌธ์ œ์— ์ ์šฉ๋œ ์‹ค์ฆ์  ํ™œ์šฉ ์‚ฌ๋ก€์ž…๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
๋…ผ๋ฌธ ์ธ์šฉ ์˜ˆ์ธก์„ ์œ„ํ•œ ๋‹จ๊ณ„์  ๋ถ„๋ฅ˜ ๋ชจ๋ธ์ด, ์ง€์‹๊ทธ๋ž˜ํ”„ ๊ธฐ๋ฐ˜ ์‚ฌ์‹ค ๊ฒ€์ฆ ๋ฐฉ๋ฒ•๊ณผ ์–ด๋–ป๊ฒŒ ์กฐํ•ฉ ๊ฐ€๋Šฅํ•œ์ง€ ๋ณด์—ฌ์ค€๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
๊ณผํ•™ ๋…ผ๋ฌธ์˜ ์ธ์šฉ ์˜ˆ์ธก ๋ฌธ์ œ์— ์—์ด์ „ํŠธ ์›Œํฌํ”Œ๋กœ์šฐ๋ฅผ ์ ์šฉํ•œ ์‹ค์ œ ์‚ฌ๋ก€๋กœ, ๋ฒค์น˜๋งˆํฌ์™€ ์‘์šฉ์˜ ์—ฐ๊ณ„๋ฅผ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
๊ณผํ•™ ๋…ผ๋ฌธ ์ธ์šฉ ์˜ˆ์ธก ๋ฌธ์ œ์— LLM ๊ธฐ๋ฐ˜ ์›Œํฌํ”Œ๋กœ์šฐ๋ฅผ ์ ์šฉํ•˜๋Š” ๋“ฑ, ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ๋ฐ ๋ถ„์„ ์ž๋™ํ™”์˜ ์‹ค์ œ ์‘์šฉ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •