ScholarCopilot: Training Large Language Models for Academic Writing with Accurate Citations

์ €์ž: Yubo Wang, Xueguang Ma, Ping Nie, Huaye Zeng, Zhiheng Lyu, Yuxuan Zhang, Benjamin Schneider, Yi Lu, Xiang Yue, Wenhu Chen | ๋‚ ์งœ: 2025 | DOI: arXiv:2504.00824 📄 PDF


Essence

Figure 1

์ „ํ†ต์ ์ธ RAG ์‹œ์Šคํ…œ(์ขŒ)๊ณผ ScholarCopilot(์šฐ)์˜ ๋น„๊ต. ScholarCopilot์€ ํ…์ŠคํŠธ ์ƒ์„ฑ ์ค‘ ๋™์ ์œผ๋กœ ๊ฒ€์ƒ‰ ํ† ํฐ([RET])์„ ์ƒ์„ฑํ•˜์—ฌ ๋ฌธ๋งฅ-์ธ์‹ํ˜• ์ฐธ๊ณ ๋ฌธํ—Œ ๊ฒ€์ƒ‰์„ ์ˆ˜ํ–‰ํ•จ

ํ•™์ˆ  ๋…ผ๋ฌธ ์ž‘์„ฑ์„ ์œ„ํ•ด ์ƒ์„ฑ ๊ณผ์ •๊ณผ ์ธ์šฉ ๊ฒ€์ƒ‰์„ ํ†ตํ•ฉํ•œ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์‹œํ•œ๋‹ค. ๋™์  ๊ฒ€์ƒ‰ ํ† ํฐ ์ƒ์„ฑ์„ ํ†ตํ•ด ํ•„์š”ํ•œ ์‹œ์ ์— ์ •ํ™•ํ•œ ํ•™์ˆ  ์ฐธ๊ณ ๋ฌธํ—Œ์„ ๊ฒ€์ƒ‰ํ•˜๊ณ  ์ธ์šฉ ์ •ํ™•๋„๋ฅผ ๋Œ€ํญ ํ–ฅ์ƒ์‹œํ‚จ๋‹ค.

Motivation

Achievement

Figure 2

์ „ํ†ต์  RAG(์ •์  ๊ฒ€์ƒ‰-์ƒ์„ฑ ํŒŒ์ดํ”„๋ผ์ธ)์™€ ScholarCopilot(๋™์  ์ธํ„ฐ๋ฆฌ๋น™)์˜ ๋น„๊ต

  1. ๊ฒ€์ƒ‰ ์„ฑ๋Šฅ: Top-1 ๊ฒ€์ƒ‰ ์ •ํ™•๋„ 40.1% ๋‹ฌ์„ฑ (E5-Mistral-7B-Instruct 15.0%, BM25 9.8% ์ดˆ๊ณผ)
  2. ์ƒ์„ฑ ํ’ˆ์งˆ: 1,000๊ฐœ ์ƒ˜ํ”Œ ํ‰๊ฐ€์—์„œ 16.2/25์  ํš๋“ (Qwen-2.5-7B-Instruct 13.9์ , Qwen-2.5-72B-Instruct 15.8์  ์ดˆ๊ณผ). ๊ด€๋ จ์„ฑ, ๋…ผ๋ฆฌ์  ์ผ๊ด€์„ฑ, ํ•™์ˆ ์  ์—„๋ฐ€์„ฑ, ์ •๋ณด ์™„์„ฑ๋„, ํ•™์ˆ ์  ํ˜์‹ ์„ฑ์˜ 5๊ฐ€์ง€ ์ฐจ์› ํ‰๊ฐ€.
  3. ์‚ฌ์šฉ์ž ๋งŒ์กฑ๋„: 10๋ช…์˜ ์ˆ™๋ จ๋œ ํ•™์ˆ  ์ €์ž์˜ ์‚ฌ์šฉ์ž ์—ฐ๊ตฌ์—์„œ ChatGPT ๋Œ€๋น„ ์ธ์šฉ ํ’ˆ์งˆ 100% ์„ ํ˜ธ, ์ „์ฒด ์œ ์šฉ์„ฑ 70% ์ด์ƒ ์„ ํ˜ธ.

How

Figure 4

ScholarCopilot์˜ ํ†ตํ•ฉ ํ›ˆ๋ จ ํ”„๋ ˆ์ž„์›Œํฌ. ํ…์ŠคํŠธ ์ƒ์„ฑ์˜ ๋‹ค์Œ ํ† ํฐ ์˜ˆ์ธก ์†์‹ค๊ณผ ์ธ์šฉ ๊ฒ€์ƒ‰์˜ ๋Œ€์กฐํ•™์Šต ์†์‹ค์„ ํ•จ๊ป˜ ์ตœ์ ํ™”ํ•˜๋ฉฐ, ๊ฒ€์ƒ‰ ํ† ํฐ([RET])์ด ๋™์ ์œผ๋กœ ๊ฒ€์ƒ‰์„ ํŠธ๋ฆฌ๊ฑฐํ•จ

Originality

Limitation & Further Study

Evaluation

์ดํ‰: ScholarCopilot์€ ๋ฐ˜๋ณต์  ๊ฒ€์ƒ‰-์ƒ์„ฑ ํ†ตํ•ฉ์„ ํ†ตํ•ด ํ•™์ˆ  ๋…ผ๋ฌธ ์ž‘์„ฑ์— ํŠนํ™”๋œ ์‹ค์šฉ์ ์ด๊ณ  ํ˜์‹ ์ ์ธ ์†”๋ฃจ์…˜์„ ์ œ์‹œํ•œ๋‹ค. ๋Œ€๊ทœ๋ชจ ํ•™์ˆ  ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ•๊ณผ ์‚ฌ์šฉ์ž ํ‰๊ฐ€๋ฅผ ํ†ตํ•ด ์‹ค์งˆ์  ๊ฐ€์น˜๋ฅผ ์ž…์ฆํ–ˆ์œผ๋‚˜, ๋„๋ฉ”์ธ ํ•œ์ •์„ฑ๊ณผ ์ƒ์„ธํ•œ ๊ธฐ์ˆ  ์„ค๋ช… ๋ถ€๋ถ„์—์„œ ๊ฐœ์„ ์˜ ์—ฌ์ง€๊ฐ€ ์žˆ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
219 ๋…ผ๋ฌธ์€ ๋ฌธ๋งฅ ๊ธฐ๋ฐ˜ ์ธ์šฉ ์ƒ์„ฑ ๋ฐฉ๋ฒ•๋ก ์„ ๋‹ค๋ฃจ๋ฉฐ, 702์˜ ์ธ์šฉ ์ถ”์ฒœ ์‹œ์Šคํ…œ ์„ค๊ณ„์— ์ด๋ก ์  ํ† ๋Œ€๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
ํ•™์ˆ  ๊ธ€์“ฐ๊ธฐ process ์ „์ฒด๋ฅผ ๋ฒค์น˜๋งˆํฌ๋กœ ๊ตฌ์ถ•ํ•œ 703๋ฒˆ ๋…ผ๋ฌธ์€ citation generation ๋“ฑ 702๋ฒˆ์˜ ํ†ตํ•ฉ ํ•™์ˆ writing ์‹œ์Šคํ…œ ๊ฐœ๋ฐœ์— ๊ธฐ๋ฐ˜์ด ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
์ •์ฑ… ๋ฌธ์„œ ์ƒ์„ฑ ๋ฐ ํ‰๊ฐ€๋ฅผ ์œ„ํ•œ ๋ฐฉ๋ฒ•๋ก ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•˜๋Š” ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ „๊ธฐ๋ฌธ ์ž๋™ ์ƒ์„ฑ์—์„œ ์ •๋ณด ๊ฒ€์ƒ‰ ๋ฐ ํŽธํ–ฅ ๋ฌธ์ œ๋ฅผ ๋‹ค๋ฃจ๋Š” ์œ ์‚ฌํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
602 ๋…ผ๋ฌธ์€ ๋…ผ๋ฌธ ์งˆ์˜์‘๋‹ต์„ ์œ„ํ•œ RAG ๊ธฐ๋ฐ˜ ์ƒ์„ฑํ˜• ์‹œ์Šคํ…œ์„ ์ œ์•ˆํ•ด, 702์˜ ํ•™์ˆ ์  ์ •๋ณด ๊ฒ€์ƒ‰ ๋ฐ ์ธ์šฉ ๊ธฐ๋Šฅ์— ๋‹ค๋ฅธ ์ ‘๊ทผ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
592 ์—ญ์‹œ ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ ๋ฐ ์ž‘์„ฑ์„ ์œ„ํ•œ LLM ํŠนํ™” ์‹œ์Šคํ…œ ๊ฐœ๋ฐœ๋กœ, 702์˜ ์ธ์šฉ ๊ฒ€์ƒ‰๊ณผ ํ†ตํ•ฉ๋œ ๋…ผ๋ฌธ ์ž‘์„ฑ ํ”„๋ ˆ์ž„์›Œํฌ์™€ ์œ ์‚ฌํ•œ ๋ฌธ์ œ๋ฅผ ๋‹ค๋ฃฌ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
150๋ฒˆ ๋…ผ๋ฌธ์€ citation recommendation task๋ฅผ ์œ„ํ•œ ํ‰๊ฐ€ ๋ฐ ๋ฒค์น˜๋งˆํฌ ๊ตฌ์ถ•๋ฒ•์— ์ดˆ์ ์„ ๋งž์ถ”์–ด, 702์™€ ๋ฌธ์ œ ์ ‘๊ทผ๋ฒ•์ด ๋‹ค๋ฆ…๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Openscholar ๋…ผ๋ฌธ๋„ ๋ณธ๋ฌธ ํƒ์ƒ‰๊ณผ RAG๋ฅผ ๊ฒฐํ•ฉํ•˜์—ฌ ํ•™์ˆ  ๋ฌธ์„œ ์ž‘์„ฑ ์ง€์›์˜ ๋˜๋‹ค๋ฅธ ์ ‘๊ทผ์„ ๋ณด์—ฌ์ค€๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
ํ•™์ˆ  ๋…ผ๋ฌธ ์ถ”์ฒœ, ์ธ์šฉ ์ƒ์„ฑ ๋“ฑ LLM ๊ธฐ๋ฐ˜ ์›Œํฌํ”Œ๋กœ์šฐ์˜ ๋‹ค๋ฅธ ๊ตฌํ˜„ ์‚ฌ๋ก€๋กœ, ์ธ์šฉ ์˜ˆ์ธก๊ณผ ์ถ”์ฒœ์˜ ์‹ค์ œ ๋น„๊ต๊ฐ€ ๊ฐ€๋Šฅํ•˜๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
ScholarCopilot ๋…ผ๋ฌธ์€ LLM์„ ํ™œ์šฉํ•œ ํ•™์ˆ ๋ฌธํ—Œ ๋ถ„์„ ๋ฐ ์š”์•ฝ ๋ถ„์•ผ์˜ ์ตœ์‹  ์‘์šฉ ์—ฐ๊ตฌ๋กœ PaperQA2 ์„ฑ๋Šฅ ๋น„๊ต์— ์œ ์šฉํ•˜๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ธ์šฉ ๋„คํŠธ์›Œํฌ ๊ธฐ๋ฐ˜ ์ถ”์ฒœ ์‹œ์Šคํ…œ์˜ ๋Œ€์•ˆ์  ์ ‘๊ทผ๋ฒ•์„ ์ œ์‹œํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ธ์šฉ ํ–‰๋™ ํŒจํ„ด์„ ๋ชจ๋ธ๋งํ•˜์—ฌ ์ถ”์ฒœ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ์œ ์‚ฌํ•œ ์‹œ์Šคํ…œ์„ ์ œ์•ˆํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Directed criteria ๊ธฐ๋ฐ˜ ์ธ์šฉ ์ถ”์ฒœ ๋ฐ ranking ๋ฐฉ๋ฒ•๋ก ์„ ์ œ์•ˆํ•œ 273๋ฒˆ ๋…ผ๋ฌธ์€ ScholarCopilot์˜ citation context recommendation์„ ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Taxonomy tree generation from citation graph ๋…ผ๋ฌธ์€ ์ธ์šฉ ๊ทธ๋ž˜ํ”„ ๊ธฐ๋ฐ˜ ๋ถ„๋ฅ˜๋ฅผ ๋” ๋ฐœ์ „์‹œ์ผœ LLM ์ธ์šฉ ์ถ”์ฒœ์˜ ๊ตฌ์กฐ์  ์ธก๋ฉด์„ ํ™•์žฅํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
019๋Š” ๋…ผ๋ฌธ ์•„์ด๋””์–ด ์ƒ์„ฑ๊ณผ LLM ๊ธฐ๋ฐ˜ ์ž‘์„ฑ์„ ๋‹ค๋ฃจ๋ฏ€๋กœ, 702์—์„œ ์ œ์‹œํ•œ ์ „์ฒด ๋…ผ๋ฌธ ์ƒ์„ฑ ์›Œํฌํ”Œ๋กœ์šฐ์˜ ์ƒ์œ„ ๊ฐœ๋…๊ณผ ์—ฐ๊ฒฐ๋œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Mir: Methodology inspiration retrieval for scientific research ๋…ผ๋ฌธ์€ LLM์ด ํ•™์ˆ  ์ž‘์„ฑ ๋ฐ ์ธ์šฉ ์ถ”์ฒœ์— ์ฃผ๋Š” ์ฐฝ์˜์  ์˜๊ฐ๊ณผ ์‹ ๋ขฐ์„ฑ ๋ฌธ๋งฅ์— ๋Œ€ํ•œ ํ™•์žฅ์  ๋…ผ์˜๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
AI ๊ธฐ๋ฐ˜ ํ•™์ˆ ์ž‘๋ฌธ ๋ฐ gene signature ๋ถ„์„ ๋„๊ตฌ๋กœ, ์ƒ์ฒด ์‹คํ—˜-์‹ ์•ฝ ์‘๋‹ต ๋ถ„์„์˜ ์ž๋™ํ™” ๊ด€์ ์—์„œ ํ™•์žฅ์„ฑ์„ ๊ฐ€์ง„๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •