SurveyX: Academic survey automation via large language models

์ €์ž: Xun Liang, Jiawei Yang, Yezhaohui Wang, Chen Tang, Zifan Zheng, Shichao Song, Zehao Lin, Yebin Yang, Simin Niu, Hanyu Wang, Bo Tang, Feiyu Xiong, Keming Mao, Zhiyu Li | ๋‚ ์งœ: 2025 | DOI: arXiv:2502.14776 📄 PDF


Essence

Figure 2

SurveyX์˜ ์ „์ฒด ํŒŒ์ดํ”„๋ผ์ธ: ์ค€๋น„ ๋‹จ๊ณ„(Part 1: ๋…ผ๋ฌธ ๊ฒ€์ƒ‰ ๋ฐ ์ž๋ฃŒ ์ „์ฒ˜๋ฆฌ)์™€ ์ƒ์„ฑ ๋‹จ๊ณ„(Part 2: ๋…ผ๋ฌธ ์ž‘์„ฑ ๋ฐ ๊ฐœ์„ )๋กœ ๊ตฌ์„ฑ

arXiv์— ๋งค๋…„ ์ฆ๊ฐ€ํ•˜๋Š” ํ•™์ˆ  ๋…ผ๋ฌธ์˜ ํญ์ฆ ์†์—์„œ, ๋Œ€ํ˜•์–ธ์–ด๋ชจ๋ธ(LLM)์„ ํ™œ์šฉํ•˜์—ฌ ์ฒด๊ณ„์ ์ด๊ณ  ๊ณ ํ’ˆ์งˆ์˜ ํ•™์ˆ  ์„œ๋ฒ ์ด๋ฅผ ์ž๋™ ์ƒ์„ฑํ•˜๋Š” SurveyX ์‹œ์Šคํ…œ์„ ์ œ์•ˆํ•œ๋‹ค. ์ด ์‹œ์Šคํ…œ์€ ์˜จ๋ผ์ธ ์ฐธ๊ณ ๋ฌธํ—Œ ๊ฒ€์ƒ‰, AttributeTree ์ „์ฒ˜๋ฆฌ ๋ฐฉ๋ฒ•, ๊ทธ๋ฆฌ๊ณ  ๋‹ค๋‹จ๊ณ„ ์ตœ์ ํ™”๋ฅผ ํ†ตํ•ด ๊ธฐ์กด ์ž๋™ ์„œ๋ฒ ์ด ์ƒ์„ฑ ์‹œ์Šคํ…œ์˜ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•œ๋‹ค.

Motivation

Achievement

Figure 1

arXiv ์›น์‚ฌ์ดํŠธ์˜ ์—ฐ๊ฐ„ ๋…ผ๋ฌธ ์ˆ˜ ์ถ”์ด(2010-2025): 2025๋…„ ์ œ์ถœ ๊ฑด์ˆ˜๋Š” 2010๋…„์˜ 5๋ฐฐ ์ด์ƒ์œผ๋กœ ์˜ˆ์ƒ

  1. ๋†’์€ ํ’ˆ์งˆ์˜ ์ฝ˜ํ…์ธ : ์ž๋™ ์ƒ์„ฑ ์„œ๋ฒ ์ด์˜ ์ฝ˜ํ…์ธ  ํ’ˆ์งˆ์„ 0.259 ํฌ์ธํŠธ ํ–ฅ์ƒ์‹œ์ผœ ๊ธฐ์กด ์‹œ์Šคํ…œ(AutoSurvey)์„ ๋Šฅ๊ฐ€ํ•จ.
  2. ํ–ฅ์ƒ๋œ ์ธ์šฉ ํ’ˆ์งˆ: ์ฐธ๊ณ ๋ฌธํ—Œ ํ’ˆ์งˆ์„ 1.76 ํฌ์ธํŠธ ๊ฐœ์„ ํ•˜์—ฌ ํ•™์ˆ ์  ์—„๋ฐ€์„ฑ ์ฆ๋Œ€.
  3. ์ธ๊ฐ„ ์ „๋ฌธ๊ฐ€ ์ˆ˜์ค€์— ๊ทผ์ ‘: ๋‹ค์–‘ํ•œ ํ‰๊ฐ€ ์ฐจ์›์—์„œ ์ธ๊ฐ„ ์ „๋ฌธ๊ฐ€์˜ ์„ฑ๊ณผ์— ๊ทผ์ ‘ํ•œ ์„ฑ๋Šฅ ๋‹ฌ์„ฑ.
  4. ํ’๋ถ€ํ•œ ํ‘œํ˜„ ํ˜•์‹: ํ…์ŠคํŠธ, ๋„ํ‘œ, ํ‘œ, ๊ทธ๋ฆผ ๋“ฑ ๋‹ค์–‘ํ•œ ์‹œ๊ฐํ™” ์š”์†Œ ํฌํ•จ์œผ๋กœ ๊ฐ€๋…์„ฑ ํ–ฅ์ƒ.

How

Figure 2

SurveyX ํŒŒ์ดํ”„๋ผ์ธ์˜ ์ƒ์„ธ ๊ตฌ์„ฑ: Part 1์€ 11๋‹จ๊ณ„, Part 2๋Š” 11๋‹จ๊ณ„๋กœ ์ˆœ์ฐจ์ ์œผ๋กœ ์ง„ํ–‰

์ค€๋น„ ๋‹จ๊ณ„ (Preparation Phase):

์ƒ์„ฑ ๋‹จ๊ณ„ (Generation Phase):

Originality

Limitation & Further Study

Evaluation

์ดํ‰: SurveyX๋Š” LLM ๊ธฐ๋ฐ˜ ์ž๋™ ์„œ๋ฒ ์ด ์ƒ์„ฑ์˜ ์‹ค์šฉ์  ํ•œ๊ณ„๋ฅผ ์ฒด๊ณ„์ ์œผ๋กœ ํ•ด๊ฒฐํ•˜๊ณ , ์˜จ๋ผ์ธ ๊ฒ€์ƒ‰, ์ง€๋Šฅํ˜• ์ „์ฒ˜๋ฆฌ, ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ํ™•์žฅ์„ ํ†ตํ•ด ๊ธฐ์กด AutoSurvey ๋Œ€๋น„ ๋ช…ํ™•ํ•œ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ์ž…์ฆํ•œ ์˜๋ฏธ ์žˆ๋Š” ์—ฐ๊ตฌ์ด๋‚˜, ํ‰๊ฐ€์˜ ํฌ๊ด„์„ฑ๊ณผ ๋ฐฉ๋ฒ•๋ก ์˜ ์ด๋ก ์  ๊นŠ์ด ๊ฐ•ํ™”๊ฐ€ ํ•„์š”ํ•˜๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Retrieval-Augmented Generation for Large Language Models ๋…ผ๋ฌธ์€ RAG ๊ธฐ๋ฐ˜ ์ž๋™ survey ์ƒ์„ฑ ๋“ฑ SurveyX์˜ ํ•ต์‹ฌ ๊ธฐ์ˆ ์  ๊ธฐ๋ฐ˜์ด๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
593 ๋…ผ๋ฌธ์€ RAG ๊ธฐ๋ฐ˜ ๊ณผํ•™์  ๋ฌธํ—Œ ํ•ฉ์„ฑ ์‹œ์Šคํ…œ์„ ์†Œ๊ฐœํ•˜์—ฌ, 781์—์„œ ๋…ผ์˜ํ•œ ์„ค๋ฌธ ์ž๋™ํ™” ๋ฐฉ๋ฒ•๋ก ์˜ ์ด๋ก ์  ๊ธฐ์ดˆ๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
LLMs for literature review(510)๋Š” ํ•™์ˆ  ์„œ๋ฒ ์ด ์ž๋™ํ™” ๋ถ„์•ผ์—์„œ LLM์˜ ๊ฐ€๋Šฅ์„ฑ๊ณผ ํ‰๊ฐ€๋ฅผ ์ฒด๊ณ„์ ์œผ๋กœ ์ •๋ฆฌํ•œ ๋ฆฌ๋ทฐ๋…ผ๋ฌธ์ด๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ์„ ํ™œ์šฉํ•œ ํ•™์ˆ  ์„œ๋ฒ ์ด ์ž๋™ํ™” ๋ฐฉ๋ฒ•์œผ๋กœ, ๋ฆฌ๋”๋ณด๋“œ ์ž๋™ ์ƒ์„ฑ ํ”„๋ ˆ์ž„์›Œํฌ ๊ตฌ์ถ•์˜ ๊ธฐ์ˆ ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
SurveyX๋Š” LLM ๊ธฐ๋ฐ˜ ๋…ผ๋ฌธ ๋ถ„๋ฅ˜ยท์ž๋™ํ™” ์„œ๋ฒ ์ด ๋ถ„์•ผ๋กœ, PaperRobot์˜ ์ง€์‹๊ทธ๋ž˜ํ”„ ยท ์ƒ์„ฑ ๋ฐฉ๋ฒ•๋ก ์„ ํ™•์žฅยท์ ์šฉํ•˜๋Š” ์‚ฌ๋ก€๊ฐ€ ๋œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Surveyforge ๋…ผ๋ฌธ์€ ํ•™์ˆ  ์„œ๋ฒ ์ด ์ž๋™ํ™”์˜ outline, ๋ฉ”๋ชจ๋ฆฌ ๊ธฐ๋ฐ˜ ์ƒ์„ฑ ์ „๋žต์„ ์ œ์‹œํ•˜์—ฌ, SciReviewGen์˜ ๋Œ€๊ทœ๋ชจ ๋ฆฌ๋ทฐ ์ƒ์„ฑ๊ณผ ๋‹ค๋ฅธ ์ „๋žต์„ ๋น„๊ตํ•ด๋ณผ ์ˆ˜ ์žˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
781์€ LLM์„ ํ™œ์šฉํ•œ ํ•™์ˆ  ์„ค๋ฌธ ์ž๋™ํ™”๋ฅผ ๋‹ค๋ฃจ์–ด, ์žฅ๋ฌธ ๋…ผ๋ฌธ ๊ตฌ์กฐํ™”๋ผ๋Š” 109์˜ ๋ชฉ์ ๊ณผ ๋ฌธ์ œ์˜์‹์ด ์œ ์‚ฌํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
SurveyX ๋…ผ๋ฌธ์€ ๊ณผํ•™ ๋…ผ๋ฌธ์˜ ์žฅ๋ฌธ ์š”์•ฝ ๋ฐ ์ถ”์ถœ์„ ์œ„ํ•ด ๊ทธ๋ž˜ํ”„ ๋ฐ ๊ณ„์ธต์  ์ฃผ์˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์˜ ๊ตฌํ˜„ ๋ฐ ์„ฑ๋Šฅ์„ ๋‹ค๋ฅด๊ฒŒ ๋‹ค๋ฃจ๋Š” ๋Œ€์•ˆ์  ์ ‘๊ทผ๋ฒ•์ž…๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM ๊ธฐ๋ฐ˜ ๋…ผ๋ฌธ ์„ค๋ฌธ ์ž๋™ํ™” ๋ฐ ํ•ต์‹ฌ ์ •๋ณด ์ถ”์ถœ์„ ๋‹ค๋ฃจ์–ด, 520์˜ AI ํ™œ์šฉ ์—ฐ๊ตฌ ์›Œํฌํ”Œ๋กœ์šฐ ์ž๋™ ์ถ”์ถœ๊ณผ ๋น„๊ต๋˜๋Š” ๊ตฌ์กฐ์  ๋ฐ์ดํ„ฐ ๊ตฌ์ถ• ์‚ฌ๋ก€์ž…๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
780๋ฒˆ ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜ ์ž๋™ ์„œ๋ฒ ์ด ์ƒ์„ฑ์—์„œ ๋ฉ”๋ชจ๋ฆฌ ๊ธฐ๋ฐ˜ ์ƒ์„ฑ ๋ฐฉ์‹์— ์ง‘์ค‘ํ•˜์—ฌ, 781๋ฒˆ์˜ ์„œ๋ฒ ์ด ์ž๋™ํ™” ์ „์ฒ˜๋ฆฌ ์ „๋žต๊ณผ ์ƒํ˜ธ ๋น„๊ตํ•  ์ˆ˜ ์žˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
862๋Š” systematic review ์ž๋™ํ™” ์‚ฌ๋ก€๋กœ, LLM ๊ธฐ๋ฐ˜ ํ•™์ˆ  ์„œ๋ฒ ์ด ์ž๋™ํ™”์˜ ์‹ค์ œ ์„ฑ๊ณต ๋ฐ ํ•œ๊ณ„๋ฅผ ๋น„๊ตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ž๋™ํ™”๋œ ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ ์ž๋™ํ™” ๋ฐ ์˜ํ–ฅ๋ ฅ ํ‰๊ฐ€์— SurveyX๊ฐ€ ๋‹ค์–‘ํ•œ ์ž๋™ํ™” ์š”์•ฝ ๋ฐ ํ‰๊ฐ€ ์‚ฌ๋ก€๋ฅผ ์ œ๊ณตํ•˜์—ฌ ๋ณด์™„์ ์ธ ์‹œ๊ฐ์„ ์ค๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
๋Œ€๊ทœ๋ชจ ํ•™์ˆ  ๋ฆฌ๋ทฐ ์ž๋™ํ™” ๋ฐ ์„ค๋ฌธ์ง€ ์š”์•ฝ ์—”์ง„์˜ ๋ฒค์น˜๋งˆํฌ๋กœ, ๊ตฌ์กฐํ™” ์š”์•ฝ ํ‰๊ฐ€์™€ ๋ฐ์ดํ„ฐ์…‹ ์‘์šฉ์— ์ ํ•ฉํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
SurveyX๋Š” OARelatedWork ๋ฐ์ดํ„ฐ์…‹ ๋ฐฉ์‹๊ณผ ํก์‚ฌํ•˜๊ฒŒ ํ•™์ˆ  ์„œ๋ฒ ์ด ์„น์…˜ ์ƒ์„ฑ ์ž๋™ํ™” ๋ฐ ๋‹ค์ค‘ ๋ฌธ์„œ ์š”์•ฝ ์—ฐ๊ตฌ๋ฅผ ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
SurveyX๋Š” LLM ๊ธฐ๋ฐ˜ ํ•™์ˆ  ๋…ผ๋ฌธ ์š”์•ฝ ์ž๋™ํ™”์™€ ๋‹ค์–‘ํ•œ ๋…ผ๋ฌธ ๊ฐ„ ๊ด€๊ณ„ ๋ถ„์„ ์ž๋™ํ™”๋ฅผ ์ˆ˜ํ–‰ํ•˜์—ฌ ๋ณธ ๋…ผ๋ฌธ์˜ ๋ฐฉํ–ฅ์„ฑ์„ ํ™•์žฅํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
๋…ผ๋ฌธโ†’์›น์‚ฌ์ดํŠธ ์ž๋™ ๋ณ€ํ™˜๊ณผ ๋‹ฌ๋ฆฌ, SurveyX๋Š” ํ•™์ˆ ์กฐ์‚ฌ๋ฅผ ์ž๋™ํ™”ํ•˜๋ฏ€๋กœ, ๋…ผ๋ฌธ ์ƒ์‚ฐ ๋ฐ ํ™œ์šฉ์˜ ์ž๋™ํ™” ๋…ผ์˜๋ฅผ ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
SurveyX๋Š” ๋Œ€๊ทœ๋ชจ scholarly writing ์ž๋™ํ™” ์‹คํ—˜์„ ํ†ตํ•ด ์ธ์šฉ ํ…์ŠคํŠธ ์ƒ์„ฑ ๋“ฑ LLM ๊ธฐ๋ฐ˜ ๋…ผ๋ฌธ ์ž‘์„ฑ ์ „์ฒด ๊ณผ์ •๊นŒ์ง€ ์ ์šฉ ๋ฒ”์œ„๋ฅผ ํ™•์žฅํ•œ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
781 ๋…ผ๋ฌธ์€ 449์—์„œ ์ œ์‹œํ•œ RL ํŒŒ์ธํŠœ๋‹ LLM์„ ๊ณผํ•™ ๋…ผ๋ฌธ ์ž๋™ ์š”์•ฝ ๋“ฑ ์‹ค์ œ ์‘์šฉ ํƒœ์Šคํฌ์— ์ ์šฉํ•˜๋Š” ์‚ฌ๋ก€์ž…๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
SurveyX๋Š” LLM ๊ธฐ๋ฐ˜ ํ•™์ˆ  ์ž๋™ํ™”์— retrieval ๋ฐ reasoning ์ „๋žต์„ ์‹ค์ œ ์ ์šฉํ•˜๋Š” ์‚ฌ๋ก€๋ฅผ ๋ณด์—ฌ์ค€๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •