Surveyforge: On the outline heuristics, memory-driven generation, and multi-dimensional evaluation for automated survey writing

์ €์ž: Xiangchao Yan, Shiyang Feng, Jiakang Yuan, Renqiu Xia, Bin Wang, Lei Bai, Bo Zhang | ๋‚ ์งœ: 2025 | DOI: N/A 📄 PDF


Essence

Figure 1

๊ทธ๋ฆผ 1: AI ์ƒ์„ฑ ์„ค๋ฌธ๊ณผ ์ธ๊ฐ„ ์ž‘์„ฑ ์„ค๋ฌธ์˜ ๋น„๊ต. ์œค๊ณฝ(Outline)์˜ ๋…ผ๋ฆฌ์  ์ผ๊ด€์„ฑ ๋ถ€์กฑ๊ณผ ์ฐธ๊ณ ๋ฌธํ—Œ(References)์˜ ๊ด€๋ จ์„ฑ ๋ฌธ์ œ๊ฐ€ ์ฃผ์š” ๊ณผ์ œ์ž„

๋ณธ ๋…ผ๋ฌธ์€ ์ž๋™ํ™”๋œ ํ•™์ˆ  ์„ค๋ฌธ์ง€(Survey) ์ƒ์„ฑ์„ ์œ„ํ•œ SURVEYFORGE ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•˜๋ฉฐ, ํœด๋ฆฌ์Šคํ‹ฑ ๊ธฐ๋ฐ˜ ์œค๊ณฝ ์ƒ์„ฑ, ๋ฉ”๋ชจ๋ฆฌ ๊ธฐ๋ฐ˜ ๋ฌธํ—Œ ๊ฒ€์ƒ‰, ๊ทธ๋ฆฌ๊ณ  ๋‹ค์ฐจ์› ํ‰๊ฐ€ ๋ฒค์น˜๋งˆํฌ(SurveyBench)๋ฅผ ํ†ตํ•ด AI ์ƒ์„ฑ ์„ค๋ฌธ๊ณผ ์ธ๊ฐ„ ์ž‘์„ฑ ์„ค๋ฌธ ๊ฐ„์˜ ํ’ˆ์งˆ ๊ฒฉ์ฐจ๋ฅผ ์ค„์ธ๋‹ค.

Motivation

Achievement

Figure 2

๊ทธ๋ฆผ 2: SURVEYFORGE ๊ฐœ์š”. ์œค๊ณฝ ์ƒ์„ฑ ๋‹จ๊ณ„์™€ ์ฝ˜ํ…์ธ  ์ž‘์„ฑ ๋‹จ๊ณ„ 2๋‹จ๊ณ„๋กœ ๊ตฌ์„ฑ๋˜๋ฉฐ, ํœด๋ฆฌ์Šคํ‹ฑ ํ•™์Šต๊ณผ ๋ฉ”๋ชจ๋ฆฌ ๊ธฐ๋ฐ˜ Scholar Navigation Agent๋ฅผ ํ™œ์šฉ

  1. ๊ตฌ์กฐ์ ์œผ๋กœ ์šฐ์ˆ˜ํ•œ ์œค๊ณฝ ์ƒ์„ฑ: ํœด๋ฆฌ์Šคํ‹ฑ ํ•™์Šต์„ ํ†ตํ•ด ์ธ๊ฐ„ ์ž‘์„ฑ ์„ค๋ฌธ์˜ ๋…ผ๋ฆฌ์  ๊นŠ์ด์™€ ํญ์„ ๋ชจ๋ฐฉํ•˜์—ฌ ๊ท ํ˜•์žกํžŒ ๊ณ„์ธต์  ์œค๊ณฝ ์ƒ์„ฑ
  2. ๊ณ ํ’ˆ์งˆ ์ฐธ๊ณ ๋ฌธํ—Œ ๊ฒ€์ƒ‰: SANA์˜ ์‹œ๊ฐ„ ์ธ์‹ ์žฌ์ˆœ์œ„ ์ง€์ •(Temporal-aware Reranking)์œผ๋กœ ๊ฐ ์„น์…˜์— ์ตœ์ ์˜ ํ•ต์‹ฌ ๋…ผ๋ฌธ ์„ ๋ณ„
  3. ํฌ๊ด„์  ํ‰๊ฐ€ ์‹œ์Šคํ…œ: SurveyBench๋ฅผ ํ†ตํ•ด ์ฐธ๊ณ ๋ฌธํ—Œ ํ’ˆ์งˆ, ์œค๊ณฝ ํ’ˆ์งˆ, ์ฝ˜ํ…์ธ  ํ’ˆ์งˆ์˜ ์„ธ ์ฐจ์›์—์„œ ์ •๋Ÿ‰์  ํ‰๊ฐ€ ๋ฉ”ํŠธ๋ฆญ ์ œ๊ณต
  4. AutoSurvey ๋Œ€๋น„ ์„ฑ๋Šฅ ๊ฐœ์„ : ์‹คํ—˜ ๊ฒฐ๊ณผ SURVEYFORGE๊ฐ€ ์„ ํ–‰ ์—ฐ๊ตฌ๋ฅผ ๋Šฅ๊ฐ€ํ•˜๋Š” ๋‹ค์ค‘ ์ฐจ์›์˜ ์šฐ์ˆ˜์„ฑ ์ž…์ฆ

How

Figure 4

๊ทธ๋ฆผ 4: ๊ธฐ์กด ๋ฐฉ๋ฒ•(์ขŒ)๊ณผ SURVEYFORGE(์šฐ)์˜ ์œค๊ณฝ ์ƒ์„ฑ ๋น„๊ต. SURVEYFORGE๋Š” ๋” ์ฒด๊ณ„์ ์ด๊ณ  ๊ณ„์ธต์ ์ธ ๊ตฌ์กฐ ์ œ์‹œ

๋‹จ๊ณ„ 1: ํœด๋ฆฌ์Šคํ‹ฑ ์œค๊ณฝ ์ƒ์„ฑ (Heuristic Outline Generation)

๋‹จ๊ณ„ 2: ๋ฉ”๋ชจ๋ฆฌ ๊ธฐ๋ฐ˜ ์ฝ˜ํ…์ธ  ์ƒ์„ฑ (Memory-Driven Content Generation)

๋‹จ๊ณ„ 3: SurveyBench๋ฅผ ํ†ตํ•œ ๋‹ค์ฐจ์› ํ‰๊ฐ€

Originality

Limitation & Further Study

Evaluation

์ดํ‰: ๋ณธ ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜ ์„ค๋ฌธ์ง€ ์ž๋™ ์ƒ์„ฑ์˜ ์‹ค์งˆ์ ์ธ ๋ฌธ์ œ์ (๊ตฌ์กฐ์  ๊ฒฐํ•จ, ์ฐธ๊ณ ๋ฌธํ—Œ ๋ถ€์ •ํ™•์„ฑ)์„ ๋ช…ํ™•ํžˆ ํŒŒ์•…ํ•˜๊ณ , ํœด๋ฆฌ์Šคํ‹ฑ ์œค๊ณฝ ์ƒ์„ฑ๊ณผ ๋ฉ”๋ชจ๋ฆฌ ๊ธฐ๋ฐ˜ ๋ฌธํ—Œ ๊ฒ€์ƒ‰์„ ํ†ตํ•ด ์‹คํšจ์„ฑ ์žˆ๋Š” ํ•ด๊ฒฐ์ฑ…์„ ์ œ์‹œํ•˜๋Š” ์˜๋ฏธ ์žˆ๋Š” ์—ฐ๊ตฌ์ด๋‹ค. ํŠนํžˆ ๋‹ค์ฐจ์› ํ‰๊ฐ€ ๋ฒค์น˜๋งˆํฌ(SurveyBench)์˜ ๊ตฌ์ถ•์€ ํ•ด๋‹น ๋ถ„์•ผ์˜ ํ‰๊ฐ€ ํ‘œ์ค€ํ™”์— ๊ธฐ์—ฌํ•  ์ˆ˜ ์žˆ๋Š” ๊ฐ•์ ์ด๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Through the lens of core competency ๋…ผ๋ฌธ์€ ๋‹ค์–‘ํ•œ LLM ๊ธฐ๋ฐ˜ ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ ๋น„๊ต๋กœ, SurveyBench์˜ ๋ฉ€ํ‹ฐ๋””๋ฉ˜์…˜ ํ‰๊ฐ€ ์ฒด๊ณ„์— ์ด๋ก ์  ๋ฐฐ๊ฒฝ์„ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
780์—์„œ ๋‹ค๋ฃจ๋Š” ๋ฉ”ํƒ€๋ฐ์ดํ„ฐ์™€ ์ž๋™ ์„ค๋ฌธ์ƒ์„ฑ์€ 021์˜ LLM ๊ธฐ๋ฐ˜ ๊ณผํ•™ ์ง€์‹์ถ”์ถœ์— ๋Œ€ํ•œ ์ด๋ก ์  ๊ธฐ์ดˆ๋ฅผ ํ† ๋Œ€๋กœ ํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Surveyforge ๋…ผ๋ฌธ์€ ๊ธด ๋งฅ๋ฝ ๊ตฌ์กฐ์™€ ๋ฉ”๋ชจ๋ฆฌ ๊ธฐ๋ฐ˜ ์š”์•ฝ์„ ํ†ตํ•ด SciTLDR ๋ฐ TLDR ์ž‘์—…๊ณผ ์ƒํ˜ธ๋ณด์™„์ ์ธ ๋Œ€์•ˆ์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๊ด€๋ จ ์—ฐ๊ตฌ ์„น์…˜ ์ƒ์„ฑ์„ ์œ„ํ•œ ํ…์ŠคํŠธ ์š”์•ฝ ๋ฐฉ๋ฒ•๋ก ์„ ๋‹ค๋ฃจ๋Š” ๊ด€๋ จ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
ํ•™์ˆ  ํ‰๊ฐ€ ๋ฐ ๋ฆฌ๋ทฐ ์ž๋™ํ™”์— ์žˆ์–ด ๊ณ„์ธตํ™”๋œ ๊ตฌ์กฐ ์ƒ์„ฑ ๋Œ€์‹  ๋ฉ”๋ชจ๋ฆฌ ๊ธฐ๋ฐ˜ ์ƒ์„ฑ, ๋ฆฌ๋ทฐ ๊ตฌ์กฐํ™” ๋“ฑ ๋‹ค์–‘ํ•œ ์ž๋™ํ™” ์ „๋žต์„ ํƒ์ƒ‰ํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
780๋ฒˆ ๋…ผ๋ฌธ์€ LLM์„ ํ™œ์šฉํ•œ ๊ตฌ์กฐ ์ค‘์‹ฌ ์•„์›ƒ๋ผ์ธ ์„ค๊ณ„์™€ ๋ฉ”๋ชจ๋ฆฌ ๊ธฐ๋ฐ˜ ์ƒ์„ฑ ๊ธฐ๋ฒ•์„ ๋‹ค๋ค„, 517๋ฒˆ์˜ ์ฒดํ—˜์  ํ…์ŠคํŠธ ๊ฒŒ์ž„ ์ƒ์„ฑ ๋ฐฉ์‹๊ณผ ๋น„๊ต ๊ฐ€๋Šฅํ•œ ๋Œ€์•ˆ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
ํ•™์ˆ  ์„œ๋ฒ ์ด์˜ ์ž๋™ํ™” ๋ฐ ํ•ต์‹ฌ ๋‚ด์šฉ ์ถ”์ถœ ๋ฐฉ๋ฒ•๋ก ์œผ๋กœ, MASSW์˜ workflow ๊ตฌ์กฐํ™”์™€ ๋น„๊ต ์—ฐ๊ตฌ๊ฐ€ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
780์€ ํœด๋ฆฌ์Šคํ‹ฑ๊ณผ ๋ฉ”๋ชจ๋ฆฌ ๊ธฐ๋ฐ˜ ํ•™์ˆ  ์„ค๋ฌธ ์ž๋™์ƒ์„ฑ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ, 781์€ LLM์„ ํ™œ์šฉํ•œ ์„ค๋ฌธ ์ž๋™ํ™” ์ ‘๊ทผ๋ฒ•์„ ์ œ์‹œํ•ด ์„œ๋กœ ๋‹ค๋ฅธ ์ „๋žต์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
780์—์„œ๋Š” LLM ๊ธฐ๋ฐ˜ ํ•™์ˆ  ์„œ๋ฒ ์ด์˜ ์•„์›ƒ๋ผ์ธ ์ƒ์„ฑ ๋ฐ ์žฅ๊ธฐ ๋งฅ๋ฝ ๊ณ„ํš ์ „๋žต์„ ๊ฒ€ํ† ํ•˜์—ฌ, 157์˜ ์ด์งˆ์  ์žฌ๊ท€ ๊ณ„ํš ํ”„๋ ˆ์ž„์›Œํฌ์™€ ๋น„๊ต์  ์ ‘๊ทผ๋ฐฉ์‹์„ ๋ณด์ธ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋…ผ๋ฌธ ์„ค๋ฌธ์ด๋‚˜ ๋Œ€ํ™”ํ˜• ์ฝ˜ํ…์ธ  ์ž๋™ํ™” ๋“ฑ LLM ๊ธฐ๋ฐ˜ ๋…ผ๋ฌธ ์ „ํ™˜์˜ ๋‹ค์–‘ํ•œ ์‹ค์šฉ์  ์‚ฌ๋ก€๋ฅผ ๋‹ค๋ฃน๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ž๋™ํ™”๋œ ํ•™์ˆ  ์ง€์‹ ๊ทธ๋ž˜ํ”„ ์ƒ์„ฑ์˜ ์œ ์‚ฌํ•œ ๋ฐฉ๋ฒ•๋ก ์„ ์ทจํ•˜๋Š” ์—ฐ๊ตฌ์ด๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
LLM์„ ํ™œ์šฉํ•œ ๋…ผ๋ฌธ ์„ค๋ฌธ(์„œ๋ฒ ์ด) ์ž๋™ํ™” ๋“ฑ ์ „์ฒด ํ…์ŠคํŠธ ํ™œ์šฉ ์ •์„ฑ์  ์š”์•ฝ์˜ ์‹ค์งˆ์  ํ™•๋Œ€ ์‚ฌ๋ก€๋ฅผ ๋‹ค๋ฃน๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
780์€ LLM ๊ธฐ๋ฐ˜ ์„œ๋ฒ ์ด ์ž๋™ํ™” ๋ฐ ์žฅ๊ธฐ๊ธฐ์–ต ํ™œ์šฉ์„ ๋‹ค๋ฃจ์–ด, 215์—์„œ ๋…ผ๋ฌธ ํŠธ๋ฆฌ ๊ตฌ์กฐ๊ฐ€ ์‹ค์ œ ์–ด๋–ป๊ฒŒ ๋ฌธํ—Œ์ข…ํ•ฉ, ์š”์•ฝ์— ์ ‘๋ชฉ๋˜๋Š”์ง€ ๋ณด์—ฌ์ค€๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
RelevAI-Reviewer ๋…ผ๋ฌธ์€ AI ๊ธฐ๋ฐ˜ ์„ค๋ฌธ ๋ฐ ์„œ๋ฒ ์ด ํ‰๊ฐ€ ๋ฐ์ดํ„ฐ์…‹์—์„œ ๋ฆฌ๋ทฐ์–ด ์ผ๊ด€์„ฑ ๋ถ„์„์— ํ™œ์šฉ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
019 'A review of llm-assisted ideation' ๋…ผ๋ฌธ์€ AI ๊ธฐ๋ฐ˜ ํ•™์ˆ  ์กฐ์‚ฌ์—์„œ ์•„์ด๋””์–ด ๋„์ถœ ๋ฐ ๊ตฌ์กฐ์  ์„œ๋ฒ ์ด ์ž‘์„ฑ์˜ ์‹ค์ œ ์ ์šฉ ์˜ˆ์‹œ๋กœ, SurveyForge ์—ฐ๊ตฌ์™€ ์—ฐ๊ณ„ํ•ด ์ฝ์„ ๊ฐ€์น˜๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
์ž๋™ ์„ค๋ฌธ ์ƒ์„ฑ ํ”„๋ ˆ์ž„์›Œํฌ๊ฐ€ ์‹ค์ œ AI ๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ ์ƒ๋ช…์ฃผ๊ธฐ ์ค‘ ๋ฌธํ—Œ ์ƒ์„ฑ ๋ฐ ๋ฆฌ๋ทฐ ๊ณผ์ •๊ณผ ์—ฐ๊ฒฐ๋ฉ๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •