Surveyforge: On the outline heuristics, memory-driven generation, and multi-dimensional evaluation for automated survey writing

Motivation

Known: LLM을 이용한 자동 설문지 생성(GPT-Researcher, AutoSurvey 등)이 연구의 효율성을 높이고 있음
Gap:
1. AI 생성 설문의 윤곽이 논리적 일관성과 구조적 조직화를 결여함 (너무 광범위하거나 협소함)
2. 핵심 참고문헌을 놓치고 무관한 논문을 인용하는 경향
3. 설문 품질 평가가 전체 내용에만 초점을 두어 윤곽, 참고문헌, 내용의 세부적 분석이 부족함
Why: 설문지는 광활한 학술문헌의 체계적 정리로서 연구 시작점 역할을 하므로, 논리적 구조와 신뢰성 있는 참고문헌이 필수적
Approach: (1) 인간 작성 설문의 구조 패턴과 도메인 관련 논문을 활용한 휴리스틱 윤곽 생성, (2) Scholar Navigation Agent(SANA)의 메모리 기반 고품질 문헌 검색, (3) 다차원 평가 벤치마크 구성

그림 2: SURVEYFORGE 개요. 윤곽 생성 단계와 콘텐츠 작성 단계 2단계로 구성되며, 휴리스틱 학습과 메모리 기반 Scholar Navigation Agent를 활용

구조적으로 우수한 윤곽 생성: 휴리스틱 학습을 통해 인간 작성 설문의 논리적 깊이와 폭을 모방하여 균형잡힌 계층적 윤곽 생성
고품질 참고문헌 검색: SANA의 시간 인식 재순위 지정(Temporal-aware Reranking)으로 각 섹션에 최적의 핵심 논문 선별
포괄적 평가 시스템: SurveyBench를 통해 참고문헌 품질, 윤곽 품질, 콘텐츠 품질의 세 차원에서 정량적 평가 메트릭 제공
AutoSurvey 대비 성능 개선: 실험 결과 SURVEYFORGE가 선행 연구를 능가하는 다중 차원의 우수성 입증

그림 4: 기존 방법(좌)과 SURVEYFORGE(우)의 윤곽 생성 비교. SURVEYFORGE는 더 체계적이고 계층적인 구조 제시

이중 지식베이스 활용:
- Research Paper Database (Dr): 도메인의 최신 논문들 인코딩
- Survey Outline Database (Da): 인간 작성 설문의 구조적 패턴 저장
Top-down 접근:
- 입력 주제(Topic)에 대한 RAG(Retrieval-Augmented Generation)로 관련 논문과 기존 설문의 윤곽 검색
- LLM이 원본 설문의 구조 패턴을 학습하여 2-레벨 계층 윤곽(Outline Level-1, Level-2) 생성
- 너비(Width)와 깊이(Depth) 밸런싱을 통해 과도한 세분화나 불충분한 커버리지 방지

Scholar Navigation Agent (SANA):
- 각 서브섹션(Subsection)별로 문헌을 검색하기 위한 서브쿼리(Sub-queries) 생성
- 논문 데이터베이스에서 섹션 수준의 청크(Chunk) 단위로 관련 논문의 제목, 초록, 콘텐츠 검색
시간 인식 재순위 지정 (Temporal-Aware Reranking):
- 논문의 발표 시간, 인용도, 도메인 관련성을 종합적으로 고려하여 최고 품질의 참고문헌 우선순위 결정
병렬 콘텐츠 생성 (LLM-Parallel):
- 각 섹션별로 병렬적으로 콘텐츠 생성으로 효율성 증대
- 조합(Combination)과 정제(Refinement) 단계를 거쳐 일관성 있는 최종 설문 산출

참고문헌 품질 (Reference Quality):
- 인용된 논문이 실제로 관련성이 높고 영향력 있는지 평가
- 관련성, 핵심성, 시간적 신뢰도 메트릭 포함
윤곽 품질 (Outline Quality):
- 계층적 구조, 섹션 간 논리적 흐름, 커버리지 균형성 평가
- 인간 작성 설문과의 구조적 유사도 비교
콘텐츠 품질 (Content Quality):
- 텍스트의 일관성, 명확성, 학술적 엄밀성 평가
- 인간 작성 설문과의 Win-rate 비교

데이터베이스 규모의 제한: 현재 arXiv 기반의 논문 데이터베이스는 특정 분야(AI, CS)에 편향되어 있으며, 다른 학문 분야로의 확장 가능성 검토 필요
참고문헌 검색의 정확도: 시간 인식 재순위 지정이 최신 논문을 과도하게 우선순위할 가능성이 있으므로, 다양한 분야의 인용 패턴과 중요도 가중치 재조정 필요
계산 효율성: 병렬 콘텐츠 생성에도 불구하고 대규모 설문 생성 시 계산 비용이 높을 수 있으므로, 프롬프트 최적화 및 모델 경량화 연구 필요
주관적 평가 메트릭의 보완: 현재 SurveyBench의 일부 평가(콘텐츠 품질)는 LLM 기반이므로, 인간 평가자를 포함한 혼합 평가 체계 구축 필요
후속 연구 방향:
- 다국어 및 다학문 분야로의 확장
- 동적 업데이트: 새로운 논문 발표에 따른 설문 자동 갱신 메커니즘
- 인간-AI 협업 모델: 연구자의 수정 피드백을 통한 지속적 학습 및 개선