Explaining relationships among research papers

Motivation

Known:
- 기존 연구는 인용문 생성 작업을 단일 인용문 수준의 고립된 문제로 접근
- Seq2seq 신경망 기반 말단간(end-to-end) 방식들이 주류를 이룸
- 장문서 처리의 길이 제한으로 인한 제약 존재
Gap:
- 여러 인용 논문 간의 관계(relationships among cited papers)를 무시
- 문학 검토(literature review)에 필요한 설명문(expository sentences)과 전환문(transition sentences)이 부재
- 최신 LLM(GPT-4)조차 사실적 오류(hallucination)와 주제 벗어남 문제 해결 불가
Why:
- 급속한 학술 출판으로 인해 연구자가 관련 논문을 추적하기 어려움
- 맞춤형 문학 검토 요약의 필요성 증대
- LLM이 지도(guidance) 없이는 정확한 생성 불가능
Approach:
- 인용 논문들 간의 관계를 포착하는 자동 추출 특성(features) 설계
- LLM 프롬프팅을 통한 특성 추출 및 이를 바탕으로 한 다중 인용문 생성
- 계획(plan) 기반 설정에서 고수준 관계 설명을 통한 생성 유도

그림 3: 인간 평가 점수 분포. 적분적 글쓰기 스타일을 보인 생성문이 더 높은 선호도를 보인다.

특성 기반 생성 프레임워크: 인용 논문의 기여도, 논문 간 관계, 인용의 담화 역할(discourse role)을 표현하는 해석 가능한(human-interpretable) 자연언어 특성들을 정의하고 자동 추출
다중 인용 동시 생성: 단일 인용문이 아닌 여러 논문의 인용과 이를 연결하는 전환 문장을 한 번에 생성하여 응집력 있는 문학 검토 구성
계획 기반 생성의 효과성: 고수준 관계 설명(plan)을 통한 유도가 생성 품질 향상에 기여함을 실증적으로 입증
적분적 글쓰기 선호도 발견: 인간 평가 결과 고수준의 추상적 인용과 전환 문장이 포함된 응집력 있는 문서를 강하게 선호

그림 4: 사실적 오류(factual errors) 개수 비교. 제안 방식이 Bing Chat 대비 오류를 크게 감소시킨다.

특성 추출 단계:
- LLM 프롬프팅을 통해 각 인용 논문의 주요 기여도(key contributions) 추출
- 인용 논문들 간의 관계(방법론적 유사성, 상호보완성, 비교 대상 등) 식별
- 각 인용의 담화 역할(background, motivation, comparison 등) 분류
계획 기반 생성:
- 인간이 제공한 고수준 계획(여러 문장으로 논문 간 관계 설명)을 입력으로 사용
- 계획 정보가 생성기의 조직화에 미치는 영향을 조사(preliminary study)
프롬프트 구성:
- 추출된 특성들을 구조화된 형식으로 종합
- 다중 인용과 전환 문장 생성을 위한 통합 프롬프트 작성
- LLM에 입력하여 단락 수준의 응집력 있는 텍스트 생성
평가 기준:
- 관련 작업 섹션(Related Work sections)을 평가 대상으로 활용
- 전문가 평가(expert evaluation)를 통한 질적 분석
- ROUGE 메트릭 및 인간 선호도 조사

예비 연구 수준: 계획 기반 실험이 인간이 제공한 계획을 사용하므로 자동 계획 생성의 필요성 존재
규모의 제한: 전문가 평가 규모가 제한적이어서 일반화 가능성 검증 필요
데이터셋 부재: 맞춤형 일일 피드 요약 데이터셋이 없어 관련 작업 섹션을 프록시로 사용한 간접적 평가
비교 평가 어려움: 선행 연구들이 서로 다른 데이터셋과 과제 정의를 사용하여 직접 비교 불가
후속 연구:
- 자동 계획 생성 알고리즘 개발
- 맞춤형 피드 요약 데이터셋 구축
- 더 대규모의 인간 평가 실시
- 다양한 도메인과 주제에 대한 일반화 검증
- 추출된 특성의 정확성 향상 방법 탐색