Can large language models provide useful feedback on research papers? A large-scale empirical analysis

저자: Weixin Liang, Yuhui Zhang, Hancheng Cao, Binglu Wang, Daisy Ding | 날짜: 2023.10 | DOI: 10.48550/arXiv.2310.01783 📄 PDF

Essence

Figure 2. Retrospective analysis of LLM and human scientific feedback. a, Retrospective overlap analysis

본 논문은 GPT-4를 이용하여 과학 논문에 대한 피드백을 자동으로 생성할 수 있는지 체계적으로 분석하는 연구이다. Nature 저널 및 ICLR 학회의 3,096개 및 1,709개 논문을 대상으로 LLM과 인간 리뷰어의 피드백 겹침을 비교했으며, 308명의 연구자 대상 사용자 조사를 통해 LLM 피드백의 유용성을 평가했다.

Motivation

Known: 기존 peer review 체계는 확장성 제한과 고품질 피드백 부족 문제를 겪고 있으며, 특히 주변부 연구자들이 타이밍 있는 피드백에 접근하기 어렵다는 점이 알려져 있다.
Gap: LLM이 과학 피드백 생성에서 실제로 얼마나 유용한지, 인간 리뷰어와의 관계를 어떻게 정의할 수 있는지에 대한 대규모 실증적 분석이 부족했다.
Why: peer review의 병목 현상과 과학적 부등식 심화는 과학 생산성의 지속 가능성을 위협하는 중요한 문제이며, LLM이 이를 보완할 수 있는지 규명하는 것이 긴급하게 필요하다.
Approach: GPT-4 기반 자동화된 파이프라인을 개발하여 논문 PDF에서 structured feedback을 생성하고, 두 가지 대규모 데이터셋(Nature 저널 및 ICLR)에 대해 LLM과 인간 리뷰어의 피드백을 정량적으로 비교 분석했으며, 308명의 연구자와 prospective user study를 실시했다.

Achievement

Figure 1. Characterizing the capability of LLM in providing helpful feedback to researchers. a, Pipeline for

LLM-인간 피드백 겹침: Nature 저널 평균 30.85%, ICLR 평균 39.23%로 인간 리뷰어 간 겹침(Nature 28.58%, ICLR 35.25%)과 유사함. 사용자 인식: 57.4%의 연구자가 GPT-4 피드백을 도움/매우 도움이 된다고 평가했으며, 82.4%는 일부 인간 리뷰어보다 더 유용하다고 판단. 약한 논문에 대한 성능: 거절된 ICLR 논문에서 겹침이 43.80%로 높아 LLM이 lower-quality 논문 식별에 더 효과적.

How

Figure 3. LLM based feedback emphasizes certain aspects more than humans. LLM comments on the

전체 PDF 파싱 및 논문별 프롬프트 구성(제목, abstract, figure/table captions, 본문 텍스트 활용)
extractive text summarization으로 LLM과 인간 피드백에서 주요 코멘트 추출
semantic text matching을 통한 의미 수준의 겹침 분석
피드백 주제 분포 비교로 LLM의 강점/약점 식별
308명 연구자 대상 온라인 설문조사로 주관적 유용성 평가
다양한 기관(110개 US 기관) 및 경력 수준의 연구자 포함

Originality

과학 피드백 생성에 대한 LLM의 능력을 대규모(4,805개 논문)로 처음 체계적으로 평가
인간 리뷰어와의 직접 비교를 통해 LLM의 상대적 위치 규명
retrospective(데이터셋 기반) 및 prospective(사용자 조사) 이중 평가 방법론
다학제적 dataset(Nature) 및 특정 분야 깊이(ICLR) 모두 포괄

Limitation & Further Study

GPT-4는 메서드 설계의 심화된 비평 제공에 어려움(방법론적 약점)
특정 유형의 피드백(예: 'add experiments on more datasets')에 편향된 집중
2022년 이후 데이터만 사용하여 시간적 범위 제한
사용자 조사가 주로 미국 기관 및 AI/computational biology 분야로 제한되어 일반화 가능성 의문
LLM 피드백의 hallucination 또는 factual error 문제에 대한 깊이 있는 분석 부재
비용 및 계산 자원 측면의 실제 applicability에 대한 논의 부족

Evaluation

Novelty: 4/5 Technical Soundness: 4/5 Significance: 5/5 Clarity: 4/5 Overall: 4/5

총평: 본 논문은 LLM이 과학 피드백 생성에서 실질적인 가치를 제공할 수 있음을 대규모 실증 데이터로 처음 보여준 중요한 기여이다. 인간 리뷰어와의 비교 분석이 체계적이고, 사용자 조사가 현실적 유용성을 강화하나, LLM의 방법론적 약점과 주제 편향에 대한 해결책이 제시되지 않아 실무 적용에는 제약이 있다.

같이 보면 좋은 논문

기반 연구

SciCode: A Research Coding Benchmark Curated by Scientists

712의 SciCode 벤치마크는 184의 논문과 같이 LLM이 실제 연구 지원(피드백, 코딩 등) 역할을 평가하는 근거 자료가 된다.

기반 연구

Futuregen: Llm-rag approach to generate the future work of scientific article

RAG 기반 텍스트 생성의 이론적 기반을 제공하는 선행 연구이다.

다른 접근

Gpt4 is slightly helpful for peer-review assistance: A pilot study

184는 LLM이 논문 리뷰에 얼마나 유용한 피드백을 제공하는지에 대한 또다른 평가 논문으로, 1087과 상호보완적으로 읽을 수 있습니다.

다른 접근

ReviewerGPT? An Exploratory Study on Using Large Language Models for Paper Reviewing

LLM을 활용한 학술 논문 평가 및 피드백 생성 능력을 연구하는 유사한 접근 방식을 취한다.

다른 접근

OpenReviewer: A specialized large language model for generating critical scientific paper reviews

LLM의 과학적 텍스트 평가 능력을 분석하는 관련 연구이다.

다른 접근

Are we there yet? revealing the risks of utilizing large language models in scholarly peer review

LLM이 학술 피어 리뷰에서 유용한 피드백을 줄 수 있는지 실증적으로 검증하여, 104번 논문의 보안 위험 논의와 상반되는 시각을 제시합니다.

다른 접근

LLMs Outperform Outsourced Human Coders on Complex Textual Analysis

LLM이 논문 및 연구 평가 과정에서 인간 심사자에 비해 질적 피드백을 어떻게 제공하는지를 비교 분석하여, 인간/AI 비교의 다변화된 시각을 준다.

다른 접근

Futuregen: Llm-rag approach to generate the future work of scientific article

AI 기반 학술 리뷰 시스템의 효용성을 평가하는 유사한 연구이다.

다른 접근

Scientific production in the era of large language models

GPT 모델을 활용한 텍스트 평가 작업의 성능을 비교하는 유사한 연구이다.

다른 접근

ReviewEval: An evaluation framework for AI-generated reviews

AI가 생성한 리뷰가 실제 평가에 얼마나 적합한지, 다양한 평가 프레임워크를 통해 검증한다.

후속 연구

Closing the loop: Learning to generate writing feedback via language model simulated student revisions

184 논문은 LLM이 논문 피드백 및 리뷰에 실질적 도움을 주는지 다각도로 검증해, 227에서 제안한 자동화 피드백 시스템의 실효성을 평가한다.

후속 연구

Peer Review as A Multi-Turn and Long-Context Dialogue with Role-Based Interactions

Peer Review as A Multi-Turn Dialogue 논문은 LLM 기반 리뷰를 다중턴 대화 관점으로 분석하여 실제 적용성 논의를 확장합니다.

후속 연구

AI-Driven Review Systems: Evaluating LLMs in Scalable and Bias-Aware Academic Reviews

LLM을 활용한 논문 리뷰 평가의 확장성과 활용에 대하여 규모 및 실제성 차원의 분석을 더한다.

후속 연구

Divergent LLM Adoption and Heterogeneous Convergence Paths in Research Writing

LLM을 활용한 연구 논문 피드백 생성 시스템을 확장하는 관련 연구이다.

후속 연구

AAAR-1.0: Assessing AI's Potential to Assist Research

Can large language models provide useful feedback on research 논문은 실제 LLM의 리뷰 비판 및 피드백 능력에 관한 평가로, AAAR-1.0 벤치마크의 실제 평가 항목을 확장한다.

응용 사례

CoAuthor: Designing a Human-AI Collaborative Writing Dataset for Exploring Language Model Capabilities

CoAuthor 논문은 실제 논문 집필 시 LLM의 협력적 피드백과 집필 지원 역량을 대규모 데이터로 분석해, 피어 리뷰 단계뿐 아니라 작성 과정상의 LLM 피드백 시사점을 제시한다.

반론/비판

Are we there yet? revealing the risks of utilizing large language models in scholarly peer review

104번 논문은 LLM이 피어 리뷰에서 보일 수 있는 위험과 취약성을 다루는 반대 관점입니다.

반론/비판

MedBioLM: Optimizing Medical and Biological QA with Fine-Tuned Large Language Models and Retrieval-Augmented Generation

184번 논문은 LLM이 과학 문헌에 줄 수 있는 피드백의 한계와 활용결과를 평가하여, 530번 논문에서 제시한 QA 성능 개선 주장에 대한 비판적 시각을 제공합니다.

← 목록으로 돌아가기