OpenReviewer: A specialized large language model for generating critical scientific paper reviews

Motivation

Known: 최근 대규모 언어모델(LLM)이 학술 논문 요약, 이해, 분석 등 학술 연구 관련 다양한 작업에서 우수한 성능을 보이고 있음. 연간 10,000건 이상의 투고를 받는 주요 학술대회들이 급증하는 투고량으로 인한 동료심사 시스템의 부담 증가 문제 직면.
Gap: 범용 LLM들은 학술 동료심사의 깊이, 특수성, 비판적 관점, 구조화된 형식을 충족하기 어려움. 필드별 관례 부재, 기술적 기여 평가 부족, 확립된 심사 관행과 불일치하는 피드백 제공 경향.
Why: 투고 전(pre-submission) 단계에서 전문가 피드백을 받지 못하는 저자들이 원고의 중대한 약점을 놓치거나 심사자 우려사항을 해결하지 못하는 문제 발생. 이는 불필요한 탁상 거절(desk rejection) 또는 사전 피드백으로 방지 가능했던 부정적 심사로 귀결.
Approach: ICLR 2024 심사자 가이드를 기반으로 한 전문화된 장문맥(long-context) LLM을 개발하고, 상위 ML 학술대회(ICLR, NeurIPS)의 79,000개 전문가 리뷰 데이터셋으로 파인튠.

OpenReviewer의 시스템 프롬프트

데이터 수집: OpenReview에서 2022년 이후 ICLR, NeurIPS의 36,000개 논문과 141,000개 리뷰 수집. PDF를 마크다운으로 변환(Marker 라이브러리 사용 - Nougat 대비 정확도 향상, 수식·표 정확 변환).
필터링: 논문 및 리뷰를 길이별로 필터링(상하위 1% 제거), 고신뢰도 리뷰만 선별("자신있지만 절대적이지 않은" 신뢰도 이상) → 최종 79,000개 리뷰 데이터셋.
프롬프트 설계: 시스템 프롬프트는 ICLR 2024 심사자 가이드 기반 심사자 역할 조건화, 고정된 가이드라인 정의. 사용자 프롬프트는 최소한(minimalistic)으로 설계 - "Review the following paper:" + 전체 논문 텍스트.
모델 파인튠: Llama-3.1-8B-Instruct을 3 에포크, 배치 크기 64, 학습률 2×10⁻⁵로 파인튠. 128k 토큰 최대 시퀀스 길이로 긴 논문 수용. Deepspeed ZeRO-3, Flash Attention V2, LIGER Kernel 사용하여 메모리 효율화. 64개 NVIDIA A100 GPU에서 약 34시간 소요.
인터페이스: HuggingFace Spaces 기반 Gradio 인터페이스. PDF 업로드 → 자동 마크다운 변환 → 사용자 편집 가능 → 리뷰 생성(스트리밍 모드).

평가 방법론의 한계: 유사성(similarity to human reviews) = 품질이라는 가정이 완벽하지 않음. 인간 작성 리뷰의 품질 관리도 제한적. 자동화된 메트릭으로 자유형식 텍스트 평가의 내재적 어려움 존재.
범용성 제한: ICLR, NeurIPS 중심 학습으로 다른 학문 분야(생명과학, 공학 등) 또는 학술대회 적용 가능성 불명확. 리뷰 템플릿 다양성에 따른 일반화 성능 미검증.
인간 검토자 대체 가능성 재고: 저자는 명시적으로 인간 동료심사 대체를 거부하지만, 시스템 오용 가능성(투고 전 검증 목적 벗어난 심사 시간 단축 시도 등) 우려.
후속 연구 방향:
- 다양한 학문 분야별 특화 모델 개발
- 인간-AI 협력 심사 시스템 구축(AI 리뷰 + 인간 최종 검증)
- 리뷰 품질의 객관적 평가 메트릭 개발
- 편향성(bias) 분석 - 특정 분야, 저자 배경별 차등 평가 여부 검토
- 강화학습(RLHF) 기반 리뷰 품질 최적화