Detecting LLM-written Peer Reviews

Motivation

Known:
- ICLR 2024의 15.8% 이상의 리뷰가 AI 보조로 작성됨
- NIH, Science 등 주요 기관이 LLM 기반 리뷰 금지 정책 시행
- GPTZero 같은 기존 탐지 도구는 완전 생성 vs. AI 보조 텍스트 구분 실패
Gap:
- 기존 탐지 방법(stylistic analysis, term frequency)은 가정에 의존하며 형식적 통계 보장 부재
- 대규모 리뷰 평가 시 다중검정(multiple testing) 문제로 인한 거짓양성(false positive) 위험
- Bonferroni 같은 표준 보정법은 통계력(statistical power)을 과도하게 감소
Why:
- 과학적 신뢰성의 핵심인 동료평가 무결성 훼손 방지 필요
- 정책 집행 가능성 높은 실질적 탐지 기법 부재
Approach:
- 원고 PDF에 숨겨진 지시사항 임베딩 → LLM이 처리하여 워터마크 삽입
- 가족단위오류율(FWER) 제어 통계 검증 프레임워크 개발
- 인간 작성 리뷰의 특성에 무관한 형식적 보장 제공

리뷰 탐지의 3단계 프로세스: 워터마킹 → 간접 프롬프트 주입 → 통계 검증

높은 워터마크 임베딩 성공률:
- 가짜 인용문(fake citation) 기반 워터마킹: 평균 98.6% 성공률
- 암호화 프롬프트 주입(cryptic prompt injection): 91% 성공률
- NSF 그랜트 제안서: 최대 89% 성공률
- ChatGPT 4o, Claude 3.5 Sonnet, Gemini 2.0 Flash 등 다양한 LLM 모두 효과적
방어 기법에 대한 견고성:
- 다른 LLM에 의한 패러프레이징 후에도 94% 이상 워터마크 유지
- 10,000+ 리뷰에서 거짓양성 0건 달성
통계적 우수성:
- FWER 제어 테스트가 Bonferroni/Holm-Bonferroni보다 통계력 우수
- 표준 보정법은 실무상 불가능(infeasible)한 수준의 검정력 저하 반면, 제안 방법은 실용성 유지

워터마크 설계 기준:
- 통계적 검증 가능성 (FWER 제어)
- 인간 작성 리뷰 변동성으로부터 독립적 오류율
- 안정적 임베딩 성공률
- 인간에게 눈에 띄지 않음 (inconspicuous)
- 패러프레이징에 강건함
워터마크 유형:
- 가짜 인용문: 임의 생성된 저자/연도 조합 (예: "Smith et al., 2089")
- 희귀 기술용어: 저빈도 도메인 특화 표현
- 통계 구조화: 각 리뷰마다 독립적 임의 선택
간접 프롬프트 주입 기법:
- 화이트텍스트 삽입: 배경색과 동일 색상 텍스트로 인간에게 불가시
- 폰트 조작: 특정 폰트나 크기 변조로 의도된 지시 임베딩
- 암호화 프롬프트: 적대적 재재구성(adversarial jailbreaking) 활용하여 탐지 회피 시도 우회
통계 검증 방법:
- 귀무가설: 워터마크의 존재는 우연에 의한 일치
- 초기하분포(hypergeometric distribution) 기반 정확한 p-값 계산
- FWER 제어로 다중검정 문제 해결
- 인간 작성 리뷰 사전 데이터 불필요 (가정 독립적)

최초 기여:
- LLM 피어리뷰 탐지 목적으로 적대적 재재구성(adversarial jailbreaking) 재목적화 (기존은 해로운 출력 생성 용도)
- FWER 제어 통계 프레임워크로 형식적 보장 제공하는 워터마킹 검증 방법 최초 개발
- 인간 작성 텍스트 특성에 무관한 모델-독립적 통계 설계
기법의 차별성:
- 기존 stylistic analysis와 달리 동적 인간 작성 양식 변화에 영향받지 않음
- 확률적 워터마크 선택으로 수학적 거짓양성 확률 상한(upper bound) 도출
- 간접 프롬프트 주입의 여러 구현 방식 비교 분석 (화이트텍스트, 폰트, 암호화 프롬프트)
실험의 광범위성:
- 6개 주요 LLM (ChatGPT, Claude, Gemini, LLaMA 등)
- 4개 실제 리뷰 데이터셋 (ICLR 2024, PeerRead, NSF 그랜트, ICPRS 2022)
- 10,000+ 규모 대규모 검증

실제 배포의 윤리 문제:
- 원고 파일 조작에 대한 투명성 공개 필요
- 리뷰어 동의 없는 프롬프트 주입의 프라이버시 함의
- 거짓양성으로 인한 무고 리뷰어 피해 리스크 관리 필요
LLM 진화에 따른 대응:
- 향후 LLM이 숨겨진 지시사항을 무시하도록 학습할 가능성
- 신규 워터마크 회피 기법 개발 시 탐지 방법 재설계 필요
후속 연구 방향:
- 조직 차원 배포 프로토콜 및 정책 프레임워크 개발
- 다국어 리뷰 및 도메인(의학, 법학 등) 확대 적용
- LLM 기반 리뷰의 품질 평가와 탐지 효율성 간 트레이드오프 분석
- 리뷰어 교육을 통한 자발적 준수 강화 방안 병행