Detecting LLM-written Peer Reviews

์ €์ž: Vishisht Rao, Aounon Kumar, Himabindu Lakkaraju, Nihar B. Shah | ๋‚ ์งœ: 2025 | DOI: arXiv:2503.15772v2 📄 PDF


Essence

๋ณธ ๋…ผ๋ฌธ์€ ๋™๋ฃŒํ‰๊ฐ€(peer review) ๊ณผ์ •์— ๋Œ€๊ทœ๋ชจ์–ธ์–ด๋ชจ๋ธ(LLM)์ด ๋ถ€์ •์ ์œผ๋กœ ์‚ฌ์šฉ๋˜๋Š” ๊ฒƒ์„ ํƒ์ง€ํ•˜๊ธฐ ์œ„ํ•ด ๊ฐ„์ ‘ ํ”„๋กฌํ”„ํŠธ ์ฃผ์ž…(indirect prompt injection) ๊ธฐ๋ฒ•์„ ํ†ตํ•ด ์›Œํ„ฐ๋งˆํฌ๋ฅผ ์‚ฝ์ž…ํ•˜๊ณ , ํ†ต๊ณ„์ ์œผ๋กœ ์—„๋ฐ€ํ•œ ๊ฒ€์ฆ ๋ฐฉ๋ฒ•์œผ๋กœ LLM ์ƒ์„ฑ ๋ฆฌ๋ทฐ๋ฅผ ๊ฒ€์ถœํ•˜๋Š” ์‹œ์Šคํ…œ์„ ์ œ์•ˆํ•œ๋‹ค.

Motivation

Achievement

Figure 1: Workflow diagram

๋ฆฌ๋ทฐ ํƒ์ง€์˜ 3๋‹จ๊ณ„ ํ”„๋กœ์„ธ์Šค: ์›Œํ„ฐ๋งˆํ‚น โ†’ ๊ฐ„์ ‘ ํ”„๋กฌํ”„ํŠธ ์ฃผ์ž… โ†’ ํ†ต๊ณ„ ๊ฒ€์ฆ

  1. ๋†’์€ ์›Œํ„ฐ๋งˆํฌ ์ž„๋ฒ ๋”ฉ ์„ฑ๊ณต๋ฅ :
    • ๊ฐ€์งœ ์ธ์šฉ๋ฌธ(fake citation) ๊ธฐ๋ฐ˜ ์›Œํ„ฐ๋งˆํ‚น: ํ‰๊ท  98.6% ์„ฑ๊ณต๋ฅ 
    • ์•”ํ˜ธํ™” ํ”„๋กฌํ”„ํŠธ ์ฃผ์ž…(cryptic prompt injection): 91% ์„ฑ๊ณต๋ฅ 
    • NSF ๊ทธ๋žœํŠธ ์ œ์•ˆ์„œ: ์ตœ๋Œ€ 89% ์„ฑ๊ณต๋ฅ 
    • ChatGPT 4o, Claude 3.5 Sonnet, Gemini 2.0 Flash ๋“ฑ ๋‹ค์–‘ํ•œ LLM ๋ชจ๋‘ ํšจ๊ณผ์ 
  2. ๋ฐฉ์–ด ๊ธฐ๋ฒ•์— ๋Œ€ํ•œ ๊ฒฌ๊ณ ์„ฑ:
    • ๋‹ค๋ฅธ LLM์— ์˜ํ•œ ํŒจ๋Ÿฌํ”„๋ ˆ์ด์ง• ํ›„์—๋„ 94% ์ด์ƒ ์›Œํ„ฐ๋งˆํฌ ์œ ์ง€
    • 10,000+ ๋ฆฌ๋ทฐ์—์„œ ๊ฑฐ์ง“์–‘์„ฑ 0๊ฑด ๋‹ฌ์„ฑ
  3. ํ†ต๊ณ„์  ์šฐ์ˆ˜์„ฑ:
    • FWER ์ œ์–ด ํ…Œ์ŠคํŠธ๊ฐ€ Bonferroni/Holm-Bonferroni๋ณด๋‹ค ํ†ต๊ณ„๋ ฅ ์šฐ์ˆ˜
    • ํ‘œ์ค€ ๋ณด์ •๋ฒ•์€ ์‹ค๋ฌด์ƒ ๋ถˆ๊ฐ€๋Šฅ(infeasible)ํ•œ ์ˆ˜์ค€์˜ ๊ฒ€์ •๋ ฅ ์ €ํ•˜ ๋ฐ˜๋ฉด, ์ œ์•ˆ ๋ฐฉ๋ฒ•์€ ์‹ค์šฉ์„ฑ ์œ ์ง€

How

Originality

Limitation & Further Study

Evaluation

์ดํ‰: ๋™๋ฃŒํ‰๊ฐ€ ๋ฌด๊ฒฐ์„ฑ์ด๋ผ๋Š” ์ค‘์š”ํ•œ ํ˜„์•ˆ์— ๋Œ€ํ•ด ํ†ต๊ณ„์ ์œผ๋กœ ํ˜•์‹ํ™”๋œ ์›Œํ„ฐ๋งˆํ‚น ๊ฒ€์ฆ ๋ฐฉ๋ฒ•์„ ์ตœ์ดˆ๋กœ ์ œ์‹œํ•˜๋ฉฐ, ๋Œ€๊ทœ๋ชจ ๋ฆฌ๋ทฐ ํ‰๊ฐ€ ์‹œ ๋‹ค์ค‘๊ฒ€์ • ๋ฌธ์ œ๋ฅผ ์ฒด๊ณ„์ ์œผ๋กœ ํ•ด๊ฒฐํ•œ ๊ธฐ์—ฌ๋„ ๋†’์€ ๋…ผ๋ฌธ์ด๋‹ค. ๋‹ค๋งŒ ์‹ค์ œ ์กฐ์ง ๋ฐฐํฌ ์‹œ ์œค๋ฆฌ์ ยท๊ธฐ์ˆ ์  ๊ณ ๋ ค์‚ฌํ•ญ ๋ฐ LLM ์ง„ํ™”์— ๋”ฐ๋ฅธ ์ง€์† ๊ฐ€๋Šฅ์„ฑ์— ๋Œ€ํ•œ ์‹ฌํ™” ๋…ผ์˜๊ฐ€ ํ•„์š”ํ•˜๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Pre: A peer review based large language model evaluator ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜ ๋ฆฌ๋ทฐ ํ‰๊ฐ€์˜ ๋ฐฉ๋ฒ•์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•˜์—ฌ, LLM ์ƒ์„ฑ ๋ฆฌ๋ทฐ ํƒ์ง€ ์‹œ์Šคํ…œ์˜ ์ด๋ก ์  ํ† ๋Œ€๋ฅผ ์ด๋ฃน๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
677์€ LLM ์›Œํ„ฐ๋งˆํ‚น์ด๋‚˜ ํ…์ŠคํŠธ ํƒ์ง€์˜ ์ด๋ก ์ ยท๋ฐฉ๋ฒ•๋ก ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•˜์—ฌ ๋™๋ฃŒํ‰๊ฐ€ ํƒ์ง€ ๋ฐฉ๋ฒ• ์„ค๊ณ„์— ํ™œ์šฉ๋œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
270์€ LLM์ด ์ž‘์„ฑํ•œ ๋ฆฌ๋ทฐ ํƒ์ง€ ๋ฐฉ์‹์„ ์ œ์•ˆํ•˜์—ฌ, 860๊ณผ ๋‹ฌ๋ฆฌ AI ๋ฆฌ๋ทฐ ์ž๋™ ํŒ๋ณ„ ์ ‘๊ทผ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
846์€ LLM์ด ์ƒ์„ฑํ•œ ํ…์ŠคํŠธ๋ฅผ ํƒ์ง€ํ•˜๊ฑฐ๋‚˜ ๋™๋ฃŒํ‰๊ฐ€ ๊ณผ์ •์˜ ๋ฌด๊ฒฐ์„ฑ์„ ๋ณดํ˜ธํ•˜๋Š” ๋‹ค๋ฅธ ์ ‘๊ทผ๋ฒ•์„ ์ œ์‹œํ•˜์—ฌ ๊ฐ„์ ‘ ํ”„๋กฌํ”„ํŠธ ์ฃผ์ž… ์›Œํ„ฐ๋งˆํ‚น๊ณผ ๋น„๊ต๋œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
270์€ LLM์ด ์ž‘์„ฑํ•œ ํ”ผ์–ด๋ฆฌ๋ทฐ ํƒ์ง€๊ธฐ์— ์ดˆ์ ์„ ๋งž์ถ”๋ฉฐ, 051์˜ ์ž…์‹œ ๊ด€๋ จ ํƒ์ง€๊ธฐ์™€ ์œ ์‚ฌ ๋ฐฉ์‹์˜ ๋„๋ฉ”์ธ ์‘์šฉ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
AI๊ฐ€ ์ƒ์„ฑํ•œ ๋ฆฌ๋ทฐ ํ…์ŠคํŠธ์˜ ์‹๋ณ„์— ๋Œ€ํ•œ ์‹ค์ œ์  ํ‰๊ฐ€์™€ ํ•œ๊ณ„๋ฅผ ๋น„๊ต ๋ถ„์„ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
3226์€ AI ์ƒ์„ฑ ์ฝ˜ํ…์ธ  ํƒ์ง€๋‚˜ ์›Œํ„ฐ๋งˆํ‚น์˜ ๋‹ค๋ฅธ ๋ฐฉ๋ฒ•๋ก ์„ ์ œ์‹œํ•˜์—ฌ LLM ์ž‘์„ฑ ๋™๋ฃŒํ‰๊ฐ€ ํƒ์ง€์™€ ๋Œ€์•ˆ์ ์œผ๋กœ ๋น„๊ต๋œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
AI ๋ฆฌ๋ทฐ์–ด์˜ ํ‰๊ฐ€ ๋ฒค์น˜๋งˆํฌ๋ฅผ ํ†ตํ•ด ๋ฆฌ๋ทฐ ์ƒ์„ฑ ๋ฐ ๊ฒ€์ถœ ๋ฐฉ๋ฒ•์˜ ๊ฐ๊ด€์  ์„ฑ๋Šฅ์„ ์ถ”๊ฐ€์ ์œผ๋กœ ๊ฒ€์ฆํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Detecting LLM-written Peer Reviews ๋…ผ๋ฌธ์€ LLM์ด ์ž‘์„ฑํ•œ ํ…์ŠคํŠธ์˜ ์‹๋ณ„ยท๊ฒ€์ฆ ๊ด€์ ์—์„œ ํ‘œ์ ˆ ๋ฌธ์ œ ๋Œ€์ฑ…์„ ๋…ผ์˜ํ•จ์œผ๋กœ์จ, ์ž๋™ ๋…ผ๋ฌธ ์ƒ์„ฑ ํ‘œ์ ˆ ๋ถ„์„์„ ์‹ค์งˆ์ ์œผ๋กœ ํ™•์žฅํ•ด ์ค€๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Detecting LLM-written Peer Reviews ๋…ผ๋ฌธ์€ ์‹ฌ์‚ฌ ๊ณผ์ •์—์„œ AI ํ™œ์šฉ ๊ฒ€์ถœ์— ์ดˆ์ ์„ ๋งž์ถ”์–ด, ์ธ๊ฐ„ ํƒ์ง€์ž์™€์˜ ์ •ํ™•๋„ ๋น„๊ต์— ๋…ผ์˜ ํ™•์žฅ์ด ๊ฐ€๋Šฅํ•˜๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
270์€ LLM ๊ธฐ๋ฐ˜ ๋ฆฌ๋ทฐ ํ‰๊ฐ€๊ฐ€ ์‹ค์ œ๋กœ ์ธ๊ฐ„ ๋ฆฌ๋ทฐ์™€ ๊ตฌ๋ถ„ ๊ฐ€๋Šฅํ•œ์ง€ ์‹ค์ฆ์ ์œผ๋กœ ๋ถ„์„ํ•˜์—ฌ, ๋™๋ฃŒํ‰๊ฐ€ ์‹ ๋ขฐ์„ฑ ๋…ผ์˜์— ํ˜„์‹ค์  ์Ÿ์ ์„ ๋ณดํƒญ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
270์€ LLM ๊ธฐ๋ฐ˜ ํ”ผ์–ด๋ฆฌ๋ทฐ ์ž๋™ ์ž‘์„ฑ ํƒ์ง€์™€ ํ‰๊ฐ€ ์‚ฌ๋ก€๋กœ, 126์˜ ์ž๋™ ๋ฆฌ๋ทฐ ์ƒ์„ฑ ์ฒด๊ณ„๋ฅผ ์‹ค์ œ ๋ฆฌ๋ทฐ ํ”„๋กœ์„ธ์Šค์™€ ์—ฐ๊ฒฐํ•ด์ค๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •