AI-Driven Review Systems: Evaluating LLMs in Scalable and Bias-Aware Academic Reviews

์ €์ž: Keith Tyser, Ben Segev, Gaston Longhitano, Xin-Yu Zhang, Zachary Meeks, Jason Lee, Uday Garg, Nicholas Belsten, Avi Shporer, Madeleine Udell, Dov Te'eni, Iddo Drori | ๋‚ ์งœ: 2024-08-19 | DOI: 10.48550/arXiv.2408.10365 📄 PDF


Essence

Figure 1: OpenReviewer ์‹œ์Šคํ…œ

OpenReviewer: ์‚ฌ์šฉ์ž๊ฐ€ ๋…ผ๋ฌธ์„ ์—…๋กœ๋“œํ•˜๋ฉด ์ž๋™์œผ๋กœ ๊ฒ€ํ† ๋˜๊ณ  ์ˆ˜์ • ์ง€์นจ๊ณผ ํ•จ๊ป˜ ํ”ผ๋“œ๋ฐฑ์„ ๋ฐ›์Œ

๋ณธ ๋…ผ๋ฌธ์€ ๋Œ€๊ทœ๋ชจ ํ•™์ˆ ๋…ผ๋ฌธ ๊ฒ€ํ† ์˜ ๋ณ‘๋ชฉ ํ˜„์ƒ์„ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด LLM(Large Language Model) ๊ธฐ๋ฐ˜์˜ ์ž๋™ ๋…ผ๋ฌธ ๊ฒ€ํ†  ์‹œ์Šคํ…œ์„ ๊ฐœ๋ฐœํ•˜๊ณ , ์ธ๊ฐ„ ๊ฒ€ํ† ์ž์˜ ์„ ํ˜ธ๋„์™€์˜ ์ •๋ ฌ๋„(alignment)๋ฅผ ํ‰๊ฐ€ํ•˜๋Š” ์—ฐ๊ตฌ์ด๋‹ค. ํŠนํžˆ ์‹œ๊ฐ-ํ…์ŠคํŠธ ํ†ตํ•ฉ ๋ถ„์„, ๋™์  ์งˆ๋ฌธ ์ ์‘, ํŽธํ–ฅ ๊ฐ์†Œ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ํ†ตํ•ด ๊ณ ํ’ˆ์งˆ์˜ ์ผ๊ด€๋œ ๊ฒ€ํ† ๋ฅผ ์ œ๊ณตํ•œ๋‹ค.

Motivation

Achievement

  1. ์„ธ ๊ฐ€์ง€ ํ†ตํ•ฉ ์‹œ์Šคํ…œ ๊ฐœ๋ฐœ:
    • OpenReviewer: ์‚ฌ์šฉ์ž๊ฐ€ ๋…ผ๋ฌธ์„ ์—…๋กœ๋“œํ•˜๋ฉด ์ฆ‰์‹œ ํ”ผ์–ด ๋ฆฌ๋ทฐ ํ”ผ๋“œ๋ฐฑ ์ œ๊ณต
    • Papers with Reviews: ์ผ์ผ ์•ฝ 500๊ฐœ arXiv ๋…ผ๋ฌธ, ์›” 1,000๊ฐœ Nature ๊ฐœ๋ฐฉ ๋…ผ๋ฌธ์˜ ๊ฒ€ํ†  ๋ฐ ๊ณต๊ฐœ ์ œ๊ณต
    • Reviewer Arena: ๋ฆฌ๋ทฐ์–ด ๊ฐ„ ์„ ํ˜ธ๋„ ๊ธฐ๋ฐ˜ ๋น„๊ต ํ‰๊ฐ€ ํ”Œ๋žซํผ
  2. ๋„ค ๊ฐ€์ง€ ํ‰๊ฐ€ ๋ฐฉ๋ฒ•๋ก  ์ œ์‹œ:
    • ์ธ๊ฐ„ ํ‰๊ฐ€(human evaluation)
    • ์ž๋™ํ™”๋œ LLM ํ‰๊ฐ€(automatic LLM evaluation)
    • ์ธ๊ฐ„ ์„ ํ˜ธ๋„ ์˜ˆ์ธก(automatic LLM prediction of human preferences)
    • ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹์„ ํ†ตํ•œ LLM ๊ฒ€ํ†  ํ•œ๊ณ„ ์ž๋™ ๋ฐœ๊ฒฌ
  3. ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ(multimodal) ๊ฒ€ํ†  ๋Šฅ๋ ฅ ๊ตฌํ˜„:
    • ํ…์ŠคํŠธ์™€ ์‹œ๊ฐ ์ •๋ณด(figures) ํ†ตํ•ฉ ๋ถ„์„
    • ์ด์ค‘ ๋ถ€ํ˜ธํ™” ์ด๋ก (dual coding theory)์— ๊ธฐ๋ฐ˜ํ•œ ์ •๋ณด ์ฒ˜๋ฆฌ
  4. ํŽธํ–ฅ ๋ฐ ์œ„ํ—˜ ์™„ํ™” ๋ฉ”์ปค๋‹ˆ์ฆ˜:
    • ๊ฒ€ํ†  ์–‘์‹, ๊ฒ€ํ† ์ž ๊ฐ€์ด๋“œ, ์œค๋ฆฌ ๊ทœ๋ฒ”, ๋ถ„์•ผ ์˜์žฅ ์ง€์นจ, ๊ณผ๋…„๋„ ํ†ต๊ณ„ ๋“ฑ ๋‹ค์ค‘ ๋ฌธ์„œ ํ†ตํ•ฉ
    • ์ ์ˆ˜ ์ธํ”Œ๋ ˆ์ด์…˜(inflated scores) ๋ฐ ๊ณผ์‹  ํ‰๊ฐ€ ๋ฐฉ์ง€

How

๊ฒ€ํ†  ์ƒ์„ฑ ๋ฐฉ๋ฒ•:

ํ‰๊ฐ€ ๋ฐฉ๋ฒ•๋ก :

ํŽธํ–ฅ ์™„ํ™” ์กฐ์น˜:

Originality

Limitation & Further Study

Evaluation

์ดํ‰: ๋ณธ ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜ ํ•™์ˆ  ๋…ผ๋ฌธ ๊ฒ€ํ†  ์‹œ์Šคํ…œ์˜ ์‹ค์šฉ์  ๊ตฌํ˜„๊ณผ ํ•จ๊ป˜ ์ธ๊ฐ„ ๊ฒ€ํ† ์™€์˜ ์ •๋ ฌ๋„๋ฅผ ์ฒด๊ณ„์ ์œผ๋กœ ํ‰๊ฐ€ํ•˜๋Š” ์ฃผ์š” ๊ธฐ์—ฌ๋ฅผ ํ•œ๋‹ค. ํŠนํžˆ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ถ„์„, ํŽธํ–ฅ ์™„ํ™”, ๋Œ€๊ทœ๋ชจ ์‹ค์ œ ๋ฐ์ดํ„ฐ ์ ์šฉ ๋“ฑ์ด ๊ฐ•์ ์ด๋ฉฐ, ์˜ค๋ฅ˜ ๋„์ž…์„ ํ†ตํ•œ ์‹ ๋ขฐ ์˜์—ญ ๋งคํ•‘์€ ์ฐฝ์˜์  ํ‰๊ฐ€ ๋ฐฉ์‹์ด๋‹ค. ๋‹ค๋งŒ ์ธ๊ฐ„ ์„ ํ˜ธ๋„ ๋ฐ์ดํ„ฐ ๊ทœ๋ชจ ์ œํ•œ๊ณผ ์ผ๋ถ€ ์œค๋ฆฌ์  ์œ„ํ—˜์— ๋Œ€ํ•œ ๋ฏธํกํ•œ ํ•ด๊ฒฐ์ด ๊ฐœ์„  ๊ณผ์ œ์ด๋‚˜, ํ•™์ˆ  ์ถœํŒ ์ƒํƒœ๊ณ„์— ์ฆ‰์‹œ ์ ์šฉ ๊ฐ€๋Šฅํ•œ ์‹ค์งˆ์  ์†”๋ฃจ์…˜์„ ์ œ์‹œํ•œ ์ ์—์„œ ๋†’์€ ๊ฐ€์น˜๋ฅผ ์ง€๋‹Œ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๋‹ค๋ฅธ ์ ‘๊ทผ
๋™์  ์งˆ๋ฌธ ์ ์‘ ๋˜๋Š” ์Šค์ผ€์ผ๋Ÿฌ๋ธ” AI ๋ฆฌ๋ทฐ ์‹œ์Šคํ…œ์„ ๋‹ค๋ฃจ๋Š” ์œ ์‚ฌํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM ๊ธฐ๋ฐ˜ ์ž๋™ ๋…ผ๋ฌธ ๊ฒ€ํ†  ์‹œ์Šคํ…œ์˜ ์ธ๊ฐ„ ๊ฒ€ํ† ์ž์™€์˜ ์ •๋ ฌ๋„๋ฅผ ํ‰๊ฐ€ํ•˜๋Š” ์œ ์‚ฌํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
AI ๊ธฐ๋ฐ˜ ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ ์‹œ์Šคํ…œ์˜ ํŽธํ–ฅ ๋˜๋Š” ํ’ˆ์งˆ์„ ํ‰๊ฐ€ํ•˜๋Š” ์œ ์‚ฌํ•œ ๋ชฉํ‘œ์˜ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์‹œ๊ฐ-ํ…์ŠคํŠธ ํ†ตํ•ฉ ๋ถ„์„์„ ํฌํ•จํ•œ ์ž๋™ ๋…ผ๋ฌธ ํ‰๊ฐ€ ์‹œ์Šคํ…œ์„ ๋‹ค๋ฃจ๋Š” ๊ด€๋ จ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
843์€ LLM ๊ธฐ๋ฐ˜ ๊ณผํ•™ ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ์— ์งˆ๋ฌธ ํŠธ๋ฆฌ ๊ตฌ์กฐ๋ฅผ ๋„์ž…ํ•˜์—ฌ, 083์˜ ๋™์  ์ ์‘ ๊ธฐ๋ฐ˜ ๋ฆฌ๋ทฐ ์ƒ์„ฑ๊ณผ ์ฐจ๋ณ„์„ฑ์„ ๋ณด์ž…๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
ReviewAgents ๋…ผ๋ฌธ์€ AI ๊ธฐ๋ฐ˜ ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ์™€ ์ธ๊ฐ„ ๊ฐ„์˜ ์ •๋ ฌ/๊ฒฉ์ฐจ๋ฅผ ๋ถ„์„ํ•˜๋ฉฐ, ๋Œ€๊ทœ๋ชจ ์ž๋™ ๋ฆฌ๋ทฐ ์‹œ์Šคํ…œ์˜ ํ‰๊ฐ€ ๊ด€์ ์„ ๋‹ค๋ฅด๊ฒŒ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM์„ ํ™œ์šฉํ•œ ๋™๋ฃŒํ‰๊ฐ€ ์ž๋™ํ™” ์‹œ์Šคํ…œ ํšจ๊ณผ๋ถ„์„์œผ๋กœ, 809๋ฒˆ ๋…ผ๋ฌธ์˜ ์‚ฌ๋ก€๋ฅผ ์‹œ์Šคํ…œ์ ์œผ๋กœ ์ „๊ฐœํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
LLM์„ ํ™œ์šฉํ•œ ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ ํ‰๊ฐ€์˜ ํ™•์žฅ์„ฑ๊ณผ ํ™œ์šฉ์— ๋Œ€ํ•˜์—ฌ ๊ทœ๋ชจ ๋ฐ ์‹ค์ œ์„ฑ ์ฐจ์›์˜ ๋ถ„์„์„ ๋”ํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
AI ์ž‘์„ฑ ๋…ผ๋ฌธ์˜ ์‹ค์ œ ๋ฆฌ๋ทฐ์™€ ํ‰๊ฐ€๋ฅผ ๋‹ค๋ฃจ๋ฉฐ, ๋Œ€ํ•™์› ์ž…์‹œ ๋“ฑ ํƒ€์‘์šฉ ๋ถ„์•ผ๋กœ์˜ ํ™•์žฅ ๊ฐ€๋Šฅ์„ฑ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
262๋Š” ์ธ๊ฐ„๊ณผ ์œ ์‚ฌํ•œ ๋ฆฌ๋ทฐ ํ‰๊ฐ€ ๊ตฌ์กฐ๋ฅผ ์ ์šฉํ•˜์—ฌ 083์˜ LLM ๋ฆฌ๋ทฐ ํ’ˆ์งˆ ๋ฌธ์ œ๋ฅผ ์‹ฌํ™” ๋ถ„์„ํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Advancing AI-Scientist Understanding ๋…ผ๋ฌธ์€ LLM์ด ํŒ๋‹จํ•  ๋•Œ ์ธ๊ฐ„์˜ ์‚ฌ๊ณ ๋ฐฉ์‹๊ณผ ์œ ์‚ฌํ•˜๊ฒŒ ํ‰๊ฐ€ ๋ฐ ์„ค๋ช…ํ•˜๋Š” ๋ฐฉ์•ˆ์„ ํƒ์ƒ‰ํ•˜์—ฌ ๋…ผ๋ฌธํ‰๊ฐ€์˜ ์‹ ๋ขฐ์„ฑ ๋ฌธ์ œ ์‹ฌํ™”์— ๊ธฐ์—ฌํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
AI ์ƒ์„ฑ ๋ฆฌ๋ทฐ์˜ ํ’ˆ์งˆ์„ ๋‹ค์–‘ํ•œ ๊ด€์ ์—์„œ ํ‰๊ฐ€ํ•˜๋Š” ReviewEval ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ํ†ตํ•ด ํ’ˆ์งˆ ์ •๋ ฌ๊ณผ ํŽธํ–ฅ ๊ฐ์†Œ ๊ด€๋ จ ๋…ผ์˜๋ฅผ ์‹ฌํ™”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
083๋ฒˆ ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜ ํ™•์žฅํ˜• ๋ฆฌ๋ทฐ ์‹œ์Šคํ…œ์˜ ๋Œ€๊ทœ๋ชจ ํ‰๊ฐ€๋ฅผ ํ†ตํ•ด, 041๋ฒˆ์— ๋“ฑ์žฅํ•˜๋Š” ๋ฆฌ๋ทฐ ์ƒ์„ฑ ๋ฐ ํฌ๋ฆฌํ‹ฑ ๋Šฅ๋ ฅ ํ‰๊ฐ€ ํ•ญ๋ชฉ๊ณผ ์‹คํ—˜์ ์œผ๋กœ ์—ฐ๊ฒฐํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
083์€ LLM ๊ธฐ๋ฐ˜ ๋ฆฌ๋ทฐ ์‹œ์Šคํ…œ์˜ ๋Œ€๊ทœ๋ชจ, ์‹ค์ œ ํ‰๊ฐ€๋ฅผ ๋‹ค๋ฃจ์–ด REMOR์™€ ๊ด€๋ จ๋œ ์‹ค์ œ ์ ์šฉ ๋งฅ๋ฝ์„ ๋ณด์—ฌ์ค€๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •