OpenReviewer: A specialized large language model for generating critical scientific paper reviews

์ €์ž: Maximilian Idahl, Zahra Ahmadi | ๋‚ ์งœ: 2024 | DOI: N/A 📄 PDF


Essence

Figure 1

OpenReviewer ๋ฐ๋ชจ ์ธํ„ฐํŽ˜์ด์Šค: PDF ์—…๋กœ๋“œ, ๋งˆํฌ๋‹ค์šด ๋ณ€ํ™˜, ๋ฆฌ๋ทฐ ํ…œํ”Œ๋ฆฟ ํŽธ์ง‘, ๋ฆฌ๋ทฐ ์ƒ์„ฑ ๊ธฐ๋Šฅ

79,000๊ฐœ์˜ ์ „๋ฌธ๊ฐ€ ๋ฆฌ๋ทฐ๋กœ ํŒŒ์ธํŠ ๋œ 8B ํŒŒ๋ผ๋ฏธํ„ฐ ์–ธ์–ด๋ชจ๋ธ(Llama-OpenReviewer-8B)์„ ํ†ตํ•ด ๊ธฐ๊ณ„ํ•™์Šต ๋ฐ AI ํ•™์ˆ ์ง€ ๋…ผ๋ฌธ์— ๋Œ€ํ•œ ๊ณ ํ’ˆ์งˆ ๋™๋ฃŒ์‹ฌ์‚ฌ ์˜๊ฒฌ์„ ์ƒ์„ฑํ•˜๋Š” ์˜คํ”ˆ์†Œ์Šค ์‹œ์Šคํ…œ์ด๋‹ค. GPT-4o, Claude-3.5 ๊ฐ™์€ ๋ฒ”์šฉ LLM๊ณผ ๋‹ฌ๋ฆฌ ๋น„ํŒ์ ์ด๊ณ  ํ˜„์‹ค์ ์ธ ๋ฆฌ๋ทฐ๋ฅผ ์ƒ์„ฑํ•˜์—ฌ ์ธ๊ฐ„ ๊ฒ€ํ† ์ž์˜ ํ‰๊ฐ€ ๋ถ„ํฌ์™€ ์œ ์‚ฌํ•œ ๊ฒฐ๊ณผ๋ฅผ ์ œ์‹œํ•œ๋‹ค.

Motivation

Achievement

Figure 2

GPT-4o๋ฅผ ์ด์šฉํ•œ ์„ ํ˜ธ๋„ ํ‰๊ฐ€ ๊ฒฐ๊ณผ

  1. ๊ถŒ์žฅ์‚ฌํ•ญ ์ผ์น˜๋„ ํ–ฅ์ƒ: OpenReviewer๋Š” 400๊ฐœ ํ…Œ์ŠคํŠธ ๋…ผ๋ฌธ์— ๋Œ€ํ•ด ์ธ๊ฐ„ ์‹ฌ์‚ฌ์ž ๊ถŒ์žฅ์‚ฌํ•ญ๊ณผ 55.5% ์ •ํ™•๋„๋กœ ์ผ์น˜(exact match)ํ•˜๋ฉฐ, ํ‰๊ท  ์˜ค์ฐจ 0.96์„ ๊ธฐ๋ก. ์ด๋Š” GPT-4o์˜ 23.8% ์ผ์น˜๋„, 2.34 ์˜ค์ฐจ๋ณด๋‹ค ํ˜„์ €ํžˆ ์šฐ์ˆ˜(Table 1 ์ฐธ์กฐ).
  2. ๋น„ํŒ์  ํ‰๊ฐ€์˜ ํ˜„์‹ค์„ฑ: ๋ฒ”์šฉ LLM๋“ค์ด ๊ณผ๋„ํ•˜๊ฒŒ ๊ธ์ •์ ์ธ ํ‰๊ฐ€(ํ‰๊ท  6.5~7.2/10)๋ฅผ ์ œ์‹œํ•˜๋Š” ๋ฐ˜๋ฉด, OpenReviewer๋Š” ์ธ๊ฐ„ ์‹ฌ์‚ฌ์ž์™€ ๋™์ผํ•œ ๋ถ„ํฌ(ํ‰๊ท  5.4/10)์˜ ๋น„ํŒ์  ๋ฆฌ๋ทฐ ์ƒ์„ฑ. ์ด๋Š” ์›๊ณ ์˜ ์‹ค์ œ ์•ฝ์ ์„ ์ €์ž์—๊ฒŒ ์ œ์‹œํ•˜๋Š” ๋ฐ ํ•„์ˆ˜์ .
  3. ๊ตฌ์กฐํ™”๋œ ๋ฆฌ๋ทฐ ์ƒ์„ฑ: ํ•™์ˆ ๋Œ€ํšŒ๋ณ„ ํ…œํ”Œ๋ฆฟ ์ค€์ˆ˜, ์ˆ˜์‹๊ณผ ํ‘œ๋ฅผ ํฌํ•จํ•œ ๊ธฐ์ˆ  ์ฝ˜ํ…์ธ  ์ •ํ™• ์ถ”์ถœ, ๋งˆํฌ๋‹ค์šด ํ˜•์‹ ๋ฆฌ๋ทฐ ์ž๋™ ์ƒ์„ฑ.

How

Figure 3

OpenReviewer์˜ ์‹œ์Šคํ…œ ํ”„๋กฌํ”„ํŠธ

Originality

Limitation & Further Study

Evaluation

์ดํ‰: OpenReviewer๋Š” ์ „๋ฌธ๊ฐ€ ๋ฐ์ดํ„ฐ์…‹ ๊ธฐ๋ฐ˜ ํŒŒ์ธํŠ ๊ณผ ๊ตฌ์กฐํ™”๋œ ํ”„๋กฌํ”„ํŠธ ์„ค๊ณ„๋กœ ๋ฒ”์šฉ LLM์˜ ๊ณผ๋„ํ•œ ๋‚™๊ด€์  ํŽธํ–ฅ์„ ๊ทน๋ณตํ•˜๊ณ  ํ˜„์‹ค์ ์ธ ํ•™์ˆ  ๋ฆฌ๋ทฐ๋ฅผ ์ƒ์„ฑํ•˜๋Š” ์‹ค์šฉ์  ์‹œ์Šคํ…œ์ด๋‹ค. ํˆฌ๊ณ  ์ „ ์ €์ž ํ”ผ๋“œ๋ฐฑ ๋„๊ตฌ๋กœ์„œ์˜ ๊ฐ€์น˜๋Š” ๋†’์ง€๋งŒ, ํ‰๊ฐ€ ๋ฐฉ๋ฒ•๋ก ์˜ ํ•œ๊ณ„์™€ ๋‹ค์–‘ํ•œ ํ•™๋ฌธ ๋ถ„์•ผ๋กœ์˜ ํ™•์žฅ์„ฑ ๊ฒ€์ฆ์ด ํ•„์š”ํ•˜๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
128๋ฒˆ ๋…ผ๋ฌธ์€ LLM์˜ ๋ฆฌ๋ทฐ ์ž‘์„ฑ ๋Šฅ๋ ฅ ์ž๋™ ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ๋กœ, OpenReviewer ์‹œ์Šคํ…œ ํ‰๊ฐ€ ๋ฐ ๊ฐœ๋ฐœ์— ๊ด€๋ จ ์ด๋ก ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๊ณผํ•™ ๋ฌธํ—Œ ์ดํ•ด ๋ฐ ์ฒ˜๋ฆฌ๋ฅผ ์œ„ํ•œ ์–ธ์–ด๋ชจ๋ธ์„ ๋‹ค๋ฃจ๋Š” ๊ด€๋ จ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
AI/LLM์„ ํ”ผ์–ด๋ฆฌ๋ทฐ ๋ณด์กฐ ๋„๊ตฌ๋กœ ํ™œ์šฉํ•˜๋Š” ๋‹ค๋ฅธ ์ ‘๊ทผ๋ฒ•์„ ์ œ์‹œํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
678๋ฒˆ ๋…ผ๋ฌธ์€ ๋‹ค์–‘ํ•œ ์–ธ์–ด ๋ชจ๋ธ์˜ ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ ํ’ˆ์งˆ์„ ๋น„๊ตยทํƒ๊ตฌํ•ด, OpenReviewer์˜ ํ‰๊ฐ€ ๊ด€์ ๊ณผ ๋ณด์™„์ ์œผ๋กœ ์ฝ์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM์˜ ๊ณผํ•™์  ํ…์ŠคํŠธ ํ‰๊ฐ€ ๋Šฅ๋ ฅ์„ ๋ถ„์„ํ•˜๋Š” ๊ด€๋ จ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Peerarg ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜์˜ ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ ์ƒ์„ฑ์„ ๋‹ค๋ฃจ๋ฉด์„œ ๋…ผ์ฆ์  ๊ตฌ์กฐ์— ์ดˆ์ ์„ ๋‘์–ด, OpenReviewer์˜ ๋น„ํŒ์  ๋ฆฌ๋ทฐ ์ƒ์„ฑ ์ ‘๊ทผ๊ณผ ๋น„๊ต ๊ฐ€๋Šฅํ•˜๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
OpenReviewer ๋…ผ๋ฌธ์€ ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ ์ž๋™ํ™”์— ํŠนํ™”๋œ LLM ์„ค๊ณ„ ๋ฐ ํ‰๊ฐ€๋ฅผ ๋‹ค๋ฃจ์–ด, CycleResearcher๊ฐ€ ์ œ์‹œํ•œ ํ†ตํ•ฉ ์‚ฌ์ดํด ํ”„๋ ˆ์ž„์›Œํฌ์™€ ์ฐจ๋ณ„๋˜๋Š” ๊ตฌ์กฐ๋ฅผ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
ํŠนํ™” LLM(AI Reviewer)์˜ ํ”ผ์–ด๋ฆฌ๋ทฐ ๋ฐ ๋ฉ”ํƒ€๋ฆฌ๋ทฐ ์ƒ์„ฑ ๋ฐฉ๋ฒ•๋ก ์„ ๋น„๊ตํ•˜์—ฌ ๊ฐ ์ ‘๊ทผ๋ฒ•์˜ ํ•œ๊ณ„์™€ ์žฅ์ ์„ ํ•จ๊ป˜ ์‚ดํŽด๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
592๋ฒˆ ๋…ผ๋ฌธ์€ ๋…ผ๋ฌธ ๋™๋ฃŒ์‹ฌ์‚ฌ์— ํŠนํ™”๋œ LLM์„, 571๋ฒˆ์€ ์ž๋™ ์“ฐ๊ธฐยท๋ฌธ๋ฒ• ํ‰๊ฐ€ ํ†ตํ•ฉ ์‹œ์Šคํ…œ์„ ์ œ์•ˆํ•˜์—ฌ AI๊ฐ€ ํ‰๊ฐ€ ํ”ผ๋“œ๋ฐฑ์„ ์ œ๊ณตํ•˜๋Š” ๋Œ€์•ˆ์  ์‚ฌ๋ก€์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
537๋ฒˆ ๋…ผ๋ฌธ์ด LLM ๊ธฐ๋ฐ˜ ์ž๋™ ๋ฆฌ๋ทฐ์˜ blind spot์— ์ดˆ์ ์„ ๋งž์ถ˜ ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ ์—ฐ๊ตฌ๋ผ๋ฉด, 592๋ฒˆ์€ ์‹ค์ œ LLM Reviewer ๋ชจ๋ธ์„ ์˜คํ”ˆ์†Œ์Šค๋กœ ๊ตฌํ˜„ยทํ‰๊ฐ€ํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋™์ผํ•˜๊ฒŒ LLM ๊ธฐ๋ฐ˜ ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ ์ž๋™ ์ƒ์„ฑ์„ ๋‹ค๋ฃจ์ง€๋งŒ, ๋‹ค๋ชฉ์  ๊ฐ•ํ™”ํ•™์Šต(MORL)๊ณผ ์ถ”๋ก  ๋Šฅ๋ ฅ ๊ฐ•ํ™”๋กœ ์ฐจ๋ณ„ํ™”๋œ ๋ฐฉ์‹์˜ ์‹ฌ์‚ฌ ์˜๊ฒฌ ์ž๋™ํ™” ์‹œ์Šคํ…œ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM์˜ ์—ฐ๊ตฌ ๋ณด์กฐ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ๋‹ค๋ฅธ ๋ฒค์น˜๋งˆํฌ๋‚˜ ๋ฐฉ๋ฒ•๋ก ์„ ์ œ์‹œํ•˜๋Š” ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
592 ์—ญ์‹œ ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ ๋ฐ ์ž‘์„ฑ์„ ์œ„ํ•œ LLM ํŠนํ™” ์‹œ์Šคํ…œ ๊ฐœ๋ฐœ๋กœ, 702์˜ ์ธ์šฉ ๊ฒ€์ƒ‰๊ณผ ํ†ตํ•ฉ๋œ ๋…ผ๋ฌธ ์ž‘์„ฑ ํ”„๋ ˆ์ž„์›Œํฌ์™€ ์œ ์‚ฌํ•œ ๋ฌธ์ œ๋ฅผ ๋‹ค๋ฃฌ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
AI์˜ ํ•™์ˆ  ํ”ผ์–ด ๋ฆฌ๋ทฐ ์นจํˆฌ์™€ ๊ทธ ์œค๋ฆฌ์ ยท์‚ฌํšŒ์  ์˜ํ–ฅ์„ ๋‹ค๋ฃจ๋Š” ์œ ์‚ฌํ•œ ์ฃผ์ œ์˜ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ž๋™ํ™”๋œ ๋…ผ๋ฌธ ํ’ˆ์งˆ ๊ฒ€์‚ฌ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•˜๋Š” ์œ ์‚ฌํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM ๊ธฐ๋ฐ˜ ๋ถ„๋ฅ˜๋ฅผ ์—ฐ๊ตฌ ๋ฌธํ—Œ ๋ถ„์„์— ํ™œ์šฉํ•˜๋Š” ๋ฐฉ๋ฒ•๋ก ์ ์œผ๋กœ ๊ด€๋ จ๋œ ์—ฐ๊ตฌ์ด๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
ReviewEval์€ AI ์ƒ์„ฑ ๋ฆฌ๋ทฐ์˜ ํ’ˆ์งˆ ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ๋กœ, ์ƒ์„ฑ ๋ชจ๋ธ(์˜ˆ: OpenReviewer)์ด ์ƒ์„ฑํ•œ ์‹ฌ์‚ฌํ‰์˜ ์‹ค์ œ ํ™œ์šฉ ๊ฐ€๋Šฅ์„ฑ์„ ์ •๋Ÿ‰์ ์œผ๋กœ ๋ถ„์„ํ•˜๋Š” ๋ฐ ๋„์›€์„ ์ค๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
629๋ฒˆ์€ ํ”ผ์–ด๋ฆฌ๋ทฐ ์ž๋™ ํ‰๊ฐ€(based on peer review)๋ฅผ ๋‹ค๋ฃจ์–ด, 592๋ฒˆ์ด ์ƒ์„ฑํ•œ AI ์‹ฌ์‚ฌํ‰์˜ ํ’ˆ์งˆ๊ณผ ํšจ๊ณผ ์ธก์ • ๋ฐฉ๋ฒ•์— ์‹ค์งˆ์  ํ”ผ๋“œ๋ฐฑ์„ ์ œ๊ณตํ•œ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
592๋ฒˆ ๋…ผ๋ฌธ์€ Peer review ๋ถ„์•ผ์—์„œ specialized LLM(์˜ˆ: GPT-4o ๋“ฑ๊ณผ ๋น„๊ต)์„ ํ™œ์šฉํ•ด, 585๋ฒˆ์ด ๊ฐ•์กฐํ•œ ์•ˆ์ „์„ฑยท๊ฐ•๊ฑด์„ฑ ๋ฌธ์ œ์— ๋Œ€ํ•œ ์‹ค์ œ ์ ์šฉ ์‚ฌ๋ก€๋ฅผ ์ œ๊ณตํ•œ๋‹ค.
๋ฐ˜๋ก /๋น„ํŒ
When AI Co-Scientists Fail ๋…ผ๋ฌธ์€ ์ž๋™ํ™” ๋ฆฌ๋ทฐยทํ‰๊ฐ€์˜ ์ทจ์•ฝ์ ๊ณผ ์‹คํŒจ ์‚ฌ๋ก€๋ฅผ ๋‹ด์•„, OpenReviewer ์‹œ์Šคํ…œ์˜ ํ•œ๊ณ„์™€ ๊ฐœ์„  ๋ฐฉํ–ฅ์„ ์ƒ๊ฐํ•ด ๋ณผ ์ˆ˜ ์žˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •