DeepReview: Improving LLM-based Paper Review with Human-like Deep Thinking Process

์ €์ž: Minjun Zhu, Yixuan Weng, Linyi Yang, Yue Zhang | ๋‚ ์งœ: 2025 | DOI: arXiv:2503.08569v1 📄 PDF


Essence

๋ณธ ๋…ผ๋ฌธ์€ LLM(Large Language Models)์„ ์ด์šฉํ•œ ํ•™์ˆ ์ง€ ๋…ผ๋ฌธ ์‹ฌ์‚ฌ๋ฅผ ๊ฐœ์„ ํ•˜๊ธฐ ์œ„ํ•ด, ์ธ๊ฐ„ ์ „๋ฌธ๊ฐ€์˜ ์‹ฌ์‚ฌ ๊ณผ์ •์„ ๋ชจ๋ฐฉํ•˜๋Š” ๋‹ค๋‹จ๊ณ„ ๊ตฌ์กฐํ™”๋œ ํ”„๋ ˆ์ž„์›Œํฌ DeepReview๋ฅผ ์ œ์•ˆํ•œ๋‹ค. DeepReview-13K ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ ํ›ˆ๋ จ๋œ DeepReviewer-14B ๋ชจ๋ธ์€ ๊ธฐ์กด ๋ชจ๋ธ๋“ค(CycleReviewer-70B, GPT-o1, DeepSeek-R1)์„ ๋Šฅ๊ฐ€ํ•˜๋ฉด์„œ๋„ ๋” ์ ์€ ํ† ํฐ์„ ์‚ฌ์šฉํ•œ๋‹ค.

Motivation

Achievement

Figure 1: DeepReviewer์˜ ๊ฐœ์š”. (a) ์‹ค์ œ ์—ฐ๊ตฌ๋…ผ๋ฌธ ์ž…๋ ฅ ์˜ˆ์‹œ, (b) ์‹ ๊ทœ์„ฑ ๊ฒ€์ฆ, ๋‹ค์ฐจ์› ๋ฆฌ๋ทฐ, ์‹ ๋ขฐ์„ฑ ๊ฒ€์ฆ์„ ํฌํ•จํ•œ ๋‹ค๋‹จ๊ณ„ ์ถ”๋ก  ๊ณผ์ • ์ถœ๋ ฅ, (c) Fast/Standard/Best ์„ธ ๊ฐ€์ง€ ์ถ”๋ก  ๋ชจ๋“œ
  1. ์ •๋Ÿ‰์  ์„ฑ๋Šฅ ๊ฐœ์„ :
    • Rating MSE: CycleReviewer-70B ๋Œ€๋น„ 44.80% ํ–ฅ์ƒ
    • Ranking (Spearman ์ƒ๊ด€๊ณ„์ˆ˜): 6.04% ํ–ฅ์ƒ
    • Selection (์ •ํ™•๋„): 1.80% ํ–ฅ์ƒ
    • LLM-as-a-judge ํ‰๊ฐ€์—์„œ GPT-o1 ๋ฐ DeepSeek-R1 ๋Œ€๋น„ ๊ฐ๊ฐ 88.21%, 80.20%์˜ ์Šน๋ฅ  ๋‹ฌ์„ฑ
  2. ์•ˆ์ •์„ฑ ๊ฐ•ํ™”: ๋ช…์‹œ์  ๊ฒฌ๊ณ ์„ฑ(robustness) ํ›ˆ๋ จ ์—†์ด๋„ ์ ๋Œ€์  ๊ณต๊ฒฉ(adversarial attack)์— ๋Œ€ํ•œ ๋†’์€ ์ €ํ•ญ์„ฑ ์ž…์ฆ
  3. ํšจ์œจ์„ฑ: 14B ๋ชจ๋ธ์ด 70B ๋ชจ๋ธ(CycleReviewer)์„ ๋Šฅ๊ฐ€ํ•˜๋ฉฐ, ๋” ์ ์€ ํ† ํฐ ์†Œ๋น„๋กœ ์„ฑ๋Šฅ ๊ฐœ์„ 
  4. Test-Time Scaling: ์ถ”๋ก  ๊ฒฝ๋กœ(reasoning path)์™€ ์‘๋‹ต ๊ธธ์ด ์กฐ์ •์„ ํ†ตํ•ด ์„ฑ๋Šฅ ํ–ฅ์ƒ ๊ฐ€๋Šฅ์„ฑ ์ž…์ฆ

How

Figure 1์—์„œ (c) ์„น์…˜: Fast/Standard/Best ๋ชจ๋“œ์˜ ๋‹ค์–‘ํ•œ ์ถ”๋ก  ๊ฒฝ๋กœ

๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์„ฑ (DeepReview-13K):

๋‹ค๋‹จ๊ณ„ ์‹ฌ์‚ฌ ํ”„๋ ˆ์ž„์›Œํฌ:

์ถ”๋ก  ๋ชจ๋“œ:

ํ‰๊ฐ€ ๋ฐฉ๋ฒ•๋ก :

Originality

Limitation & Further Study

Evaluation

์ดํ‰: DeepReview๋Š” LLM ๊ธฐ๋ฐ˜ ๋…ผ๋ฌธ ์‹ฌ์‚ฌ ์‹œ์Šคํ…œ์˜ ์‹ ๋ขฐ์„ฑ๊ณผ ํšจ์œจ์„ฑ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ๊ตฌ์กฐํ™”๋œ ์ ‘๊ทผ๋ฒ•์„ ์ œ์‹œํ•˜๋ฉฐ, ๋Œ€๊ทœ๋ชจ ๊ณต๊ฐœ ๋ฐ์ดํ„ฐ์…‹๊ณผ ๋ชจ๋ธ์„ ํ†ตํ•ด ํ•™์ˆ  ์ปค๋ฎค๋‹ˆํ‹ฐ์— ์ฆ‰์‹œ์  ๊ธฐ์—ฌ๋ฅผ ํ•œ๋‹ค. ๋‹ค๋งŒ ๋‹ค์–‘ํ•œ ํ•™๋ฌธ ๋ถ„์•ผ๋กœ์˜ ์ผ๋ฐ˜ํ™”, ์ธ๊ฐ„-AI ํ˜‘๋ ฅ ํšจ๊ณผ์˜ ์‹ค์ฆ์  ๊ฒ€์ฆ, ๊ธฐ์ˆ ์  ์„ธ๋ถ€ ์‚ฌํ•ญ์˜ ๋”์šฑ ์ถฉ์‹คํ•œ ์„ค๋ช…์ด ํ›„์† ๊ณผ์ œ๋กœ ๋‚จ์•„์žˆ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๊ฒ€์ƒ‰ ์ฆ๊ฐ• ์ƒ์„ฑ(RAG) ๋ฐฉ๋ฒ•๋ก ์˜ ์ด๋ก ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•˜๋Š” ์„ ํ–‰ ์—ฐ๊ตฌ์ด๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
ReviewerGPT ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜ ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ ์ž๋™ ์ƒ์„ฑ ์—ฐ๊ตฌ๋กœ, DeepReview ํ”„๋ ˆ์ž„์›Œํฌ์˜ ์‚ฌ์ „ ์—ฐ๊ตฌ๋กœ ์ฐธ์กฐํ•  ๋งŒํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
679 ๋…ผ๋ฌธ์€ AI ๊ธฐ๋ฐ˜ ๋ฆฌ๋ทฐ ์ƒ์„ฑ ํ‰๊ฐ€์ฒด๊ณ„๋ฅผ ์„ค๊ณ„ํ•˜์—ฌ, 262์—์„œ ์ œ์‹œํ•œ ๋‹จ๊ณ„๋ณ„ LLM ๋…ผ๋ฌธ ์‹ฌ์‚ฌ ํ”„๋ ˆ์ž„์›Œํฌ์˜ ํšจ๊ณผ ๊ฒ€์ฆ์— ์ฐธ๊ณ ๊ฐ€ ๋œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
LLM ๊ธฐ๋ฐ˜ ํ…์ŠคํŠธ ํ‰๊ฐ€ ๋ฐฉ๋ฒ•๋ก ์˜ ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•˜๋Š” ์—ฐ๊ตฌ์ด๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
AI ๊ธฐ๋ฐ˜ ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ์™€ ์ธ๊ฐ„/AI ํ‰๊ฐ€๋ฅผ ๋…ผํ•˜๋Š” ๋…ผ๋ฌธ์œผ๋กœ, RNA ๋“ฑ ๋ฐ”์ด์˜ค์„ค๊ณ„์—์„œ AI์˜ ํ‰๊ฐ€ ๋ฐ ํ•ด์„ ํ”„๋ ˆ์ž„์„ ์ ์šฉํ•˜๋Š” ๋ฐ ์ฐธ๊ณ ํ•  ์ˆ˜ ์žˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
LLM ๊ธฐ๋ฐ˜ ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ ์ƒ์„ฑ๊ณผ ์ธ๊ฐ„์  ํ‰๊ฐ€๋ฅผ ๋…ผํ•˜๋Š” ๋…ผ๋ฌธ์œผ๋กœ, ์ƒ๋ฌผํ•™์  ๊ตฌ์กฐ ํ•ด์„๋ฒ•์˜ AI ํ™œ์šฉ ํ‰๊ฐ€ ๊ด€์ ์— ์ ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
ํ•™์ˆ  ๋ฆฌ๋ทฐ ํ”„๋กœ์„ธ์Šค๋ฅผ ์ž๋™ํ™”ํ•˜๊ธฐ ์œ„ํ•œ LLM ๊ธฐ๋ฐ˜ ์‹œ์Šคํ…œ์„ ๋‹ค๋ฃจ๋Š” ๊ด€๋ จ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
677 ๋…ผ๋ฌธ์€ ํ”„๋กฌํ”„ํŠธ ์ตœ์ ํ™”๋ฅผ ํ†ตํ•œ ๋ฆฌ๋ทฐ ์ƒ์„ฑ ํ’ˆ์งˆ ๊ฐœ์„ ์„ ๋ถ„์„ํ•ด, 262์˜ ๊ตฌ์กฐํ™”๋œ ๋‹จ๊ณ„๋ณ„ ํ”„๋ ˆ์ž„๊ณผ ๋‹ค๋ฅธ ์ ‘๊ทผ๋ฒ•์„ ์ œ์‹œํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
AI ๊ธฐ๋ฐ˜ ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ ์ž๋™ํ™” ํ”„๋ ˆ์ž„์›Œํฌ๋กœ, DeepReview์™€ ๋‹ฌ๋ฆฌ ์ธ๊ฐ„-์—์ด์ „ํŠธ ํ˜‘๋ ฅ๋ฐฉ์‹์ด๋ผ๋Š” ๋Œ€์กฐ์  ํŠน์„ฑ์„ ๊ฐ€์ง€๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM์˜ ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ ๋Šฅ๋ ฅ ํ‰๊ฐ€์— ๊ด€ํ•œ ์œ ์‚ฌํ•œ ์ ‘๊ทผ ๋ฐฉ์‹์„ ์ œ์‹œํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
AI ์‹œ์Šคํ…œ์˜ ์—ฐ๊ตฌ ์—ญ๋Ÿ‰ ํ‰๊ฐ€๋ฅผ ์œ„ํ•œ ๋‹ค๋ฅธ ๊ธฐ์ค€์ด๋‚˜ ๋ฐฉ๋ฒ•๋ก ์„ ์ œ์‹œํ•˜๋Š” ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
DeepReview(262)๋Š” LLM์ด ์ธ๊ฐ„๊ณผ ์œ ์‚ฌํ•œ ๋ฆฌ๋ทฐ ํ”ผ๋“œ๋ฐฑ์„ ์ œ๊ณตํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ํƒ๊ตฌํ•˜์—ฌ, XtraGPT ๊ธฐ๋ฐ˜ ๋…ผ๋ฌธ ์ˆ˜์ •๊ณผ ๋น„๊ต๊ฐ€ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
262 ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜ ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ ์ƒ์„ฑ ๋ฐ ์ธ๊ฐ„ ํ‰๊ฐ€ ์ง€์นจ์„ ํ†ตํ•ด ORB ๋ฐ์ดํ„ฐ์…‹์„ ํ™œ์šฉํ•œ ์ž๋™ํ™” ํ‰๊ฐ€ ๋ฐฉ๋ฒ•๋ก ์„ ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
262๋Š” ์ธ๊ฐ„๊ณผ ์œ ์‚ฌํ•œ ๋ฆฌ๋ทฐ ํ‰๊ฐ€ ๊ตฌ์กฐ๋ฅผ ์ ์šฉํ•˜์—ฌ 083์˜ LLM ๋ฆฌ๋ทฐ ํ’ˆ์งˆ ๋ฌธ์ œ๋ฅผ ์‹ฌํ™” ๋ถ„์„ํ•ฉ๋‹ˆ๋‹ค.
๋ฐ˜๋ก /๋น„ํŒ
AI ๊ธฐ๋ฐ˜ ๋…ผ๋ฌธ ์‹ฌ์‚ฌ ๋ฐ ๋ฆฌ๋ทฐ ์ž๋™ํ™”์˜ ์‚ฌํšŒ์  ํ•จ์˜์™€ ์ž ์žฌ์  ํ•œ๊ณ„, ์‹ ๋ขฐ์„ฑ ๋…ผ์˜๋ฅผ ๋ณด์™„์ ์œผ๋กœ ๋น„๊ตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •