Remor: Automated peer review generation with llm reasoning and multi-objective reinforcement learning

์ €์ž: Pawin Taechoyotin, Daniel Acuna | ๋‚ ์งœ: 2025 | DOI: N/A 📄 PDF


Essence

Figure 1

REMOR์˜ ์ž‘๋™ ๋ฐฉ์‹: (A) ๋‹ค์ค‘ ์ฐจ์› ๋ณด์ƒ ํ•จ์ˆ˜(HPRR)๋ฅผ ํ†ตํ•œ AI ๋ฆฌ๋ทฐ ์ƒ์„ฑ ์‹œ์Šคํ…œ, (B) PeerRT ๋ฐ์ดํ„ฐ์…‹์„ ์ด์šฉํ•œ ๊ฐ๋… ๋ฏธ์„ธ์กฐ์ •(SFT) ๋ฐ GRPO ํ•™์Šต ํ”„๋กœ์„ธ์Šค

๋ณธ ๋…ผ๋ฌธ์€ ์ถ”๋ก (reasoning) ๊ธฐ๋Šฅ์„ ๊ฐ–์ถ˜ ๋Œ€ํ˜•์–ธ์–ด๋ชจ๋ธ(LLM)๊ณผ ๋‹ค๋ชฉ์  ๊ฐ•ํ™”ํ•™์Šต(MORL)์„ ๊ฒฐํ•ฉํ•˜์—ฌ ์ธ๊ฐ„ ์ˆ˜์ค€ ์ด์ƒ์˜ ๊นŠ์ด ์žˆ๊ณ  ๊ท ํ˜•์žกํžŒ ํ•™์ˆ  ๋…ผ๋ฌธ ์‹ฌ์‚ฌํ‰์„ ์ž๋™ ์ƒ์„ฑํ•˜๋Š” REMOR ์‹œ์Šคํ…œ์„ ์ œ์•ˆํ•œ๋‹ค. ๊ธฐ์กด AI ์‹ฌ์‚ฌํ‰์˜ ์–•์€ ๋ถ„์„๊ณผ ๊ณผ๋„ํ•œ ์นญ์ฐฌ ๋ฌธ์ œ๋ฅผ ๋‹ค๋ชฉ์  ๋ณด์ƒํ•จ์ˆ˜์™€ ์ถ”๋ก  ๋Šฅ๋ ฅ์œผ๋กœ ๊ทน๋ณตํ•œ๋‹ค.

Motivation

Achievement

Figure 2

๊ฐ ๋ชจ๋ธ๋ณ„ ํ‰๊ท  ๋ณด์ƒ ์ ์ˆ˜ ๋น„๊ต: REMOR-U์™€ REMOR-H๊ฐ€ ์ธ๊ฐ„ ๋ฆฌ๋ทฐ ๋ฐ ๊ธฐ์กด AI ์‹œ์Šคํ…œ ๋Œ€๋น„ 2๋ฐฐ ์ด์ƒ์˜ ๋ณด์ƒ ๋‹ฌ์„ฑ

  1. ์„ฑ๋Šฅ ์šฐ์ˆ˜์„ฑ: REMOR-U์™€ REMOR-H๊ฐ€ ์ธ๊ฐ„ ๋ฆฌ๋ทฐ, ๋น„์ถ”๋ก  ๋‹ค์ค‘ ์—์ด์ „ํŠธ ์‹œ์Šคํ…œ, ์ƒ์šฉ LLM ๋ฒ ์ด์Šค๋ผ์ธ ๋Œ€๋น„ ํ‰๊ท  ๋ณด์ƒ์—์„œ 2๋ฐฐ ์ด์ƒ ๋‹ฌ์„ฑ. ์ตœ๊ณ  ํ’ˆ์งˆ AI ๋ฆฌ๋ทฐ์™€ ์ธ๊ฐ„ ๋ฆฌ๋ทฐ๊ฐ€ ๋น„๊ต ๊ฐ€๋Šฅํ•œ ์ˆ˜์ค€์ด๋‚˜, REMOR์€ ์ €ํ’ˆ์งˆ ์ธ๊ฐ„ ๋ฆฌ๋ทฐ์˜ ๊ธด ๊ผฌ๋ฆฌ ๋ถ„ํฌ ํšŒํ”ผ.
  2. ๋‹ค์ฐจ์› ํ‰๊ฐ€ ๋ฉ”์ปค๋‹ˆ์ฆ˜: HPRR ํ•จ์ˆ˜๊ฐ€ ๋น„ํŒ(criticism), ์˜ˆ์‹œ(example), ์ค‘์š”๋„(importance), ์ œ์•ˆ(suggestion) ๋“ฑ 8๊ฐœ ์ฐจ์›์„ ์ข…ํ•ฉ์ ์œผ๋กœ ํ‰๊ฐ€ํ•˜์—ฌ ๋‹จ์ˆœ ์ •๋Ÿ‰ ์ง€ํ‘œ ์ด์ƒ์˜ ํ†ตํ•ฉ์  ํ’ˆ์งˆ ์ธก์ • ๊ฐ€๋Šฅ.
  3. ์ถ”๋ก ์˜ ์ค‘์š”์„ฑ ์ž…์ฆ: ์ถ”๋ก  ๊ธฐ๋Šฅ์ด ์‹ฌ์‚ฌํ‰ ๊นŠ์ด ํ–ฅ์ƒ์˜ ํ•ต์‹ฌ ์š”์†Œ์ž„์„ ์‹ค์ฆ์ ์œผ๋กœ ์ž…์ฆ. REMOR-U(๊ท ์ผ ๊ฐ€์ค‘์น˜)๊ฐ€ ์ธ๊ฐ„์ •๋ ฌ ๊ฐ€์ค‘์น˜ REMOR-H๋ณด๋‹ค ์ •์„ฑ์ ์œผ๋กœ ๋” ์‹ค์งˆ์ ์ธ ํ”ผ๋“œ๋ฐฑ ์ƒ์„ฑ.
  4. ๊ณต๊ฐœ ์ž์‚ฐ: PeerRT ๋ฐ์ดํ„ฐ์…‹, HPRR ํ•จ์ˆ˜, REMOR ๋ชจ๋ธ ๊ณต๊ฐœ๋กœ ํ–ฅํ›„ ์—ฐ๊ตฌ ํ™œ์„ฑํ™” ๊ธฐ๋ฐ˜ ์ œ๊ณต.

How

Figure 3

๊ฐ ๋ฉ”ํŠธ๋ฆญ๋ณ„ ํ‰๊ท  ๋ณด์ƒ: REMOR์ด ๋น„ํŒ(criticism), ์˜ˆ์‹œ(example), ์ค‘์š”๋„(importance) ๋“ฑ์—์„œ ํ˜„์ €ํžˆ ๋†’์€ ์ ์ˆ˜ ๋‹ฌ์„ฑ

๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ•:

๋ชจ๋ธ ํ•™์Šต:

๋‹ค๋ชฉ์  ๊ฐ•ํ™”ํ•™์Šต(MORL):

Originality

Limitation & Further Study

ํ•œ๊ณ„์ :

ํ›„์† ์—ฐ๊ตฌ ๋ฐฉํ–ฅ:

Evaluation

Novelty: 4.5/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 3.5/5 Overall: 4/5

์ดํ‰: REMOR์€ ์ถ”๋ก ๊ณผ ๊ฐ•ํ™”ํ•™์Šต์„ ์‹ฌ์‚ฌํ‰ ์ƒ์„ฑ์— ์ฐฝ์˜์ ์œผ๋กœ ๊ฒฐํ•ฉํ•˜์—ฌ ์ธ๊ฐ„ ์ˆ˜์ค€ ์ด์ƒ์˜ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•œ ์˜๋ฏธ ์žˆ๋Š” ๊ธฐ์—ฌ์ด๋‹ค. ํŠนํžˆ ๋‹ค์ฐจ์› ๋ณด์ƒํ•จ์ˆ˜์™€ PeerRT ๋ฐ์ดํ„ฐ์…‹์˜ ๊ณต๊ฐœ๋Š” ํ•™๊ณ„์— ์‹ค์งˆ์  ์ž์‚ฐ์ด ๋  ๊ฒƒ์ด๋‹ค. ๋‹ค๋งŒ ์ธ๊ฐ„ ํ‰๊ฐ€์˜ ๊ทœ๋ชจ, ๋ณด์ƒํ•จ์ˆ˜ ์„ค๊ณ„์˜ ์ •๋‹น์„ฑ, ํƒ€๋ถ„์•ผ ์ผ๋ฐ˜ํ™” ๊ฐ€๋Šฅ์„ฑ์— ๋Œ€ํ•œ ๋” ๊นŠ์€ ๊ฒ€์ฆ์ด ๋…ผ๋ฌธ์˜ ์˜ํ–ฅ๋ ฅ์„ ๊ฐ•ํ™”ํ•  ๊ฒƒ์ด๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
ClinicalGPT๋Š” ์˜ํ•™ ๋…ผ๋ฌธ ๊ฒ€ํ† ๋ฅผ LLM์œผ๋กœ ์ž๋™ํ™”ํ•œ ์‚ฌ๋ก€๋กœ, REMOR๊ฐ€ ๋‹ค๋ชฉ์  ๊ฐ•ํ™”ํ•™์Šต(MORL) ๊ธฐ๋ฒ•์„ ํ™•์žฅํ•ด ๋‹ค์–‘ํ•œ ๋ถ„์•ผ์— ์ ์šฉํ•  ๊ฐ€๋Šฅ์„ฑ๋„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
677๋ฒˆ์€ LLM ๊ธฐ๋ฐ˜ ๋ฆฌ๋ทฐ ์ƒ์„ฑ ํ”„๋กฌํ”„ํŠธ ์ตœ์ ํ™” ์ „๋žต์„ ์†Œ๊ฐœํ•˜์—ฌ, 665๋ฒˆ์˜ ๊ฐ•ํ™”ํ•™์Šต-์ถ”๋ก  ๊ฒฐํ•ฉ ์‹œ์Šคํ…œ์˜ ์„ค๊ณ„ ์›๋ฆฌ์—๋„ ์˜๋ฏธ ์žˆ๋Š” ์‹œ์‚ฌ์ ์„ ์ค€๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
665๋ฒˆ ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜ ์ž๋™ ๋ฆฌ๋ทฐ ๋ฐ ์‹ ๋ขฐ์„ฑ ํ‰๊ฐ€์ง€ํ‘œ ๊ฐœ๋ฐœ์„ ๋‹ค๋ฃจ๋ฉฐ, 3283๋ฒˆ์˜ ์„ ํƒ์  ์˜ˆ์ธก ํ”„๋ ˆ์ž„์›Œํฌ์˜ ํƒ€๋‹น์„ฑ ํ‰๊ฐ€ ๋ฐ ์‹ ๋ขฐ์„ฑ ๋…ผ์˜์— ๊ธฐ์ดˆ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
778์˜ ๋ฉ”ํƒ€๋ฆฌ๋ทฐ ์ž๋™ํ™”์™€ ๋‹ฌ๋ฆฌ 665๋Š” ์ธ์  ์‹ฌ์‚ฌ์™€ LLM ํ˜‘์—… ๊ธฐ๋ฐ˜ ๋™๋ฃŒํ‰๊ฐ€ ์ž๋™ํ™” ํ”„๋กœ์„ธ์Šค๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋‘ ๋…ผ๋ฌธ ๋ชจ๋‘ ์—ฐ๊ตฌ ์•„์ด๋””์–ด ๋˜๋Š” ํ•™์ˆ ์  ์‚ฐ์ถœ๋ฌผ ์ƒ์„ฑ์„ ๋ชฉํ‘œ๋กœ ํ•˜์ง€๋งŒ, 484๋Š” ์•„์ด๋””์–ด ์ž๋™์ƒ์„ฑ์— ์ดˆ์ ์„ ๋‘๊ณ  665๋Š” ์ž๋™ ๋…ผ๋ฌธ ์‹ฌ์‚ฌ์— ์ง‘์ค‘ํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
OpenReviewer ๋˜ํ•œ LLM ๊ธฐ๋ฐ˜ ๋ฆฌ๋ทฐ ์ž๋™ํ™” ์‹œ์Šคํ…œ์ด์ง€๋งŒ, ๋ณด์ƒํ•จ์ˆ˜/์ถ”๋ก  ์ฆ์ง„ ๋Œ€์‹  ์ „๋ฌธ๊ฐ€ ๋ฆฌ๋ทฐ ๋ฐ์ดํ„ฐ ํŒŒ์ธํŠœ๋‹ ์ ‘๊ทผ๋ฒ•์„ ํƒํ•ด ์ฐจ๋ณ„์„ฑ์ด ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋‹ค์ธต ๋ถ„์„๊ณผ LLM ๊ธฐ๋ฐ˜ ํ”„๋กฌํ”„ํŒ…์œผ๋กœ ๊ณผํ•™ ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ ์ƒ์„ฑ ๋ฐ ๊ฐ์ • ํ†ตํ•ฉ ๋ฌธ์ œ๋ฅผ ๋‹ค๋ฃจ๋ฏ€๋กœ ๋ฉ”ํƒ€๋ฆฌ๋ทฐ ์ƒ์„ฑ ๋ฐฉ๋ฒ•๋ก ๊ณผ ๋น„๊ต ๋ถ„์„ํ•  ์ˆ˜ ์žˆ์Œ.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM๊ธฐ๋ฐ˜ ์ž๋™ ํ”ผ์–ด๋ฆฌ๋ทฐ ์ƒ์„ฑ์—์„œ ์‹œ์—ฐ(๋ฐ๋ชจ) ์„ ํƒ ๋‹ค์–‘์„ฑ๊ณผ AI reasoning์„ ๊ฒฐํ•ฉํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์ œ์‹œํ•ด, 421์˜ human-free ์‹œ์—ฐ ๋‹ค์–‘์„ฑ ํ–ฅ์ƒ ์ „๋žต๊ณผ ๋Œ€์กฐ๋ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
665 ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜ ์ž๋™ ํ”ผ์–ด๋ฆฌ๋ทฐ ์ƒ์„ฑ๊ณผ ๊ทธ ์ฒด๊ณ„ํ™” ๋ฐฉ์‹์„ ์ œ์‹œํ•˜์—ฌ, 519(MARG)์˜ ๋‹ค์ค‘ ์—์ด์ „ํŠธ ๋ฆฌ๋ทฐ ์ƒ์„ฑ ๋ฐฉ๋ฒ•๊ณผ ๋Œ€์กฐ๋œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
665๋ฒˆ ๋…ผ๋ฌธ์€ LLM์œผ๋กœ ์ž๋™ ๋ฆฌ๋ทฐ ์ƒ์„ฑ ์‹œ ๋…ผ๋ฆฌ์  reasoning๊ณผ alignment๋ฅผ ์ด์šฉํ•˜์—ฌ, 677๋ฒˆ์˜ aspect-based ํ”„๋กฌํ”„ํŠธ ๋ฐฉ์‹๊ณผ ์ƒํ˜ธ ๋ณด์™„์ ์ž…๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
676๋ฒˆ์€ ๋‹ค๋‹จ๊ณ„ ๋…ผ๋ฌธ ์‹ฌ์‚ฌ๋ฅผ LLM ๋‹ค์ค‘ ์—์ด์ „ํŠธ๋กœ ๋ชจ๋ฐฉํ•˜์—ฌ, 665๋ฒˆ์˜ ๋‹ค๋ชฉ์  ๊ฐ•ํ™”ํ•™์Šต ๊ธฐ๋ฐ˜ ์‹ฌ์‚ฌ ์‹œ์Šคํ…œ๊ณผ ์ ‘๊ทผ๋ฒ•์„ ๋น„๊ตํ•  ์ˆ˜ ์žˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
โ€˜Mind the blind spotsโ€™๋Š” LLM๊ฐ€ ๋…ผ๋ฌธ ์ฃผ์š” ์ธก๋ฉด์— โ€˜์ง‘์ค‘โ€™ํ•˜๋Š”๊ฐ€๋ฅผ ํ‰๊ฐ€ํ•˜๋ฉฐ, REMOR๋Š” ์ƒ์„ฑ ๋ฆฌ๋ทฐ์˜ ๊ฐ๊ด€์„ฑยท์‹ฌ์ธต์„ฑ ๊ฐ•ํ™”๋ฅผ ์ถ”๊ตฌํ•ด ์ ‘๊ทผ๋ฒ•์ด ๋Œ€๋น„๋œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
665 ๋…ผ๋ฌธ์€ LLM์ด ๋…ผ๋ฌธ ํ‰๊ฐ€์—์„œ chain-of-thought์™€ ๋น„ํŒ์  reasoning์„ ํ™œ์šฉํ•˜๋Š” ์ ‘๊ทผ์„ ๋‹ค๋ฃจ์–ด, 243์—์„œ ๋น„ํŒ์  ํ”ผ๋“œ๋ฐฑ์„ RL์— ์ ‘๋ชฉ์‹œํ‚จ ๊ฒƒ๊ณผ ์—ฐ๊ฒฐ๋œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
350์˜ ํ”„๋ ˆ์ž„(ํ”ผ๋“œ๋ฐฑ ๊ธฐ๋ฐ˜ ๋ฉ”๋””์ปฌ ๋…ผ๋ฌธ ์ž๋™์ƒ์„ฑ)๊ณผ 665์˜ ๋™๋ฃŒํ‰๊ฐ€ ์ƒ์„ฑ ๊ฐ๊ฐ ๋‹ค์ค‘์—์ด์ „ํŠธ ์‹œ์Šคํ…œ๊ณผ AI๋ฆฌ๋ทฐ ์ž๋™ํ™”๋ผ๋Š” ์„œ๋กœ ๋‹ค๋ฅธ ์ ‘๊ทผ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
665๋Š” LLM ๊ธฐ๋ฐ˜ ์ž๋™ ๋ฆฌ๋ทฐ ์ƒ์„ฑ์—์„œ reasoning๊ณผ hallucination ๋Œ€์‘ ๋ฐฉ์•ˆ์„ ๋‹ค๋ค„ 680๊ณผ ์—ฐ๊ฒฐ๋ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Meta-review generation with checklist-guided iterative introspection ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜ ๋ฆฌ๋ทฐ ์ž๋™ํ™”์˜ ์‹ฌ์ธต์  ์ž๊ธฐ๋ฐ˜์˜ ๋ฐ ์ฒดํฌ๋ฆฌ์ŠคํŠธ ๊ธฐ๋ฐ˜ ํ™•์žฅ ๋ฐฉ๋ฒ•๋ก ์„ ์ œ์‹œํ•˜์—ฌ 665์— ๋ณด์™„์  ์•„์ด๋””์–ด๋ฅผ ์ค๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Remor๋Š” LLM ๊ธฐ๋ฐ˜ ์ž๋™ ๋ฆฌ๋ทฐ ์ƒ์„ฑ์— human-like ํ‰๊ฐ€ ์ฒ™๋„๋ฅผ ์ ์šฉ, ์ด ๋…ผ๋ฌธ์˜ ์—”๋“œ-ํˆฌ-์—”๋“œ ์ž๋™ ๋ฆฌ๋ทฐ ์ƒ์„ฑ๊ณผ ์ง์ ‘ ๋น„๊ต ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
REMOR ์ž์ฒด์ ์œผ๋กœ ๊ธฐ์กด shallow review์˜ ํ•œ๊ณ„๋ฅผ ์ง€์ ํ•˜๋ฉฐ, ๋‹ค๋ชฉ์  ๋„๋ฉ”์ธ ํ™•์žฅ์—๋„ ์ ์šฉ ๊ฐ€๋Šฅํ•˜๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
665๋ฒˆ ๋…ผ๋ฌธ์€ ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ ์ƒ์„ฑ ๊ณผ์ •์—์„œ ์ž๊ธฐ๊ฒ€์ฆ, ๋…ผ๋ฆฌ๋ฌธ์ œ ํ•ด๊ฒฐ ๋“ฑ์— LLM์„ ์–ด๋–ป๊ฒŒ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ๋Š”์ง€ ์‹ฌ์ธต์ ์œผ๋กœ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
083์€ LLM ๊ธฐ๋ฐ˜ ๋ฆฌ๋ทฐ ์‹œ์Šคํ…œ์˜ ๋Œ€๊ทœ๋ชจ, ์‹ค์ œ ํ‰๊ฐ€๋ฅผ ๋‹ค๋ฃจ์–ด REMOR์™€ ๊ด€๋ จ๋œ ์‹ค์ œ ์ ์šฉ ๋งฅ๋ฝ์„ ๋ณด์—ฌ์ค€๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •