Reviewer2: Optimizing Review Generation Through Prompt Generation

์ €์ž: Zhaolin Gao, Kiantรฉ Brantley, Thorsten Joachims | ๋‚ ์งœ: 2024-12-02 | DOI: 10.48550/arXiv.2402.10886 📄 PDF


Essence

Figure 1

REVIEWER2์˜ ๊ตฌ์กฐ: (a) ๋‘ ๋‹จ๊ณ„ ๋ชจ๋ธ ๋ฏธ์„ธ์กฐ์ • (Mp: ๋…ผ๋ฌธโ†’์ธก๋ฉด ํ”„๋กฌํ”„ํŠธ, Mr: ๋…ผ๋ฌธ+ํ”„๋กฌํ”„ํŠธโ†’๋ฆฌ๋ทฐ) (b) ์ถ”๋ก  ๋‹จ๊ณ„์—์„œ์˜ ์ˆœ์ฐจ์  ์ƒ์„ฑ

๋ณธ ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜ ์ž๋™ํ™”๋œ ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ ์ƒ์„ฑ์˜ ๋ฌธ์ œ๋ฅผ ์ธก๋ฉด ํ”„๋กฌํ”„ํŠธ(aspect prompt)๋ฅผ ๋ช…์‹œ์ ์œผ๋กœ ๋ชจ๋ธ๋งํ•˜๋Š” ๋‘ ๋‹จ๊ณ„ ํ”„๋ ˆ์ž„์›Œํฌ๋กœ ํ•ด๊ฒฐํ•˜์—ฌ, ๋” ๊ตฌ์ฒด์ ์ด๊ณ  ๋‹ค์–‘ํ•œ ๋ฆฌ๋ทฐ๋ฅผ ์ƒ์„ฑํ•œ๋‹ค.

Motivation

Achievement

Figure 2

์ธก๋ฉด ํ”„๋กฌํ”„ํŠธ์˜ ํšจ๊ณผ: (a) ์ธ๊ฐ„ ๋ฆฌ๋ทฐ๋“ค์˜ ์ผ๋ฐ˜์ (ํŒŒ๋ž€์ƒ‰) ๋ฐ ํŠน์ •(๋นจ๊ฐ„์ƒ‰) ๋‚ด์šฉ (b) ํ”„๋กฌํ”„ํŠธ ์—†์ด๋Š” ์ผ๋ฐ˜ ๋‚ด์šฉ๋งŒ ์ƒ์„ฑ (c) ํ”„๋กฌํ”„ํŠธ๋กœ ํŠน์ • ๋‚ด์šฉ ์ƒ์„ฑ ๊ฐ€๋Šฅ

  1. ๋ฆฌ๋ทฐ ํ’ˆ์งˆ ํ–ฅ์ƒ: REVIEWER2๋Š” ๊ธฐ์กด ๋ฐฉ์‹ ๋Œ€๋น„ ์ถฉ์‹ค์„ฑ(faithfulness), ์ปค๋ฒ„๋ฆฌ์ง€, ๊ตฌ์ฒด์„ฑ ์ธก๋ฉด์—์„œ ํ˜„์ €ํžˆ ์šฐ์ˆ˜ํ•œ ๋ฆฌ๋ทฐ ์ƒ์„ฑ
  2. ๋Œ€๊ทœ๋ชจ ์ฃผ์„ ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ•: 27,000๊ฐœ ๋…ผ๋ฌธ๊ณผ 99,000๊ฐœ ๋ฆฌ๋ทฐ์— ์ธก๋ฉด ํ”„๋กฌํ”„ํŠธ๋ฅผ ์ฃผ์„ํ•œ ์ฒซ ๋ฒˆ์งธ ๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹ ๊ณต๊ฐœ (6๊ฐœ ํ•™ํšŒ: NeurIPS, ICLR, PeerRead, NLPeer ๋“ฑ)
  3. ํšจ์œจ์  ๊ตฌํ˜„: LongLoRA ๊ธฐ๋ฐ˜์œผ๋กœ 32k ํ† ํฐ ์ปจํ…์ŠคํŠธ ๊ธธ์ด ์ง€์›, ๋…ผ๋ฌธ์˜ ์ถ”์ถœ์  ์š”์•ฝ(extractive summary) ๋ถˆํ•„์š”

How

Figure 3

PGE (Prompt Generation with Evaluation) ํŒŒ์ดํ”„๋ผ์ธ: ์ƒ์„ฑ ๋‹จ๊ณ„์™€ ํ‰๊ฐ€ ๋‹จ๊ณ„์˜ ๋ฐ˜๋ณต์  ํ”„๋กœ์„ธ์Šค

REVIEWER2 ๊ตฌ์กฐ:

PGE (ํ”„๋กฌํ”„ํŠธ ์ƒ์„ฑ ๋ฐ ํ‰๊ฐ€) ํŒŒ์ดํ”„๋ผ์ธ:

๊ธฐ์ˆ ์  ์ตœ์ ํ™”:

Originality

Limitation & Further Study

Evaluation

Novelty: 4.5/5 Technical Soundness: 4/5 Significance: 4.5/5 Clarity: 4.5/5 Overall: 4.4/5

์ดํ‰: ๋ณธ ๋…ผ๋ฌธ์€ ์ธก๋ฉด ํ”„๋กฌํ”„ํŠธ ๋ชจ๋ธ๋ง์ด๋ผ๋Š” ์ฐฝ์˜์  ์•„์ด๋””์–ด๋กœ ์ž๋™ํ™” ๋ฆฌ๋ทฐ ์ƒ์„ฑ์˜ ๊ตฌ์ฒด์„ฑ๊ณผ ์ปค๋ฒ„๋ฆฌ์ง€ ๋ฌธ์ œ๋ฅผ ์šฐ์•„ํ•˜๊ฒŒ ํ•ด๊ฒฐํ•˜๋ฉฐ, ์ƒˆ๋กœ์šด ์ฃผ์„ ๋ฐ์ดํ„ฐ์…‹์„ ํ•™๊ณ„์— ๊ณต๊ฐœํ•œ ์ ์—์„œ ํฐ ๊ฐ€์น˜๊ฐ€ ์žˆ์œผ๋‚˜, PGE์˜ ์ž์ฒด-ํ‰๊ฐ€ ์ˆœํ™˜์„ฑ๊ณผ ์ธ๊ฐ„ ํ‰๊ฐ€์˜ ๋ถ€์žฌ๋Š” ์‹ค์šฉ์  ์‹ ๋ขฐ์„ฑ์„ ์•ฝํ™”์‹œํ‚จ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
677 ๋…ผ๋ฌธ์€ ๋ฆฌ๋ทฐ ์ƒ์„ฑ ํ”„๋กฌํ”„ํŠธ ๋””์ž์ธ์„ ํ†ตํ•ด LLM์˜ reasoning์„ ์ด๋„๋Š” ๋‹ค์–‘ํ•œ ๋ฐฉ๋ฒ•๋ก ์  foundation์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
609 ๋…ผ๋ฌธ์€ ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ์—์„œ ๋…ผ์ฆ ๊ตฌ์กฐ ์ค‘์‹ฌ์˜ ๋ถ„์„ ์ค‘์‹ฌ์ง€ํ‘œ๋ฅผ ์ œ์•ˆํ•˜๋ฏ€๋กœ, Reviewer2 ์—ฐ๊ตฌ์˜ ํ”„๋กฌํ”„ํŠธ ์„ค๊ณ„ยท๋ฆฌ๋ทฐ ๊ตฌ์ฒด์„ฑ ์ฆ๋Œ€ ์ ‘๊ทผ์— ์ด๋ก ์  ๋ฐฐ๊ฒฝ์ด ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
ํ…์ŠคํŠธ ๊ฐ์ • ๋ถ„์„ ๋ฐ ์˜๊ฒฌ ํ†ตํ•ฉ์„ ์œ„ํ•œ ๋ฐฉ๋ฒ•๋ก ์  ๊ธฐ์ดˆ๋ฅผ ์ œ๊ณตํ•˜๋Š” ์—ฐ๊ตฌ์ด๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
677(Reviewer2)์€ ํ”„๋กฌํ”„ํŠธ ์ƒ์„ฑ ๊ธฐ๋ฐ˜ ๋ฆฌ๋ทฐ ์ž๋™ํ™” ๋ฐฉ์‹์œผ๋กœ, 519์˜ ์—์ด์ „ํŠธ ํ˜‘์—… ๊ธฐ๋ฐ˜ ๊ธด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ ์‚ฌ๋ก€ ์ด์ „ ๋‹จ๊ณ„๋กœ ์ฐธ๊ณ ํ•  ์ˆ˜ ์žˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
677์€ LLM ์›Œํ„ฐ๋งˆํ‚น์ด๋‚˜ ํ…์ŠคํŠธ ํƒ์ง€์˜ ์ด๋ก ์ ยท๋ฐฉ๋ฒ•๋ก ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•˜์—ฌ ๋™๋ฃŒํ‰๊ฐ€ ํƒ์ง€ ๋ฐฉ๋ฒ• ์„ค๊ณ„์— ํ™œ์šฉ๋œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
677๋ฒˆ์€ LLM ๊ธฐ๋ฐ˜ ๋ฆฌ๋ทฐ ์ƒ์„ฑ ํ”„๋กฌํ”„ํŠธ ์ตœ์ ํ™” ์ „๋žต์„ ์†Œ๊ฐœํ•˜์—ฌ, 665๋ฒˆ์˜ ๊ฐ•ํ™”ํ•™์Šต-์ถ”๋ก  ๊ฒฐํ•ฉ ์‹œ์Šคํ…œ์˜ ์„ค๊ณ„ ์›๋ฆฌ์—๋„ ์˜๋ฏธ ์žˆ๋Š” ์‹œ์‚ฌ์ ์„ ์ค€๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
AI ๊ธฐ๋ฐ˜ ์ž๋™ ๋…ผ๋ฌธ ํ‰๊ฐ€ ๋ฐ ๋ฆฌ๋ทฐ ํ’ˆ์งˆ์— ๋Œ€ํ•œ ๋‹ค์–‘ํ•œ ์กฐ์งํ™” ๋ฐ ํ”„๋กฌํ”„ํŠธ ์ „๋žต๊ณผ ๋Œ€์กฐ๋  ์ˆ˜ ์žˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
678 ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜ ์ž๋™ ๋ฆฌ๋ทฐ ์ƒ์„ฑ ์‹œ์Šคํ…œ์˜ ์‹ค์ œ ํ™œ์šฉ ๊ฐ€๋Šฅ์„ฑ ๋ฐ ํ•œ๊ณ„๋ฅผ ์ธ๊ฐ„์‹ฌ์‚ฌ์ž ํ‰๊ฐ€ ๊ด€์ ์—์„œ ๋ถ„์„ํ•ด, Reviewer2์˜ ๋ฐฉ๋ฒ•๋ก ์„ ๊ฒ€์ฆยท๋ณด์™„ํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Automated review generation method based on large language models ๋…ผ๋ฌธ์€ ์ž๋™ ๋ฆฌ๋ทฐ ์ƒ์„ฑ์—์„œ ์ธก๋ฉด ํ”„๋กฌํ”„ํŠธ ๋Œ€์‹  ๋‹ค์–‘ํ•œ LLM ๊ธฐ๋ฐ˜ ์ž๋™ํ™” ๊ธฐ๋ฒ•์„ ํ™œ์šฉํ•˜์—ฌ, ๋ฌธ์ œ ์ ‘๊ทผ๋ฒ•์ด ๋‹ค๋ฅด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM์„ ํ™œ์šฉํ•œ ํ•™์ˆ  ๋ฆฌ๋ทฐ ์ž๋™ํ™”๋ฅผ ๋‹ค๋ฅธ ๋ฐฉ๋ฒ•๋ก ์œผ๋กœ ์ ‘๊ทผํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
677์€ ํ”„๋กฌํ”„ํŠธ ์ตœ์ ํ™” ๊ธฐ๋ฐ˜ AI ํ”ผ์–ด ๋ฆฌ๋ทฐ ์ƒ์„ฑ์— ์ง‘์ค‘ํ•˜์—ฌ, ๊ด€๋ จ์„ฑ ํ‰๊ฐ€ ์‹œ์Šคํ…œ์ธ 664์™€๋Š” ๋‹ค๋ฅธ ํ•ด๊ฒฐ์ฑ…์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM ๊ธฐ๋ฐ˜ ์ž๋™ ๋…ผ๋ฌธ ๊ฒ€ํ†  ์‹œ์Šคํ…œ์˜ ์ธ๊ฐ„ ๊ฒ€ํ† ์ž์™€์˜ ์ •๋ ฌ๋„๋ฅผ ํ‰๊ฐ€ํ•˜๋Š” ์œ ์‚ฌํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
665๋ฒˆ ๋…ผ๋ฌธ์€ LLM์œผ๋กœ ์ž๋™ ๋ฆฌ๋ทฐ ์ƒ์„ฑ ์‹œ ๋…ผ๋ฆฌ์  reasoning๊ณผ alignment๋ฅผ ์ด์šฉํ•˜์—ฌ, 677๋ฒˆ์˜ aspect-based ํ”„๋กฌํ”„ํŠธ ๋ฐฉ์‹๊ณผ ์ƒํ˜ธ ๋ณด์™„์ ์ž…๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
AAAR-1.0 ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ์ง€์› ๋Šฅ๋ ฅ ํ‰๊ฐ€์— ์ดˆ์ ์„ ๋งž์ถ”์–ด, ์ž๋™ ๋ฆฌ๋ทฐ ์ƒ์„ฑ์˜ ์‹ค์ œ์  ํ’ˆ์งˆ ํ–ฅ์ƒ์— ๊ด€ํ•œ Reviewer2 ๋…ผ๋ฌธ๊ณผ ๋ชฉ์ ์€ ์œ ์‚ฌํ•˜์ง€๋งŒ ์ ‘๊ทผ ๋ฐฉ์‹์ด ๋‹ค๋ฅด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
ReviewAgents๋Š” ํ”„๋กฌํ”„ํŠธ ์ตœ์ ํ™” ๋Œ€์‹  ์ธ๊ฐ„ ๋ฆฌ๋ทฐ์™€ AI ์ž‘์„ฑ ๋ฆฌ๋ทฐ์˜ ์ฐจ๋ณ„์„ฑ ๋ฐ ํ‰๊ฐ€์— ์ดˆ์ ์„ ๋‘ก๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
677 ๋…ผ๋ฌธ์€ ํ”„๋กฌํ”„ํŠธ ์ตœ์ ํ™”๋ฅผ ํ†ตํ•œ ๋ฆฌ๋ทฐ ์ƒ์„ฑ ํ’ˆ์งˆ ๊ฐœ์„ ์„ ๋ถ„์„ํ•ด, 262์˜ ๊ตฌ์กฐํ™”๋œ ๋‹จ๊ณ„๋ณ„ ํ”„๋ ˆ์ž„๊ณผ ๋‹ค๋ฅธ ์ ‘๊ทผ๋ฒ•์„ ์ œ์‹œํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM์ด ์ƒ์„ฑํ•œ ๋ฆฌ๋ทฐ์˜ ์งˆ์„ ํ‰๊ฐ€ํ•˜๋Š” ์œ ์‚ฌํ•œ ๋ฌธ์ œ๋ฅผ ๋‹ค๋ฅธ ๊ด€์ ์—์„œ ๋‹ค๋ฃฌ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM ํ”„๋กฌํ”„ํŠธ ์กฐ์ • ๋ฐ ๋ฆฌ๋ทฐ ํ’ˆ์งˆ ํ–ฅ์ƒ์„ ๋‹ค๋ฃฌ ๋…ผ๋ฌธ์œผ๋กœ, focus-level ํ‰๊ฐ€์™€ prompt engineering์˜ ์ƒํ˜ธ๋ณด์™„์„ฑ์„ ๊ฒ€ํ† ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
AI ๊ธฐ๋ฐ˜ ๋…ผ๋ฌธ ํ‰๊ฐ€ ์ž๋™ํ™”์˜ ์‹ค์ œ ํšจ๊ณผ์™€ ์‚ฌ์šฉ ์‚ฌ๋ก€, ํ”„๋กฌํ”„ํŠธ ์ตœ์ ํ™”, ๋ฆฌ๋ทฐ ํ’ˆ์งˆ ๋น„๊ต ๊ฐ€๋Šฅ์„ฑ๊นŒ์ง€ ๋ณด์—ฌ์ค€๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
LLM ์กฐ์ž‘ ๊ฐ€๋Šฅ์„ฑ๊ณผ ๋ณด์•ˆ ์ทจ์•ฝ์ ์— ๋Œ€ํ•œ ์ถ”๊ฐ€์ ์ธ ๋ถ„์„์„ ์ œ๊ณตํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
679๋ฒˆ์€ AI ์ƒ์„ฑ ๋ฆฌ๋ทฐ์˜ ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ๋กœ, 677๋ฒˆ์˜ ๋‹ค์–‘ํ•œ ๋ฆฌ๋ทฐ ์ƒ์„ฑ ๊ฒฐ๊ณผ๋ฅผ ๊ฐ๊ด€์ ์œผ๋กœ ๋น„๊ตยทํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ๋Š” ๊ธฐ์ค€์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •