ReviewerGPT? An Exploratory Study on Using Large Language Models for Paper Reviewing

์ €์ž: Ryan Liu, Nihar B. Shah | ๋‚ ์งœ: 2023-06-01 | DOI: 10.48550/arXiv.2306.00622 📄 PDF


Essence

๊ธ‰์†๋„๋กœ ๋ฐœ์ „ํ•˜๋Š” ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์ด ๊ณผํ•™ ๋…ผ๋ฌธ ์‹ฌ์‚ฌ ๊ณผ์ •์—์„œ ๊ฒ€ํ† ์ž๋ฅผ ๋ณด์กฐํ•  ์ˆ˜ ์žˆ๋Š”์ง€ ์‹ค์ฆ์ ์œผ๋กœ ํ‰๊ฐ€ํ•œ ์—ฐ๊ตฌ๋กœ, GPT-4๊ฐ€ ํŠน์ • ์ž‘์—…์—์„œ๋Š” ์œ ๋งํ•˜์ง€๋งŒ ์™„์ „ํ•œ ๋…ผ๋ฌธ ํ‰๊ฐ€๋Š” ์•„์ง ๋ถˆ๊ฐ€๋Šฅํ•จ์„ ๋ณด์—ฌ์ค€๋‹ค.

Motivation

Achievement

  1. ์˜ค๋ฅ˜ ํƒ์ง€ ๋Šฅ๋ ฅ: ์˜๋„์ ์œผ๋กœ ์˜ค๋ฅ˜๋ฅผ ์‚ฝ์ž…ํ•œ 13๊ฐœ์˜ ๋‹จํŽธ ๋…ผ๋ฌธ ์ค‘ 7๊ฐœ(53.8%)์—์„œ ์˜ค๋ฅ˜ ํƒ์ง€ ์„ฑ๊ณต. ์ด๋Š” ์ธ๊ฐ„ ๊ฒ€ํ† ์ž์˜ ์˜ค๋ฅ˜ ํƒ์ง€์œจ๊ณผ ๋น„์Šทํ•œ ์ˆ˜์ค€์œผ๋กœ, ์ˆ˜ํ•™์  ์˜ค๋ฅ˜์™€ ๊ฐœ๋…์  ์˜ค๋ฅ˜ ๋ชจ๋‘ ํฌํ•จ
  2. ์ฒดํฌ๋ฆฌ์ŠคํŠธ ๊ฒ€์ฆ: NeurIPS 2022์˜ 15๊ฐœ ๋…ผ๋ฌธ์—์„œ 119๊ฐœ์˜ {์ฒดํฌ๋ฆฌ์ŠคํŠธ ์งˆ๋ฌธ, ๋…ผ๋ฌธ} ์Œ์— ๋Œ€ํ•ด 86.6% ์ •ํ™•๋„ ๋‹ฌ์„ฑ. ์ €์ž์˜ ์‘๋‹ต๊ณผ๋„ ๋™์ผํ•œ 86.6% ์ผ์น˜์œจ์„ ๋ณด์˜€์œผ๋ฉฐ, 50%์˜ LLM ์˜ค๋ฅ˜๋Š” ๋…ผ๋ฌธ์˜ ํ…์ŠคํŠธ๋กœ ํŒ๋‹จ ๋ถˆ๊ฐ€๋Šฅํ•œ ์งˆ๋ฌธ(์˜ˆ: ๊ทธ๋ฆผ์˜ ์ •๋ณด ํ•„์š”)์—์„œ ๋ฐœ์ƒ
  3. ๋…ผ๋ฌธ ๋น„๊ต ์„ ํƒ์˜ ํ•œ๊ณ„: ๋ช…ํ™•ํ•˜๊ฒŒ ์šฐ์›”ํ•œ ์ดˆ๋ก์œผ๋กœ ๊ตฌ์„ฑ๋œ 10๊ฐœ ์Œ ์ค‘ 6๊ฐœ(60%)์—์„œ ์‹คํŒจ. ํŽธํ–ฅ๋œ ๊ฒฐ๊ณผ ํ•ด์„, ๋งค๊ฐœ๋ณ€์ˆ˜ ๋ฒ”์œ„ ์˜ค๋…, ํ†ต๊ณ„ ๊ฒฝ๊ณ„๊ฐ’ ์˜คํ•ด, ํ”„๋กฌํ”„ํŠธ ์ธ์ ์…˜ ๊ณต๊ฒฉ์— ์ทจ์•ฝ, ๊ณผ์žฅ๋œ ํ‘œํ˜„์— ์˜ํ–ฅ์„ ๋ฐ›๋Š” ๋“ฑ์˜ ๋ฌธ์ œ ํ™•์ธ

How

Originality

Limitation & Further Study

Evaluation

์ดํ‰: ๊ธ‰๋ถ€์ƒํ•˜๋Š” LLM์˜ ๋…ผ๋ฌธ ์‹ฌ์‚ฌ ํ™œ์šฉ ๊ฐ€๋Šฅ์„ฑ์„ ์ตœ์ดˆ๋กœ ์ฒด๊ณ„์ ์œผ๋กœ ํƒ์ƒ‰ํ•œ ์ค‘์š”ํ•œ ์—ฐ๊ตฌ๋กœ, GPT-4๊ฐ€ ์˜ค๋ฅ˜ ํƒ์ง€์™€ ์ฒดํฌ๋ฆฌ์ŠคํŠธ ๊ฒ€์ฆ์—์„œ๋Š” ์œ ๋งํ•˜์ง€๋งŒ ์™„์ „ํ•œ ํ‰๊ฐ€๋Š” ์•„์ง ๋ถˆ๊ฐ€๋Šฅํ•จ์„ ์‹ค์ฆํ–ˆ๋‹ค. ๋‹ค๋งŒ ์†Œ๊ทœ๋ชจ ์‹คํ—˜ ๋ฐ์ดํ„ฐ์…‹๊ณผ ์ œํ•œ๋œ ๋ชจ๋ธ ๋น„๊ต๊ฐ€ ์ผ๋ฐ˜ํ™” ๊ฐ€๋Šฅ์„ฑ์„ ๋‹ค์†Œ ์ œ์•ฝํ•œ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
ReviewerGPT ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜ ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ ์ž๋™ ์ƒ์„ฑ ์—ฐ๊ตฌ๋กœ, DeepReview ํ”„๋ ˆ์ž„์›Œํฌ์˜ ์‚ฌ์ „ ์—ฐ๊ตฌ๋กœ ์ฐธ์กฐํ•  ๋งŒํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๊ณผํ•™ ํ…์ŠคํŠธ๋ฅผ ์ •์ฑ… ๋ฌธ์„œ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” LLM ํ‰๊ฐ€์˜ ์ด๋ก ์ ยท๋ฐฉ๋ฒ•๋ก ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
LLM์˜ ํ…์ŠคํŠธ ํ‰๊ฐ€ ๋ฐฉ์‹๊ณผ ํŽธํ–ฅ์— ๋Œ€ํ•œ ๊ธฐ์ดˆ์  ๋ถ„์„์„ ์ œ๊ณตํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
678 ๋…ผ๋ฌธ์€ LLM์ด ๋ฆฌ๋ทฐ์–ด ์—ญํ• ์„ ๋Œ€์ฒดํ•  ์ˆ˜ ์žˆ๋Š”์ง€ ํƒ๊ตฌํ•˜๋ฉฐ, 1087 ๋…ผ๋ฌธ๊ณผ ๊ฐ™์ด AI์˜ ํ”ผ์–ด๋ฆฌ๋ทฐ ์ง€์› ์‹คํ—˜ ์—ฐ๊ตฌ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM์„ ํ™œ์šฉํ•œ ๊ณผํ•™์  ๊ฐ€์„ค ์ƒ์„ฑ์˜ ๋Œ€์•ˆ์  ์ ‘๊ทผ๋ฒ•์„ ์ œ์‹œํ•˜๋Š” ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
184๋Š” LLM์ด ์—ฐ๊ตฌ ์•„์ด๋””์–ด์— ๋Œ€ํ•œ ํ”ผ๋“œ๋ฐฑ์„ ์œ ์šฉํ•˜๊ฒŒ ์ค„ ์ˆ˜ ์žˆ๋Š”์ง€ ํƒ๊ตฌํ•˜๋ฉฐ, LLM ๊ธฐ๋ฐ˜ ํ‰๊ฐ€์˜ ํšจ์šฉ๊ณผ ํ•œ๊ณ„๋ฅผ ์ถ”๊ฐ€์ ์œผ๋กœ ์กฐ๋งํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Peer review ๋ฉ”์ปค๋‹ˆ์ฆ˜์—์„œ ์˜๊ฐ์„ ์–ป์€ LLM ํ‰๊ฐ€ ๋ฐฉ์‹๊ณผ, GPT๋ฅผ ์ด์šฉํ•œ ์ž๋™ ๋ฆฌ๋ทฐ ์ƒ์„ฑ์„ ์‚ฌ์šฉํ•˜๋Š” ReviewerGPT ๋…ผ๋ฌธ์„ ๋น„๊ตํ•ด๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
ReviewerGPT ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜ ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ ์ž๋™ ์ƒ์„ฑ์˜ ์‹ค์ œ ์‚ฌ์šฉ์„ฑ ๋ฐ ํ•œ๊ณ„, ํ’ˆ์งˆ ํ‰๊ฐ€ ์ธก๋ฉด์—์„œ ๋น„๊ต ์ฝ๊ธฐ์— ์ ํ•ฉํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
678๋ฒˆ ๋…ผ๋ฌธ์€ ๋‹ค์–‘ํ•œ ์–ธ์–ด ๋ชจ๋ธ์˜ ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ ํ’ˆ์งˆ์„ ๋น„๊ตยทํƒ๊ตฌํ•ด, OpenReviewer์˜ ํ‰๊ฐ€ ๊ด€์ ๊ณผ ๋ณด์™„์ ์œผ๋กœ ์ฝ์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM์˜ ์‚ฌํšŒ๊ณผํ•™ ์ ์šฉ ๋˜๋Š” ์‚ฌํšŒ์  ์‹œ๋ฎฌ๋ ˆ์ด์…˜์„ ๋‹ค๋ฃจ๋Š” ์œ ์‚ฌํ•œ ๋ฒ”์œ„์˜ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
ReviewerGPT ๋…ผ๋ฌธ์€ LLM์„ ํ™œ์šฉํ•ด ๋™๋ฃŒ์‹ฌ์‚ฌ ๋ฌธ์„œ์˜ ์ƒ์„ฑ ๊ณผ์ •๊ณผ ํ•œ๊ณ„, ํ‰์  ๋“ฑ์„ ์‹ค์ œ๋กœ ์‹คํ—˜ํ•œ ๋Œ€์ฒด์  ์ ‘๊ทผ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
678 ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜ ์ž๋™ ๋ฆฌ๋ทฐ ์ƒ์„ฑ ์‹œ์Šคํ…œ์˜ ์‹ค์ œ ํ™œ์šฉ ๊ฐ€๋Šฅ์„ฑ ๋ฐ ํ•œ๊ณ„๋ฅผ ์ธ๊ฐ„์‹ฌ์‚ฌ์ž ํ‰๊ฐ€ ๊ด€์ ์—์„œ ๋ถ„์„ํ•ด, Reviewer2์˜ ๋ฐฉ๋ฒ•๋ก ์„ ๊ฒ€์ฆยท๋ณด์™„ํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
128์€ LLM์˜ ๋ฆฌ๋ทฐ ํ‰๊ฐ€ ๋Šฅ๋ ฅ์„ ์ž๋™ ํ‰๊ฐ€ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์ œ์•ˆํ•˜์—ฌ, Peer review ๋ณด์กฐ ์—ญํ• ๋กœ์„œ 678๊ณผ ๋น„๊ตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
680๋ฒˆ์€ LLM ๊ธฐ๋ฐ˜ ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ์˜ ๋ฌธ์ œ์  ํฌ์ธํŠธ์™€ ๋น„ํŒ์  ํ‰๊ฐ€ ๋Šฅ๋ ฅ์„ ์ง‘์ค‘์ ์œผ๋กœ ๋น„๊ตํ•ด, 678๋ฒˆ์˜ ReviewerGPT ์‹คํ—˜ ๊ฒฐ๊ณผ ํ•ด์„์— ๋ณด์™„์ด ๋œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM์˜ ๊ณผํ•™์  ๊ธ€์“ฐ๊ธฐ ๋Šฅ๋ ฅ์„ ๋‹ค๋ฅธ ์ธก๋ฉด์—์„œ ํ‰๊ฐ€ํ•˜๋Š” ๋Œ€์•ˆ์  ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
ReviewerGPT๋Š” LLM์„ ์ด์šฉํ•œ ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ์˜ ์‹ค์งˆ์  ํ’ˆ์งˆ ํ‰๊ฐ€์™€ ์ธ๊ฐ„ ๋ฆฌ๋ทฐ์–ด ๋น„๊ต๋ฅผ ๋‹ค๋ค„, ์œ ์‚ฌ ๋น„๊ต ์—ฐ๊ตฌ๋กœ ์ฐธ๊ณ ํ•  ๋งŒํ•˜๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
678๋ฒˆ ๋…ผ๋ฌธ์€ LLM์œผ๋กœ ์ž๋™ ์ƒ์„ฑ๋œ ๋™๋ฃŒํ‰๊ฐ€(๋ฆฌ๋ทฐ) ์‚ฌ๋ก€๋ฅผ ์‹ฌ์ธต์ ์œผ๋กœ ๋ถ„์„ํ•ด, 080๋ฒˆ์˜ 'AI ๋™๋ฃŒํ‰๊ฐ€ ํ™•์‚ฐ ์šฐ๋ ค' ์† ํšจ์œจ์„ฑ๊ณผ ํ’ˆ์งˆ๋ณ€ํ™” ๋Œ€๋น„ ์‹ค์ œ ๋ฐ์ดํ„ฐ๋ฅผ ์ œ๊ณตํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
1087 ๋…ผ๋ฌธ์€ GPT-4๋ฅผ ํ™œ์šฉํ•œ ๋…ผ๋ฌธ ์‹ฌ์‚ฌ ์ง€์›์˜ ์‹ค์งˆ์  ๊ฐ€์น˜๋ฅผ ํ‰๊ฐ€ํ•จ์œผ๋กœ์จ 678์˜ ํ•œ๊ณ„ ๋…ผ์˜ ํ›„์† ์—ฐ๊ตฌ๋กœ ์ฝํž ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
678์€ LLM์ด ์ž‘์„ฑํ•œ ํ•™์ˆ  ๋ฆฌ๋ทฐ์˜ ํƒ์ง€ ๋ฐ ํ™œ์šฉ ํ‰๊ฐ€๋ฅผ ํ™•์žฅ์ ์œผ๋กœ ๋‹ค๋ฃจ์–ด, 445์˜ ๊ฐœ๋ณ„ ๋ฆฌ๋ทฐ ์ˆ˜์ค€ ํƒ์ง€ ๊ธฐ๋ฒ•์˜ ํ˜„์‹ค ์ ์šฉ์„ฑ ๊ฒ€์ฆ์— ์œ ์šฉํ•˜๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
853์€ AI ๊ธฐ๋ฐ˜ ๋…ผ๋ฌธ ๋„ํ˜• ์บก์…˜์˜ ์‹ค์ œ ํ™œ์šฉ ํ˜„ํ™ฉ์„ ๋‹ค๋ฃจ์–ด, ReviewerGPT๊ฐ€ ๋„์›€์„ ์ฃผ๋Š” ๋ฆฌ๋ทฐ ์ž‘์—… ์˜์—ญ ์ค‘ ํ•˜๋‚˜๋ฅผ ๊ตฌ์ฒด์ ์œผ๋กœ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
ReviewerGPT ๋…ผ๋ฌธ์€ LAZYREVIEW์™€ ์œ ์‚ฌํ•œ ๋ฆฌ๋ทฐ ํ”ผ๋“œ๋ฐฑ ์ž๋™ํ™” ๋ฌธ์ œ์— LLM ํ™œ์šฉ ๋ฐฉ์•ˆ์„ ์ถ”๊ฐ€์ ์œผ๋กœ ํƒ๊ตฌํ•ฉ๋‹ˆ๋‹ค.
๋ฐ˜๋ก /๋น„ํŒ
445๋Š” LLM์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ์— ์–ด๋А ์ •๋„ ์‚ฌ์šฉ๋˜๋Š”์ง€๋ฅผ ๋ถ„์„ํ•˜๋ฉฐ, 678์˜ ์‹ฌ์‚ฌ ๋ณด์กฐ ํšจ๊ณผ์— ๋Œ€ํ•œ ์‹ค์ œ ํ•™๊ณ„์˜ ๋ฐ˜์‘์„ ์ธก๋ฉด์ ์œผ๋กœ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
๋ฐ˜๋ก /๋น„ํŒ
081 ๋…ผ๋ฌธ์€ LLM์˜ ๊ตฌํ˜„๋ ฅ๊ณผ ํ•œ๊ณ„์— ๋Œ€ํ•œ ๋น„ํŒ์  ์‹œ๊ฐ์„ ์ œ์‹œํ•˜์—ฌ 678 ๋…ผ๋ฌธ์˜ LLM ์‹คํšจ์„ฑ ๋…ผ์˜์— ๊ท ํ˜•์„ ๋”ํ•ฉ๋‹ˆ๋‹ค.
๋ฐ˜๋ก /๋น„ํŒ
Is it OK for AI to write science papers? ๋…ผ๋ฌธ์€ AI๊ฐ€ ๋…ผ๋ฌธ์ž‘์„ฑ์ด๋‚˜ ๋ฆฌ๋ทฐ์— ์‹ค์ œ ์“ฐ์ด๋Š” ๊ฒƒ์˜ ์œค๋ฆฌยท์‹ค๋ฌด์  ๋ฌธ์ œ๋ฅผ ํญ๋„“๊ฒŒ ๋…ผ์˜ํ•ด 678์˜ ์‹ค์ œ ํ•œ๊ณ„ ํ‰๊ฐ€์™€ ๋Œ€๋น„๋ฉ๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •