Are we there yet? revealing the risks of utilizing large language models in scholarly peer review

์ €์ž: Rui Ye, Xianghe Pang, Jingyi Chai, Jiaao Chen, Zhen-fei Yin, Zhen Xiang, Xiaowen Dong, Jing Shao, Siheng Chen | ๋‚ ์งœ: 2024 | DOI: N/A 📄 PDF


Essence

Figure 1

๊ทธ๋ฆผ 1: (a) ํ•™์ˆ  ์ปค๋ฎค๋‹ˆํ‹ฐ๊ฐ€ ํ”ผ์–ด ๋ฆฌ๋ทฐ์— LLM ๋„์ž…์„ ์‹œ์ž‘ํ–ˆ์œผ๋ฉฐ, (b) ํ”„๋กฌํ”„ํŠธ ์ฃผ์ž…์„ ํ†ตํ•œ ๋ช…์‹œ์  ์กฐ์ž‘, (c) LLM์ด ์ €์ž๊ฐ€ ๊ณต๊ฐœํ•œ ํ•œ๊ณ„๋ฅผ ์ธ์šฉํ•  ๊ฐ€๋Šฅ์„ฑ์ด ๋†’์œผ๋ฉฐ, (d) ๋ถˆ์™„์ „ํ•œ ์ฝ˜ํ…์ธ ์—๋„ ๋ถ€๋‹นํžˆ ๋†’์€ ์ ์ˆ˜๋ฅผ ๋ถ€์—ฌํ•จ

๋ณธ ์—ฐ๊ตฌ๋Š” ํ•™์ˆ  ํ”ผ์–ด ๋ฆฌ๋ทฐ์— ๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ(LLM)์„ ํ™œ์šฉํ•  ๋•Œ์˜ ์‹ฌ๊ฐํ•œ ๋ณด์•ˆ ์ทจ์•ฝ์ ์„ ์ตœ์ดˆ๋กœ ์ข…ํ•ฉ์ ์œผ๋กœ ๋ถ„์„ํ•œ ๋…ผ๋ฌธ์ด๋‹ค. ์ €์ž๋“ค์€ ๋ช…์‹œ์  ์กฐ์ž‘(explicit manipulation)๊ณผ ์•”์‹œ์  ์กฐ์ž‘(implicit manipulation), ๊ทธ๋ฆฌ๊ณ  LLM์˜ ๋‚ด์žฌ์  ๊ฒฐํ•จ์„ ํ†ตํ•ด LLM ๊ธฐ๋ฐ˜ ๋ฆฌ๋ทฐ์–ด๊ฐ€ ์–ผ๋งˆ๋‚˜ ์‰ฝ๊ฒŒ ์˜ค๋„๋  ์ˆ˜ ์žˆ๋Š”์ง€๋ฅผ ์‹ค์ฆ์ ์œผ๋กœ ์ž…์ฆํ•œ๋‹ค.

Motivation

Achievement

Figure 2

๊ทธ๋ฆผ 2: ์กฐ์ž‘ ์ „ํ›„ ๋ฆฌ๋ทฐ ํ‰์  ๋น„๊ต

  1. ๋ช…์‹œ์  ์กฐ์ž‘์˜ ๊ทน๋‹จ์  ์ทจ์•ฝ์„ฑ: ํ”„๋กฌํ”„ํŠธ ์ฃผ์ž…์„ ํ†ตํ•ด LLM-์กฐ์ž‘ ๋‚ด์šฉ ์ผ์น˜๋„๊ฐ€ 90% ์ด์ƒ ๋‹ฌ์„ฑ, ๋ฐ˜๋ฉด LLM-์ธ๊ฐ„ ์ผ์น˜๋„๋Š” 53%์—์„œ 16%๋กœ ๊ธ‰๋ฝ. ์กฐ์ž‘๋œ ๋ฆฌ๋ทฐ์˜ ํ‰์ ์ด ํ‰๊ท  5.34์—์„œ 7.99๋กœ ์ƒ์Šนํ•˜์—ฌ ๊ฑฐ์˜ ๋ชจ๋“  ๋…ผ๋ฌธ์ด ๊ธ์ •์  ํ‰๊ฐ€๋ฅผ ๋ฐ›์Œ
  2. ์•”์‹œ์  ์กฐ์ž‘์˜ 4.5๋ฐฐ ๋†’์€ ์˜ํ–ฅ๋ ฅ: ์ €์ž๊ฐ€ ๊ณต๊ฐœํ•œ ํ•œ๊ณ„์— ๋Œ€ํ•ด LLM์€ ์ธ๊ฐ„ ๋ฆฌ๋ทฐ์–ด๋ณด๋‹ค 4.5๋ฐฐ ๋” ๋†’์€ ์ผ์น˜๋„(consistency)๋ฅผ ๋ณด์ž„. ์ด๋Š” LLM์ด ์ €์ž์˜ ํ”„๋ ˆ์ด๋ฐ์— ๋งค์šฐ ์ทจ์•ฝํ•จ์„ ์˜๋ฏธํ•จ
  3. ๋‚ด์žฌ์  ๊ฒฐํ•จ์˜ ๊ด‘๋ฒ”์œ„ํ•œ ์˜ํ–ฅ:
    • ๋ถˆ์™„์ „ํ•œ ์ฝ˜ํ…์ธ (์ œ๋ชฉ๋งŒ ์žˆ๋Š” ๋…ผ๋ฌธ)๊ฐ€ ์™„์ „ํ•œ ๋…ผ๋ฌธ์˜ 42%๋ณด๋‹ค ๋†’๊ฑฐ๋‚˜ ๋™๋“ฑํ•œ ์ ์ˆ˜ ํš๋“
    • ๋‹จ์ผ ๋งน๊ฒ€(single-blind) ๊ฒ€ํ† ์—์„œ ์ €๋ช… ์ €์ž ํ‘œ๊ธฐ๊ฐ€ ๋” ํ˜ธ์˜์  ๋ฆฌ๋ทฐ ์ƒ์„ฑ
    • ๋…ผ๋ฌธ ๊ธธ์ด๊ฐ€ ๊ธธ์ˆ˜๋ก ๋” ํ˜ธ์˜์  ํ”ผ๋“œ๋ฐฑ ์ˆ˜์‹ 
  4. ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ์˜ํ–ฅ: 5%์˜ ๋ฆฌ๋ทฐ๋งŒ ์กฐ์ž‘ํ•ด๋„ ์ƒ์œ„ 30% ์ˆœ์œ„์—์„œ 12%์˜ ๋…ผ๋ฌธ์ด ์ˆœ์œ„๋ฅผ ์žƒ์„ ์ˆ˜ ์žˆ์Œ์„ ์‹œ๋ฎฌ๋ ˆ์ด์…˜์œผ๋กœ ์ž…์ฆ

How

Figure 3

๊ทธ๋ฆผ 3: ์ƒ์œ„ 30% ๋…ผ๋ฌธ์— ๋Œ€ํ•œ ์ฒด๊ณ„์  ์˜ํ–ฅ

Originality

Limitation & Further Study

Evaluation

์ดํ‰: ๋ณธ ๋…ผ๋ฌธ์€ LLM์„ ํ”ผ์–ด ๋ฆฌ๋ทฐ์— ๋„์ž…ํ•˜๋ ค๋Š” ํ•™์ˆ  ์ปค๋ฎค๋‹ˆํ‹ฐ์— ๋Œ€ํ•ด ์‹œ์˜์ ์ ˆํ•˜๊ณ  ์ค‘์š”ํ•œ ๊ฒฝ๊ณ ๋ฅผ ์ œ์‹œํ•œ๋‹ค. ๋ช…์‹œ์ ยท์•”์‹œ์  ์กฐ์ž‘๊ณผ ๋‚ด์žฌ์  ํŽธํ–ฅ์„ ์ฒด๊ณ„์ ์œผ๋กœ ์ž…์ฆํ•จ์œผ๋กœ์จ LLM์„ ๋‹จ๋… ๋ฆฌ๋ทฐ์–ด๊ฐ€ ์•„๋‹Œ ๋ณด์กฐ ๋„๊ตฌ๋กœ๋งŒ ํ™œ์šฉํ•ด์•ผ ํ•จ์„ ๊ฐ•ํ•˜๊ฒŒ ์ฃผ์žฅํ•œ๋‹ค. ๋‹ค๋งŒ ๋‹ค์–‘ํ•œ ๋ชจ๋ธ ๋ฐ ํ•™ํšŒ๋กœ์˜ ํ™•๋Œ€ ๊ฒ€์ฆ๊ณผ ๋ฐฉ์–ด ๋ฉ”์ปค๋‹ˆ์ฆ˜ ์ œ์‹œ๋ฅผ ํ†ตํ•ด ์˜ํ–ฅ๋ ฅ์„ ๋”์šฑ ๋†’์ผ ์ˆ˜ ์žˆ์„ ๊ฒƒ์œผ๋กœ ์˜ˆ์ƒ๋œ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
LLM ๊ธฐ๋ฐ˜ ํ•™์ˆ  ๊ธ€์“ฐ๊ธฐ ๋ฐ ํ‰๊ฐ€์˜ ์œค๋ฆฌ์ โ€ง์‹ค์งˆ์  ์œ ์˜์ ๊ณผ ์ฑ…์ž„ ๊ฐ์ˆ˜ ์ง€์นจ์„ ๋ฐ”ํƒ•์ ์œผ๋กœ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
LLM ๊ธฐ๋ฐ˜ ํ•™์ˆ  ํ‰๊ฐ€ ์‹œ์Šคํ…œ์˜ ๊ธฐ์ˆ ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์‹ค์ œ LLM ํ”ผ์–ด๋ฆฌ๋ทฐ์˜ ๋ณด์•ˆ ์ทจ์•ฝ์ ์„ ์‹ค์ฆ์ ์œผ๋กœ ๋‹ค๋ฃจ์–ด, ์ฑ…์ž„๊ฐ ์žˆ๋Š” LLM ํ™œ์šฉ ๋…ผ์˜์™€ ๋Œ€์กฐ๋œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM์ด ํ•™์ˆ  ํ”ผ์–ด ๋ฆฌ๋ทฐ์—์„œ ์œ ์šฉํ•œ ํ”ผ๋“œ๋ฐฑ์„ ์ค„ ์ˆ˜ ์žˆ๋Š”์ง€ ์‹ค์ฆ์ ์œผ๋กœ ๊ฒ€์ฆํ•˜์—ฌ, 104๋ฒˆ ๋…ผ๋ฌธ์˜ ๋ณด์•ˆ ์œ„ํ—˜ ๋…ผ์˜์™€ ์ƒ๋ฐ˜๋˜๋Š” ์‹œ๊ฐ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM์„ ํ”ผ์–ด ๋ฆฌ๋ทฐ์— ํ™œ์šฉํ•  ๋•Œ์˜ ๋ฌธ์ œ์ ์„ ๋‹ค๋ฅธ ์ธก๋ฉด์—์„œ ๋ถ„์„ํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์˜ํ•™ ๋ถ„์•ผ ์—ฐ๊ตฌ ๋ณด๊ณ ์„œ์˜ ์‹ ๋ขฐ์„ฑ๊ณผ ๊ฒ€์ฆ ๊ฐ€๋Šฅ์„ฑ ๋ฌธ์ œ๋ฅผ ๋ถ„์„ํ•˜์—ฌ, LLM ๊ธฐ๋ฐ˜ ํ”ผ์–ด ๋ฆฌ๋ทฐ์˜ ๊ฒ€์ฆ ๊ฐ€๋Šฅ์„ฑ ๋…ผ์˜์™€ ์—ฐ๊ฒฐ๋œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Vulnerability of text-matching in ml/ai conference reviewer ๋…ผ๋ฌธ์€ ๋ฆฌ๋ทฐ๊ณผ์ •์—์„œ์˜ LLM ๊ธฐ๋ฐ˜ ํ‘œ์ ˆ ํƒ์ง€ ๋ฐ ์ทจ์•ฝ์  ์ด์Šˆ๋ฅผ ๋ถ„์„ํ•˜๋ฉฐ, LLM ํ™œ์šฉ ์œ„ํ—˜์„ฑ์˜ ๋‹ค์–‘ํ•œ ์–‘์ƒ์„ ๋…ผ์˜ํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
AI ๋ฆฌ๋ทฐ์–ด์— ๋Œ€ํ•œ ์„ฑ๋Šฅ ๋ฐ ์‹ ๋ขฐ์„ฑ ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ๊ณตํ•˜์—ฌ LLM ๊ธฐ๋ฐ˜ ํ”ผ์–ด๋ฆฌ๋ทฐ์˜ ์‹ค์ œ ํ’ˆ์งˆ์— ๋Œ€ํ•œ ํ‰๊ฐ€๋ฅผ ๋ณด์™„ํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
LLM ์กฐ์ž‘ ๊ฐ€๋Šฅ์„ฑ๊ณผ ๋ณด์•ˆ ์ทจ์•ฝ์ ์— ๋Œ€ํ•œ ์ถ”๊ฐ€์ ์ธ ๋ถ„์„์„ ์ œ๊ณตํ•œ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
OpenReview ํ”Œ๋žซํผ์˜ ๋ฐ์ดํ„ฐ ๋ฐ ํ™˜๊ฒฝ ํ™œ์šฉ ๋ฐฉ์•ˆ ๋ถ„์„์€ LLM ํ™œ์šฉ ํ”ผ์–ด ๋ฆฌ๋ทฐ์˜ ์ •์ฑ…์ ยท์‹œ์Šคํ…œ์  ์‹œ์‚ฌ์ ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๋ฐ˜๋ก /๋น„ํŒ
104๋ฒˆ ๋…ผ๋ฌธ์€ LLM์ด ํ”ผ์–ด ๋ฆฌ๋ทฐ์—์„œ ๋ณด์ผ ์ˆ˜ ์žˆ๋Š” ์œ„ํ—˜๊ณผ ์ทจ์•ฝ์„ฑ์„ ๋‹ค๋ฃจ๋Š” ๋ฐ˜๋Œ€ ๊ด€์ ์ž…๋‹ˆ๋‹ค.
๋ฐ˜๋ก /๋น„ํŒ
104๋ฒˆ ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜ ์ƒ์„ฑ ํ…์ŠคํŠธ์˜ ์œ„ํ—˜์„ฑ์„ ์‹ค์ฆ์ ์œผ๋กœ ๋ถ„์„ํ•˜๋ฉฐ, 897๋ฒˆ์ด ์ฃผ์žฅํ•œ ์‹ ๋ขฐยท์ •ํ™•์„ฑ ๋ฌธ์ œ์— ๋น„ํŒ์ ยท๋ณด์™„์  ์‹œ๊ฐ์„ ์ œ์‹œํ•œ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •