Pre: A peer review based large language model evaluator

์ €์ž: Zhumin Chu, Qingyao Ai, Y. L. Tu, Haitao Li, Yiqun Liu | ๋‚ ์งœ: 2024 | DOI: N/A 📄 PDF


Essence

ํ•™์ˆ ์ง€์˜ ๋™๋ฃŒ ํ‰๊ฐ€(peer review) ๋ฉ”์ปค๋‹ˆ์ฆ˜์—์„œ ์˜๊ฐ์„ ๋ฐ›์•„, ์—ฌ๋Ÿฌ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ(LLM)์„ ํ‰๊ฐ€์ž๋กœ ํ™œ์šฉํ•˜์—ฌ ๋‹ค๋ฅธ LLM๋“ค์˜ ์„ฑ๋Šฅ์„ ์ž๋™์œผ๋กœ ํ‰๊ฐ€ํ•˜๋Š” ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•œ๋‹ค. ์ž๊ฒฉ ์‹œํ—˜์œผ๋กœ ์‹ ๋ขฐํ•  ์ˆ˜ ์žˆ๋Š” ํ‰๊ฐ€์ž๋ฅผ ์„ ๋ณ„ํ•œ ํ›„ ์ด๋“ค์˜ ํ‰๊ฐ€ ๊ฒฐ๊ณผ๋ฅผ ์ง‘๊ณ„ํ•˜์—ฌ ํŽธํ–ฅ ์—†๋Š” LLM ํ‰๊ฐ€๋ฅผ ์‹คํ˜„ํ•œ๋‹ค.

Motivation

Achievement

  1. ํŽธํ–ฅ์„ฑ ๊ฐ์†Œ: ๋‹จ์ผ LLM ํ‰๊ฐ€์˜ ํŽธํ–ฅ์„ฑ์„ ์‹ค์ฆ์ ์œผ๋กœ ์ฆ๋ช…(Preference Gap ๋ฉ”ํŠธ๋ฆญ). Figure 3์€ 7๊ฐœ์˜ ๊ฐ•๋ ฅํ•œ LLM ๊ฐ„์˜ ์‹ฌ๊ฐํ•œ ํŽธํ–ฅ ์ฐจ์ด๋ฅผ ๋ณด์—ฌ์คŒ
  2. ๋†’์€ ์ธ๊ฐ„ ํ‰๊ฐ€ ์ผ๊ด€์„ฑ: ํ…์ŠคํŠธ ์š”์•ฝ ๋ฐ ๋น„์ •ํ˜• ์งˆ์˜์‘๋‹ต ๊ณผ์ œ์—์„œ PRE ๋ชจ๋ธ์ด ๋ชจ๋“  ๊ธฐ์ค€์„ (GPT-4 ํฌํ•จ)์„ ๋Šฅ๊ฐ€ํ•˜๋ฉฐ ์ธ๊ฐ„ ์„ ํ˜ธ๋„์™€ ๊ฐ€์žฅ ๋†’์€ ์ผ๊ด€์„ฑ ๋‹ฌ์„ฑ
  3. ๋น„์šฉ ํšจ์œจ์„ฑ ๋ฐ ์ผ๋ฐ˜ํ™”: ๊ณผ์ œ๋ณ„ ์žฌํ›ˆ๋ จ ๋ถˆํ•„์š”ํ•˜๊ณ  ๋‹ค์–‘ํ•œ ๊ณผ์ œ๋กœ ์‰ฝ๊ฒŒ ์ „์ด ๊ฐ€๋Šฅํ•˜์—ฌ ๊ธฐ์กด ๋ฐฉ๋ฒ• ๋Œ€๋น„ ์›”๋“ฑํ•œ ํ™•์žฅ์„ฑ ์ œ๊ณต
  4. ๊ฒฌ๊ณ ์„ฑ: ํŠน์ • ๋ชจ๋ธ ๊ตฌ์กฐ๋‚˜ LLM์— ๋Œ€ํ•œ ์˜์กด์„ฑ ์ œ๊ฑฐ๋กœ ๋” ๊ฒฌ๊ณ ํ•œ ํ‰๊ฐ€ ๊ฒฐ๊ณผ ์ƒ์„ฑ

How

Figure 1

PRE์˜ ์ „์ฒด ์•„ํ‚คํ…์ฒ˜: ์ž๊ฒฉ ์‹œํ—˜ ๋ชจ๋“ˆ, ํ‰๊ฐ€ ๋ชจ๋“ˆ, ๊ฒฐ๊ณผ ์ง‘๊ณ„ ๋ชจ๋“ˆ๋กœ ๊ตฌ์„ฑ

Figure 2

์ž๊ฒฉ ์‹œํ—˜ ๋ชจ๋“ˆ์˜ ๊ณผ์ •: ํ‰๊ฐ€ ํ›„๋ณด์ž LLM๋“ค์˜ ์‹ ๋ขฐ์„ฑ์„ ์‚ฌ์ „์— ๊ฒ€์ฆ

Originality

Limitation & Further Study

Evaluation

์ดํ‰: ๋ณธ ๋…ผ๋ฌธ์€ ํ•™์ˆ ์  ๋™๋ฃŒ ํ‰๊ฐ€ ์›๋ฆฌ๋ฅผ LLM ์ž๋™ ํ‰๊ฐ€์— ์ฐฝ์˜์ ์œผ๋กœ ๋„์ž…ํ•˜์—ฌ ๋น„์šฉ, ํŽธํ–ฅ, ์ผ๋ฐ˜ํ™” ๋ฌธ์ œ๋ฅผ ๋™์‹œ์— ํ•ด๊ฒฐํ•˜๋Š” ์‹ค์งˆ์ ์ธ ํ•ด๊ฒฐ์ฑ…์„ ์ œ์‹œํ•œ ์˜๋ฏธ ์žˆ๋Š” ์—ฐ๊ตฌ์ด๋‹ค. ๋‹ค๋งŒ ํ‰๊ฐ€ ๊ณผ์ œ์˜ ๋‹ค์–‘ํ™”์™€ ๋ฉ”์ปค๋‹ˆ์ฆ˜์˜ ์ด๋ก ์  ์‹ฌํ™”๋ฅผ ํ†ตํ•ด ์ฃผ์žฅ์˜ ๋ณดํŽธ์„ฑ์„ ๋”์šฑ ๊ฐ•ํ™”ํ•  ์—ฌ์ง€๊ฐ€ ์žˆ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Augmented Language Models: a Survey ๋…ผ๋ฌธ์€ LLM์„ ๊ธฐ๋ฐ˜์œผ๋กœ ๋‹ค์–‘ํ•œ ํ‰๊ฐ€ยท๋ณด์ • ๋ฐฉ๋ฒ•์˜ ์ด๋ก ์  ๋ฐฐ๊ฒฝ์„ ์ •๋ฆฌํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
629 ๋…ผ๋ฌธ์€ Peer Review ํ‰๊ฐ€์— ํŠนํ™”๋œ LLM ํ‰๊ฐ€๊ธฐ์ œ ์—ฐ๊ตฌ๋กœ, 860์˜ ์‚ฌ์ด๋ฒ„๋ณด์•ˆ ํ•™์ˆ ์ง€ ์ž๋™ ํ‰๊ฐ€์˜ ๊ธฐ์ˆ ์  ๋ฐฐ๊ฒฝ์ด ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
126๋ฒˆ ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜ ๋ฆฌ๋ทฐ ์ž๋™ํ™”์— ๊ด€ํ•œ ๊ธฐ๋ณธ ํ‹€๊ณผ ๋ฉ”ํŠธ๋ฆญ์„ ์ œ๊ณตํ•ด Pre ์–ดํ”„๋กœ์น˜์˜ ์ด๋ก ์  ๊ธฐ๋ฐ˜์ด ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
์ธ๊ฐ„-๋ชจ๋ธ ์ƒํ˜ธ์ž‘์šฉ ๊ธฐ๋ฐ˜ ํ”ผ๋“œ๋ฐฑ ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ ๋…ผ์˜๊ฐ€ LLM ๊ธฐ๋ฐ˜ ์ž๋™ ๋™๋ฃŒํ‰๊ฐ€ ์‹œ์Šคํ…œ์˜ ํ‰๊ฐ€ ๋ฐฉํ–ฅ์— ์ด๋ก ์ ์œผ๋กœ ๊ธฐ์—ฌํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
LLM ๊ธฐ๋ฐ˜ ๋™๋ฃŒํ‰๊ฐ€์ž ์„ ์ •๊ณผ ๋‹ค์ค‘ ํ‰๊ฐ€ ๋ชจ๋ธ ๋…ผ์˜๊ฐ€ ์‹ ๋ขฐ์„ฑ ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ์˜ ์ด๋ก ์  ๊ทผ๊ฑฐ๋กœ ํ™œ์šฉ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Pre: A peer review based large language model evaluator ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜ ๋ฆฌ๋ทฐ ํ‰๊ฐ€์˜ ๋ฐฉ๋ฒ•์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•˜์—ฌ, LLM ์ƒ์„ฑ ๋ฆฌ๋ทฐ ํƒ์ง€ ์‹œ์Šคํ…œ์˜ ์ด๋ก ์  ํ† ๋Œ€๋ฅผ ์ด๋ฃน๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Pre ํ”„๋ ˆ์ž„์›Œํฌ๋Š” ๋™๋ฃŒํ‰๊ฐ€ ๊ธฐ๋ฐ˜ LLM ํ‰๊ฐ€์ž ๊ตฌ์กฐ๋ฅผ, ORb ๋ฐ์ดํ„ฐ์…‹์€ ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ ํ‰๊ฐ€์šฉ ์‹ค์ œ ๋ฐ์ดํ„ฐ๋กœ ์ž๋™ํ™” ํ‰๊ฐ€์˜ ๋Œ€์•ˆ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
ํ•™์ˆ ์  ํ‰๊ฐ€์šฉ LLM์˜ ์„ฑ๋Šฅ ํ‰๊ฐ€์™€ ์‹ ๋ขฐ์„ฑ ๋ฌธ์ œ๋„ ๋‹ค๋ฃจ๋ฉฐ, ์‹ ๊ฒฝ๋ง ๊ธฐ๋ฐ˜ ๊ณผํ•™์  ์˜ˆ์ธก์˜ ๋ถˆํ™•์‹ค์„ฑ ์‹ ๋ขฐ์„ฑ๊ณผ ์ง์ ‘ ์—ฐ๊ฒฐ๋œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Peer review ๋ฉ”์ปค๋‹ˆ์ฆ˜์—์„œ ์˜๊ฐ์„ ์–ป์€ LLM ํ‰๊ฐ€ ๋ฐฉ์‹๊ณผ, GPT๋ฅผ ์ด์šฉํ•œ ์ž๋™ ๋ฆฌ๋ทฐ ์ƒ์„ฑ์„ ์‚ฌ์šฉํ•˜๋Š” ReviewerGPT ๋…ผ๋ฌธ์„ ๋น„๊ตํ•ด๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
629๋ฒˆ ๋…ผ๋ฌธ์€ ๋™๋ฃŒํ‰๊ฐ€ ํ‰๊ฐ€๋ฅผ ์œ„ํ•œ LLM ๊ธฐ๋ฐ˜ ์‹œ์Šคํ…œ์„ ๋‹ค๋ฃจ๋ฉฐ, 664๋ฒˆ ๋…ผ๋ฌธ์ด ์ œ์‹œํ•œ ๋…ผ๋ฌธ ๊ด€๋ จ์„ฑ ์ž๋™ ํ‰๊ฐ€์ง€ํ‘œ์™€ ๋น„๊ต๋œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋™๋ฃŒํ‰๊ฐ€(ํ”ผ์–ด๋ฆฌ๋ทฐ) ๊ณผ์ •์˜ ์ž๋™ํ™”์™€ LLM์„ ํ™œ์šฉํ•œ ํ‰๊ฐ€ ํŽธํ–ฅ ์™„ํ™” ๋ฐฉ๋ฒ•์„ ๊ฐ๊ฐ ์ œ์‹œํ•˜์—ฌ ๋น„๊ต ์—ฐ๊ตฌ์— ์œ ์šฉํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Pre: A peer review based large language model evaluator ๋…ผ๋ฌธ์€ ํ™•๋ฅ ์ /๋‹ค์ค‘ ๋ชจ๋ธ ํ‰๊ฐ€ ํ”„๋ ˆ์ž„๋ณด๋‹ค ์‹ค์ œ peer review๋ฅผ ํ†ตํ•ด ํ‰๊ฐ€ ์‹ ๋ขฐ๋„ ๋ฌธ์ œ์— ์ ‘๊ทผํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Pre: Peer Review ๊ธฐ๋ฐ˜ LLM ํ‰๊ฐ€ ๋…ผ๋ฌธ์€ ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ/๋ฉ”ํŠธ๋ฆญ์˜ ๋Œ€์•ˆ์  ์ž๋™ ํ‰๊ฐ€ ๋ฐฉ๋ฒ•๋ก ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
629๋Š” Peer Review ํ‰๊ฐ€์— ํŠนํ™”๋œ LLM ๊ธฐ๋ฐ˜ ํ‰๊ฐ€์ง€ํ‘œ๋ฅผ ๋„์ž…ํ•˜์—ฌ, 244์˜ ์ž„์ƒ ๋ฆฌ๋ทฐ ํ‰๊ฐ€ ๋ฐฉ์‹๊ณผ๋Š” ์ƒ์ดํ•œ ์ •๋Ÿ‰ํ‰๊ฐ€ ์ ‘๊ทผ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
629 ๋…ผ๋ฌธ์€ Peer Review ํ‰๊ฐ€์— ์ตœ์ ํ™”๋œ LLM ๊ธฐ๋ฐ˜ ํ‰๊ฐ€๊ธฐ์ œ๋ฅผ ์ œ์•ˆํ•˜์—ฌ, 809์˜ ๋ฆฌ๋ทฐ ํ”„๋กœ์„ธ์Šค ๊ฐ€์† ๋ฐฉ์‹๊ณผ ๋ฌธ์ œ ํ•ด๊ฒฐ์— ์ƒ์ดํ•œ ์ ‘๊ทผ์„ ์‹œ๋„ํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
629์˜ Peer Review ๊ธฐ๋ฐ˜ LLM ์„ฑ๋Šฅ ํ‰๊ฐ€์ž ๊ฐœ๋ฐœ์€ 803์˜ OpenReview ๊ธฐ๋ฐ˜ ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ•๊ณผ ์ง๊ฒฐ๋ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Supporting assessment of novelty of design problems ๋…ผ๋ฌธ์€ LLM์ด ์ƒ์„ฑํ•œ ํ”ผ์–ด ๋ฆฌ๋ทฐ๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ์‹ค์ œ ๋””์ž์ธ ๋ฌธ์ œ์—์„œ์˜ ์ถœ์ฒ˜์„ฑ ํ‰๊ฐ€ ๋“ฑ PRE์˜ ์‘์šฉ ์‚ฌ๋ก€๋ฅผ ๋ณด์—ฌ์ค€๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
LLM ํ‰๊ฐ€์ž์˜ ์ฃผ์žฅ์„ ํ’ˆ์งˆ๋กœ ํ‰๊ฐ€ํ•˜๋Š” ํ”„๋ ˆ์ž„์›Œํฌ๋Š” ๋…ผ๋ฌธ์˜ ์ฃผ์žฅ ์ถ”์ถœ ๋ฐ ํ‰๊ฐ€์™€ ๊ด€๋ จ์ด ๊นŠ์Šต๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
AI ์ƒ์„ฑ ๋ฆฌ๋ทฐ ๋ฐ LLM ํ‰๊ฐ€์ง€ํ‘œ์˜ ์‹ ๋ขฐ์„ฑ ํ‰๊ฐ€๋ฅผ ํ›„์† ์—ฐ๊ตฌ๋กœ, ๋‹ค์–‘ํ•œ ํ‰๊ฐ€์ง€ํ‘œ ๋ฐ ๊ฐœ์„  ๋ฃจํ”„ ์ œ์•ˆ์ด ๋น„์Šทํ•œ ๋ฌธ์ œ๋ฅผ ๋‹ค๋ฃน๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
LLM๊ฐ„ ์ƒํ˜ธ ํ”ผ๋“œ๋ฐฑ ํ‰๊ฐ€๋ฅผ ๋‹ค๋ฃจ๋ฉฐ, ์ธ๊ฐ„ ํ”ผ๋“œ๋ฐฑ ๊ธฐ๋ฐ˜ ์ƒํ˜ธ์ž‘์šฉ ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ์™€ AI ๊ธฐ๋ฐ˜ ํ‰๊ฐ€์ง€ํ‘œ์˜ ์ƒํ˜ธ ๋ณด์™„ ๊ด€๊ณ„๋ฅผ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
629๋ฒˆ์€ ํ”ผ์–ด๋ฆฌ๋ทฐ ์ž๋™ ํ‰๊ฐ€(based on peer review)๋ฅผ ๋‹ค๋ฃจ์–ด, 592๋ฒˆ์ด ์ƒ์„ฑํ•œ AI ์‹ฌ์‚ฌํ‰์˜ ํ’ˆ์งˆ๊ณผ ํšจ๊ณผ ์ธก์ • ๋ฐฉ๋ฒ•์— ์‹ค์งˆ์  ํ”ผ๋“œ๋ฐฑ์„ ์ œ๊ณตํ•œ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
AI๋ฅผ ํ™œ์šฉํ•œ ํ•™์ˆ  ํ‰๊ฐ€ ์ž๋™ํ™” ๋ฐฉ์•ˆ์ด AI ๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ์ƒ๋ช…์ฃผ๊ธฐ ์ž๋™ํ™” ๋…ผ์˜์™€ ์ง์ ‘ ์—ฐ๊ฒฐ๋ฉ๋‹ˆ๋‹ค.
๋ฐ˜๋ก /๋น„ํŒ
LLM ๋ฆฌ๋ทฐ ์ƒ์„ฑ ๋Šฅ๋ ฅ์˜ ํ•œ๊ณ„๋ฅผ ์ž๋™ ํ‰๊ฐ€ ๊ด€์ ์—์„œ ๋ถ„์„ํ•˜์—ฌ Pre์˜ peer review ๊ธฐ๋ฐ˜ ํ‰๊ฐ€ ๋ฐฉ์‹์˜ ํ•œ๊ณ„์™€ ๋ณด์™„์ ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •