Confidence in Large Language Model Evaluation: A Bayesian Approach to Limited-Sample Challenges

์ €์ž: Xiao Xiao, Yu-Xuan Su, Sijing Zhang, Zhan Chen, Yadong Chen | ๋‚ ์งœ: 2025 | DOI: 10.48550/arXiv.2504.21303 📄 PDF


Essence

๋ณธ ๋…ผ๋ฌธ์€ ์ œํ•œ๋œ ์ƒ˜ํ”Œ ํฌ๊ธฐ ์กฐ๊ฑด์—์„œ ๋Œ€๊ทœ๋ชจ์–ธ์–ด๋ชจ๋ธ(LLM)์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•ด ๋ฒ ์ด์ง€์•ˆ ์ถ”๋ก ์„ ํ™œ์šฉํ•œ ์ƒˆ๋กœ์šด ๋ฐฉ๋ฒ•๋ก ์„ ์ œ์‹œํ•œ๋‹ค. ์‚ฌ์ „์ง€์‹(Prior Knowledge)์„ ํ†ตํ•ฉํ•˜์—ฌ ๋ชจ๋ธ ๊ฐ„ ์ˆœ์œ„๋ฅผ ํ™•๋ฅ ์ ์œผ๋กœ ์ถ”์ •ํ•˜๋ฉฐ, ๊ฒฐ์ •๋ก ์  ๋ฉ”ํŠธ๋ฆญ์˜ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•œ๋‹ค.

Motivation

Achievement

  1. ๋ฒ ์ด์ง€์•ˆ ํ™•๋ฅ ์  ์ˆœ์œ„ ์ถ”์ •: ํ…Œ์ŠคํŠธ ๋ชจ๋ธ์ด ํŠน์ • ์•ต์ปค ๋ชจ๋ธ ์‚ฌ์ด์— ์œ„์น˜ํ•  ํ™•๋ฅ ์„ ์ •๋Ÿ‰ํ™”ํ•˜์—ฌ "๋ชจ๋ธ X๊ฐ€ ๊ธฐ์ค€์„ ์„ ๋›ฐ์–ด๋„˜์„ ํ™•๋ฅ " ๊ฐ™์€ ์‹คํ–‰๊ฐ€๋Šฅํ•œ ํ™•๋ฅ ์  ์ง„์ˆ  ์ œ๊ณต
  2. ์ƒ˜ํ”Œ ํšจ์œจ์„ฑ: 170๊ฐœ ์งˆ๋ฌธ์—์„œ 50๊ฐœ, ์ตœ์ข… 5๊ฐœ๊นŒ์ง€ ์ถ•์†Œํ–ˆ์„ ๋•Œ๋„ ํ†ต๊ณ„์  ๊ฒฌ๊ณ ์„ฑ ์œ ์ง€ - ๊ธฐ์กด ๋ฐฉ๋ฒ•๋ณด๋‹ค ํ›จ์”ฌ ์ ์€ ์ƒ˜ํ”Œ๋กœ ์‹ ๋ขฐ์„ฑ ์žˆ๋Š” ๊ตฌ๋ถ„ ๋‹ฌ์„ฑ
  3. ์‹คํ—˜ ๊ฒ€์ฆ: GPT ์‹œ๋ฆฌ์ฆˆ(3.5 Turbo, GPT-4, GPT-4o, GPT-4.5, o1, o3-mini-high) 6๊ฐœ ์•ต์ปค ๋ชจ๋ธ๊ณผ 5๊ฐœ ํ…Œ์ŠคํŠธ ๋ชจ๋ธ(Llama-4-Maverick, DeepSeek-V3 ๋“ฑ) ํ‰๊ฐ€์—์„œ ๊ธฐ์กด ๋ฐฉ๋ฒ•๊ณผ์˜ ์šฐ์›”์„ฑ ์ž…์ฆ

How

Figure 1: Anchor Model Performance

6๊ฐœ ์•ต์ปค ๋ชจ๋ธ์˜ 50๊ฐœ ํ‰๊ฐ€ ์งˆ๋ฌธ์— ๋Œ€ํ•œ ์„ฑ๊ณต๋ฅ  (๊ฐ ์งˆ๋ฌธ๋‹น O=10ํšŒ ์‹œํ–‰)

๋ฒ ์ด์ง€์•ˆ ๊ณต์‹ํ™”:

์งˆ๋ฌธ ์„ธํŠธ ๊ตฌ์„ฑ:

Originality

Limitation & Further Study

Evaluation

์ดํ‰: ๋ณธ ๋…ผ๋ฌธ์€ LLM ํ‰๊ฐ€์˜ ๊ทผ๋ณธ์  ๋„์ „(์†Œ๋Ÿ‰ ์ƒ˜ํ”Œ, ์งˆ๋ฌธ ๋‚œ์ด๋„ ํŽธ์ฐจ)์„ ๋ฒ ์ด์ง€์•ˆ ํ™•๋ฅ  ํ”„๋ ˆ์ž„์›Œํฌ๋กœ ์šฐ์•„ํ•˜๊ฒŒ ํ•ด๊ฒฐํ•œ ๊ฒฌ๊ณ ํ•œ ์—ฐ๊ตฌ๋‹ค. ์‹ค์ œ ๋ฐฐํฌ ํ™˜๊ฒฝ์—์„œ์˜ ์ ์šฉ ๊ฐ€์น˜๊ฐ€ ๋†’์œผ๋‚˜, ํ•ต์‹ฌ ๊ฐ€์ •๋“ค(๋…๋ฆฝ์„ฑ, ์„ ํ˜•์„ฑ, ๊ตฌ๊ฐ„ ๊ท ๋“ฑ์„ฑ)์— ๋Œ€ํ•œ ๊ฒฝํ—˜์  ๊ฒ€์ฆ์ด ๋” ํ•„์š”ํ•˜๋ฉฐ ๋” ๋‹ค์–‘ํ•œ ๋ชจ๋ธ ๊ณ„์—ด๊ณผ์˜ ๊ต์ฐจ ๊ฒ€์ฆ์„ ํ†ตํ•ด ์ผ๋ฐ˜ํ™” ๊ฐ€๋Šฅ์„ฑ์„ ํ™•์ธํ•ด์•ผ ํ•œ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
SciTrust ๋…ผ๋ฌธ์€ ํ‰๊ฐ€ ์‹ ๋ขฐ์„ฑ, ๋ถˆํ™•์‹ค์„ฑ ๋“ฑ LLM ํ‰๊ฐ€์˜ ๊ทผ๋ณธ์  ํ•œ๊ณ„๋ฅผ ์ฒด๊ณ„์ ์œผ๋กœ ๋ถ„์„ํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
346์€ ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ ๊ธฐ๋ฐ˜์˜ ๋ฐ์ดํ„ฐ ํšจ์œจ์  ํ™œ์„ฑ ํ•™์Šต ๋ฒค์น˜๋งˆํฌ ๋ฐ ๋ฒ ์ด์ง€์•ˆ ํ‰๊ฐ€๋ฅผ ๋‹ค๋ค„, 237์˜ ๋ฒ ์ด์ง€์•ˆ ๊ธฐ๋ฐ˜ ์„ฑ๋Šฅ ํ‰๊ฐ€ ๋ฐฉ์‹๊ณผ ์ง์ ‘์ ์œผ๋กœ ์—ฐ๊ฒฐ๋œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Pre: A peer review based large language model evaluator ๋…ผ๋ฌธ์€ ํ™•๋ฅ ์ /๋‹ค์ค‘ ๋ชจ๋ธ ํ‰๊ฐ€ ํ”„๋ ˆ์ž„๋ณด๋‹ค ์‹ค์ œ peer review๋ฅผ ํ†ตํ•ด ํ‰๊ฐ€ ์‹ ๋ขฐ๋„ ๋ฌธ์ œ์— ์ ‘๊ทผํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
AI๊ฐ€ ๊ณผํ•™ ์—ฐ๊ตฌ ์ง€์›์—์„œ ํ‰๊ฐ€, ์‹ ๋ขฐ, ์–ด์‹œ์Šคํ„ดํŠธ ์—ญํ• ์„ ์ข…ํ•ฉ์ ์œผ๋กœ ์ ๊ฒ€ํ•˜๋Š” ๋ฐฉ๋ฒ•๋ก  ๋…ผ๋ฌธ์ž…๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
๋ฒ ์ด์ง€์•ˆ ์ ‘๊ทผ๋ฒ•์„ ํ†ตํ•œ ์‹ ๋ขฐ๋„ ํ‰๊ฐ€๋ผ๋Š” ์ž๋™ ํ‰๊ฐ€ ์ง€ํ‘œ ์—ฐ๊ตฌ์˜ ๋ฐœ์ „ ๋ฐฉํ–ฅ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
๋ฐ˜๋ก /๋น„ํŒ
745๋Š” ์‹คํ—˜์  ์žฌํ˜„์„ฑ ๋ฐ ์‹ ๋ขฐ๋„ ํ•œ๊ณ„๋ฅผ ์‹ค์ œ LLM ๊ธฐ๋ฐ˜ ์ž์œจ์  ์‹คํ—˜ ํ™˜๊ฒฝ์—์„œ ๋…ผ์˜ํ•˜์—ฌ, 237์˜ 'ํ™•๋ฅ ์  ํ‰๊ฐ€'์™€ '์‹ค์ œ์  ์‹ ๋ขฐ๋„'๋ฅผ ์ƒํ˜ธ ๋น„ํŒ์ ์œผ๋กœ ๋…ผ์˜ํ•  ์ˆ˜ ์žˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •