LLMEval-Med: A Real-world Clinical Benchmark for Medical LLMs with Physician Validation

์ €์ž: Ming Zhang, Yujiong Shen, Zelin Li, Huayu Sha, Binze Hu, Yuhui Wang, Chenhao Huang, Shichun Liu, Jingqi Tong, Changhao Jiang, Mingxu Chai, Zhiheng Xi, Shihan Dou, Tao Gui, Qi Zhang, Xuanjing Huang | ๋‚ ์งœ: 2025 | DOI: - 📄 PDF


Essence

Figure 1

๋ฐ์ดํ„ฐ ์†Œ์Šค ๋ฐ LLMEval-Med์˜ ์ธ์Šคํ„ด์Šค. ์‹ค์ œ ์ž„์ƒ ๋ฐ์ดํ„ฐ์™€ ๊ณต๊ฐœ ๋ฐ์ดํ„ฐ์…‹์—์„œ ๋„์ถœ๋œ ๋ฐ์ดํ„ฐ๋ฅผ ์˜๋ฃŒ ์ „๋ฌธ๊ฐ€๋“ค์ด ์—ฌ๋Ÿฌ ์ฐจ์ˆ˜์˜ ์ •์ œ๋ฅผ ํ†ตํ•ด ์ฐธ๊ณ  ๋‹ต๋ณ€, ํ”„๋กฌํ”„ํŠธ, ํ‰๊ฐ€ ์ฒดํฌ๋ฆฌ์ŠคํŠธ๋ฅผ ์ž‘์„ฑ

๋ณธ ๋…ผ๋ฌธ์€ ์‹ค์ œ ์ „์ž์˜๋ฌด๊ธฐ๋ก(EHR)๊ณผ ์ž„์ƒ ์‹œ๋‚˜๋ฆฌ์˜ค์—์„œ ๋„์ถœ๋œ 2,996๊ฐœ ๋ฌธ์ œ๋กœ ๊ตฌ์„ฑ๋œ ์ข…ํ•ฉ์  ์˜๋ฃŒ LLM ํ‰๊ฐ€ ๋ฒค์น˜๋งˆํฌ LLMEval-Med๋ฅผ ์ œ์‹œํ•œ๋‹ค. ์˜๋ฃŒ ์ „๋ฌธ๊ฐ€ ๊ฒ€์ฆ๊ณผ ๋™์  ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ํ†ตํ•ด ์˜๋ฃŒ AI ์‹œ์Šคํ…œ์˜ ์•ˆ์ „ํ•˜๊ณ  ํšจ๊ณผ์ ์ธ ๋ฐฐํฌ๋ฅผ ์œ„ํ•œ ์‹ ๋ขฐ์„ฑ ์žˆ๋Š” ํ‰๊ฐ€ ๋„๊ตฌ๋ฅผ ์ œ๊ณตํ•œ๋‹ค.

Motivation

Achievement

Figure 2

์™ผ์ชฝ: ๊ฐœ๋ฐฉํ˜• QA(83.28%)์™€ ํ์‡„ํ˜• QA(16.72%) ๋ถ„ํฌ; ์ค‘๊ฐ„: 5๊ฐ€์ง€ ํ‰๊ฐ€ ์นดํ…Œ๊ณ ๋ฆฌ ๋ถ„ํฌ(MLU 29.27%, MSE 25.53%, MK 16.39%, MTG 16.69%, MR 12.12%); ์˜ค๋ฅธ์ชฝ: ์นดํ…Œ๊ณ ๋ฆฌ๋ณ„ ํ‰๊ท  ํ† ํฐ ๊ธธ์ด

  1. ํฌ๊ด„์  ๋ฒค์น˜๋งˆํฌ ๊ตฌ์ถ•: 5๊ฐœ ํ•ต์‹ฌ ์˜๋ฃŒ ์—ญ๋Ÿ‰(์˜๋ฃŒ ์ง€์‹, ์˜๋ฃŒ ์–ธ์–ด ์ดํ•ด, ์˜๋ฃŒ ์ถ”๋ก , ์˜๋ฃŒ ํ…์ŠคํŠธ ์ƒ์„ฑ, ์˜๋ฃŒ ์•ˆ์ „์œค๋ฆฌ)๊ณผ 27๊ฐœ ์„ธ๋ถ€ ์—ญ๋Ÿ‰ ์ง€ํ‘œ๋กœ ๊ณ„์ธตํ™”๋œ 2,996๊ฐœ ๋ฌธ์ œ ๊ฐœ๋ฐœ. ๊ฐœ๋ฐฉํ˜• ์งˆ๋ฌธ(83.28%)์ด ๋Œ€๋ถ€๋ถ„์œผ๋กœ ์‹ค์ œ ์ž„์ƒ ์ถ”๋ก  ๋Šฅ๋ ฅ ํ‰๊ฐ€ ๊ฐ•ํ™”
  2. ์‹ ๋ขฐ์„ฑ ์žˆ๋Š” ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ: ์˜๋ฃŒ ์ „๋ฌธ๊ฐ€ ๊ฐœ๋ฐœ ์ฒดํฌ๋ฆฌ์ŠคํŠธ์™€ GPT-4o ๊ฐ™์€ ์ตœ์‹  LLM์˜ ์‹ฌ์‚ฌ๊ด€(Judge) ์—ญํ• ์„ ๊ฒฐํ•ฉํ•œ ์ž๋™ํ™” ํ‰๊ฐ€ ํŒŒ์ดํ”„๋ผ์ธ ๊ตฌ์ถ•. ์ธ๊ฐ„-๊ธฐ๊ณ„ ์ผ์น˜๋„ ๋ถ„์„์„ ํ†ตํ•œ ๋™์  ์ฒดํฌ๋ฆฌ์ŠคํŠธ ์ •์ œ๋กœ ํ‰๊ฐ€ ์‹ ๋ขฐ์„ฑ ๋ณด์ฆ
  3. ์‹ค์ฆ์  ๊ฒ€์ฆ: ์˜๋ฃŒ ํŠนํ™” ๋ชจ๋ธ, ์˜คํ”ˆ์†Œ์Šค ๋ชจ๋ธ, ํ์‡„ํ˜• ๋ชจ๋ธ 13๊ฐœ LLM์— ๋Œ€ํ•œ ๊ด‘๋ฒ”์œ„ ์‹คํ—˜ ์ˆ˜ํ–‰์œผ๋กœ ์˜๋ฃŒ ๋งฅ๋ฝ์—์„œ์˜ ์ƒ๋Œ€์  ๊ฐ•์ ๊ณผ ํ•œ๊ณ„์  ๋„์ถœ

How

Figure 3

LLMEval-Med์˜ ํ‰๊ฐ€ ํ”Œ๋กœ์šฐ์ฐจํŠธ. 5๊ฐœ ํƒœ์Šคํฌ ์นดํ…Œ๊ณ ๋ฆฌ์— ๊ฑธ์นœ ํ‰๊ฐ€ ๋ฌธ์ œ ์„ค๊ณ„

Originality

Limitation & Further Study

Evaluation

์ดํ‰: LLMEval-Med๋Š” ์‹ค์ œ ์ž„์ƒ ๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜์˜ ํฌ๊ด„์  ๋ฒค์น˜๋งˆํฌ์™€ ์˜๋ฃŒ ์ „๋ฌธ๊ฐ€ ๊ฒ€์ฆ์„ ํ†ตํ•œ ์‹ ๋ขฐ์„ฑ ์žˆ๋Š” ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ๊ณตํ•จ์œผ๋กœ์จ ์˜๋ฃŒ LLM์˜ ์ž„์ƒ ๋ฐฐํฌ๋ฅผ ์œ„ํ•œ ์ค‘์š”ํ•œ ๋„๊ตฌ๋ฅผ ์ œ์‹œํ•œ๋‹ค. ํŠนํžˆ ์œค๋ฆฌยท์•ˆ์ „์„ฑ ํ‰๊ฐ€ ํ•ญ๋ชฉ์˜ ๋ช…์‹œ์  ํฌํ•จ๊ณผ ๊ฐœ๋ฐฉํ˜• ์งˆ๋ฌธ ์ค‘์‹ฌ์˜ ์„ค๊ณ„๋Š” ๊ธฐ์กด ๋ฒค์น˜๋งˆํฌ์˜ ๊ณต๋ฐฑ์„ ์˜๋ฏธ ์žˆ๊ฒŒ ๋ฉ”์šฐ๋‚˜, ๋‹จ์ผ ์–ธ์–ด๊ถŒ ๋ฒ”์œ„์™€ ์ž๋™ํ™” ํ‰๊ฐ€์˜ ๋ณต์žกํ•œ ์ž„์ƒ ํŒ๋‹จ์— ๋Œ€ํ•œ ๊ฒ€์ฆ ๊ฐ•ํ™”๊ฐ€ ํ›„์† ๊ณผ์ œ์ด๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
PubMedQA๋Š” ์‹ค์ œ ์ƒ์˜ํ•™ ๋…ผ๋ฌธ์— ๊ธฐ๋ฐ˜ํ•œ QA ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ LLMEval-Med์—์„œ ์ž„์ƒ QA ๋ฒค์น˜๋งˆํฌ ๊ตฌ์ถ•์˜ ๊ธฐ๋ณธ ์ž๋ฃŒ์™€ ๋ฌธ์ œ ์œ ํ˜•์„ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
์˜๋ฃŒ ๋ถ„์•ผ LLM์˜ ์‹ค์ œ ์ž„์ƒ ๋ฒค์น˜๋งˆํฌ์™€ ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Psyche ๋…ผ๋ฌธ์€ PACA ๊ธฐ๋ฐ˜ ์ž„์ƒ ๋Œ€ํ™” ์—์ด์ „ํŠธ ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ๋กœ, LLMEval-Med์˜ ์‹ค์ œ ์ž„์ƒ ์‹œ๋‚˜๋ฆฌ์˜ค ํ‰๊ฐ€๋ฅผ ์ด๋ก ์ ์œผ๋กœ ๋’ท๋ฐ›์นจํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
GPT-4V ๋ชจ๋ธ ๋“ฑ ์‹œ๊ฐ-์–ธ์–ด LLM์˜ ์˜๋ฃŒ ์‘์šฉ์„ ์‹ค์ œ ์ผ€์ด์Šค ๊ธฐ๋ฐ˜์œผ๋กœ ๋‹ค๋ฃจ์–ด, LLMEval-Med์˜ ์ž„์ƒ ๋ฒค์น˜๋งˆํฌ ํ‰๊ฐ€์™€ ๋น„๊ต ๊ฐ€๋Šฅํ•˜๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLMEval-Med๋Š” ์‹ค์ œ ์˜๋ฃŒ ๋„๋ฉ”์ธ์—์„œ LLM ์ฃผ์„์˜ ์ ์šฉ๊ณผ ํ•œ๊ณ„๋ฅผ ๋‹ค๋ฃจ๋ฉฐ, ChatGPT์˜ ๋ฒ”์šฉ ํ…์ŠคํŠธ ์ฃผ์„ ๋Šฅ๋ ฅ๊ณผ ๋น„๊ตํ•ด ์˜๋ฃŒ ํ˜„์žฅ ๋„๋ฉ”์ธ ํŠน์„ฑ์„ ๋ถ„์„ํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
MedAgents๋Š” ์˜๋ฃŒ ๋ถ„์•ผ์—์„œ ์ œ๋กœ์ƒท LLM ํ˜‘๋ ฅ/ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์‹œํ•˜์—ฌ LLMEval-Med์˜ ๋‹ค์–‘ํ•œ ํ‰๊ฐ€ ์ „๋žต๊ณผ ๋น„๊ต๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์˜๋ฃŒ LLM ์žฅ๋ฌธ๋งฅ ์‘๋‹ต ๋ฒค์น˜๋งˆํฌ์™€ ๋น„๊ตํ•˜์—ฌ L-CiteEval์˜ ํ‰๊ฐ€ ๋ฐฉ์‹์„ ํƒ€ ๋ถ„์•ผ์— ์ ์šฉํ•˜๋Š” ์‹œ๊ฐ์„ ์–ป์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
507์€ ์ž„์ƒ ๋ถ„์•ผ LLM์˜ ์‹ค์ œ ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ์‹œํ•˜์—ฌ, 078์˜ ๋‹ค์ค‘ ์—์ด์ „ํŠธ ๊ธฐ๋ฐ˜ ์ž„์ƒ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ์™€ ์„ฑ๋Šฅํ‰๊ฐ€ ์—ฐ๊ตฌ์™€ ์ƒํ˜ธ๋ณด์™„์ ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Biodsa-1k ๋…ผ๋ฌธ์€ ๋ฐ”์ด์˜ค๋ฉ”๋””์ปฌ ๋ฐ์ดํ„ฐ ๊ณผํ•™ ์—์ด์ „ํŠธ ํ‰๊ฐ€ ๋ฒค์น˜๋งˆํฌ๋ฅผ ๋ณ„๋„๋กœ ์ œ์•ˆํ•˜์—ฌ, ์˜๋ฃŒ LLM ํ‰๊ฐ€์™€ ๋‹ค๋ฅธ ์ธก๋ฉด์˜ ๋น„๊ต๊ฐ€ ๊ฐ€๋Šฅํ•˜๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
ClinicalGPT-R1 ๋…ผ๋ฌธ์€ ์ž„์ƒ LLM์˜ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋ฉฐ ์ง„๋‹จ ์ธ๊ณต์ง€๋Šฅ์— ํŠนํ™”๋œ ๋ฒค์น˜๋งˆํฌ ์‚ฌ๋ก€๋ฅผ ์ถ”๊ฐ€๋กœ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLMEval-Med๋Š” ์ž„์ƒ(์˜ํ•™) ํŠนํ™” LLM ํ‰๊ฐ€ ๋ฒค์น˜๋งˆํฌ๋กœ, ๋„๋ฉ”์ธ ํŠนํ™” ๊ณผํ•™ ํƒ์‚ฌ๋Šฅ๋ ฅ ํ‰๊ฐ€์˜ ๋˜๋‹ค๋ฅธ ์‚ฌ๋ก€๋ฅผ ๋ณด์—ฌ์ค€๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
507 ๋…ผ๋ฌธ์€ ์‹ค์ œ ์ž„์ƒ ํ™˜๊ฒฝ์—์„œ ๋‹ค์–‘ํ•œ ์˜๋ฃŒ LLM์„ ํ‰๊ฐ€ํ•œ ๋ฒค์น˜๋งˆํฌ ๋ฐ์ดํ„ฐ์…‹์„ ์ œ๊ณตํ•ด, 530์—์„œ ์ œ์‹œํ•œ ๋ชจ๋ธ ์„ฑ๋Šฅ ๋น„๊ต์— ๋Œ€ํ•œ ์ฐธ๊ณ ๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋‘ ๋…ผ๋ฌธ ๋ชจ๋‘ ์˜๋ฃŒ LLM/MLLM ํ‰๊ฐ€๋ฅผ ๋‹ค๋ฃจ์ง€๋งŒ, ํ•˜๋‚˜๋Š” ๋‹ค์ค‘๋ชจ๋‹ฌ3D ๊ณต๊ฐ„์ถ”๋ก , ๋‹ค๋ฅธ ํ•˜๋‚˜๋Š” ์‹ค ์ž„์ƒ QA ํ‰๊ฐ€์— ์ดˆ์ ์„ ๋‘”๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
LLMEval-Med๋Š” PubMedQA ๋ฐ์ดํ„ฐ์…‹ ๊ธฐ๋ฐ˜ ์ž„์ƒ ์‹œ๋‚˜๋ฆฌ์˜ค์—์„œ LLM ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•˜๋ฉฐ, ๊ธฐ์กด QA ๋ฐ์ดํ„ฐ์…‹์„ ์‹ค์ œ ์˜๋ฃŒ ํ™˜๊ฒฝ์œผ๋กœ ํ™•์žฅํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
์‹ค์ œ ์ž„์ƒ LLM์˜ ์„ฑ๋Šฅ ๊ฒ€์ฆ, ์ง„๋‹จ ๋ฒค์น˜๋งˆํฌ๋ฅผ ํ†ตํ•ด ClinicalGPT-R1์ด ์ง€ํ–ฅํ•˜๋Š” ์ถ”๋ก ๋ ฅ ํ–ฅ์ƒ ์‚ฌ๋ก€๋ฅผ ๊ตฌ์ฒด์ ์œผ๋กœ ๋ณด์—ฌ์ค€๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
์‹ค์ œ ์ž„์ƒํ˜„์žฅ ์˜๋ฃŒ LVLM ์˜ค๋ฅ˜ ๊ต์ •์˜ ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ๊ณตํ•ด, Pelican์˜ ํ™˜๊ฐ ๊ต์ • ์ ‘๊ทผ๋ฒ•์ด ํŠน์ˆ˜ ๋„๋ฉ”์ธ์—์„œ ์–ด๋–ป๊ฒŒ ์ ์šฉ๋˜๋Š”์ง€ ๋ณด์—ฌ์ค€๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
์˜๋ฃŒ ๋ถ„์•ผ์—์„œ LLM ๊ธฐ๋ฐ˜ ์‹ค์ œ ์ž„์ƒ ๋ฒค์น˜๋งˆํฌ ํ‰๊ฐ€ ์‚ฌ๋ก€๋ฅผ ์ œ๊ณตํ•˜์—ฌ, survey์—์„œ ์ œ์‹œ๋œ ์ด์Šˆ์˜ ์‹ค์ œ ํ˜„์žฅ ์ ์šฉ์„ ์‚ดํŽด๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
LLMEval-Med๋Š” ์ž„์ƒ ๋„๋ฉ”์ธ์—์„œ LLM์˜ ์‹ค์งˆ์  ์ „๋ฌธ ์ง€์‹ ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ ์šฉํ•˜์—ฌ introspective growth์˜ ์•„์ด๋””์–ด๋ฅผ ์˜๋ฃŒ์— ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
LLMEval-Med ๋…ผ๋ฌธ์€ ์‹ค์ œ ์ž„์ƒ ์‹œ๋‚˜๋ฆฌ์˜ค์—์„œ ์˜๋ฃŒ LLM์„ ํ‰๊ฐ€ํ•ด Psyche์˜ ํ‰๊ฐ€ ๋ฐฉ๋ฒ•๋ก ์— ์‹ค์งˆ์  ์ ์šฉ ์‚ฌ๋ก€๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •