์ ์: Ming Zhang, Yujiong Shen, Zelin Li, Huayu Sha, Binze Hu, Yuhui Wang, Chenhao Huang, Shichun Liu, Jingqi Tong, Changhao Jiang, Mingxu Chai, Zhiheng Xi, Shihan Dou, Tao Gui, Qi Zhang, Xuanjing Huang | ๋ ์ง: 2025 | DOI: - 📄 PDF
Essence
๋ฐ์ดํฐ ์์ค ๋ฐ LLMEval-Med์ ์ธ์คํด์ค. ์ค์ ์์ ๋ฐ์ดํฐ์ ๊ณต๊ฐ ๋ฐ์ดํฐ์
์์ ๋์ถ๋ ๋ฐ์ดํฐ๋ฅผ ์๋ฃ ์ ๋ฌธ๊ฐ๋ค์ด ์ฌ๋ฌ ์ฐจ์์ ์ ์ ๋ฅผ ํตํด ์ฐธ๊ณ ๋ต๋ณ, ํ๋กฌํํธ, ํ๊ฐ ์ฒดํฌ๋ฆฌ์คํธ๋ฅผ ์์ฑ
๋ณธ ๋
ผ๋ฌธ์ ์ค์ ์ ์์๋ฌด๊ธฐ๋ก(EHR)๊ณผ ์์ ์๋๋ฆฌ์ค์์ ๋์ถ๋ 2,996๊ฐ ๋ฌธ์ ๋ก ๊ตฌ์ฑ๋ ์ข
ํฉ์ ์๋ฃ LLM ํ๊ฐ ๋ฒค์น๋งํฌ LLMEval-Med๋ฅผ ์ ์ํ๋ค. ์๋ฃ ์ ๋ฌธ๊ฐ ๊ฒ์ฆ๊ณผ ๋์ ํ๊ฐ ํ๋ ์์ํฌ๋ฅผ ํตํด ์๋ฃ AI ์์คํ
์ ์์ ํ๊ณ ํจ๊ณผ์ ์ธ ๋ฐฐํฌ๋ฅผ ์ํ ์ ๋ขฐ์ฑ ์๋ ํ๊ฐ ๋๊ตฌ๋ฅผ ์ ๊ณตํ๋ค.
Evaluation
์ดํ: LLMEval-Med๋ ์ค์ ์์ ๋ฐ์ดํฐ ๊ธฐ๋ฐ์ ํฌ๊ด์ ๋ฒค์น๋งํฌ์ ์๋ฃ ์ ๋ฌธ๊ฐ ๊ฒ์ฆ์ ํตํ ์ ๋ขฐ์ฑ ์๋ ํ๊ฐ ํ๋ ์์ํฌ๋ฅผ ์ ๊ณตํจ์ผ๋ก์จ ์๋ฃ LLM์ ์์ ๋ฐฐํฌ๋ฅผ ์ํ ์ค์ํ ๋๊ตฌ๋ฅผ ์ ์ํ๋ค. ํนํ ์ค๋ฆฌยท์์ ์ฑ ํ๊ฐ ํญ๋ชฉ์ ๋ช
์์ ํฌํจ๊ณผ ๊ฐ๋ฐฉํ ์ง๋ฌธ ์ค์ฌ์ ์ค๊ณ๋ ๊ธฐ์กด ๋ฒค์น๋งํฌ์ ๊ณต๋ฐฑ์ ์๋ฏธ ์๊ฒ ๋ฉ์ฐ๋, ๋จ์ผ ์ธ์ด๊ถ ๋ฒ์์ ์๋ํ ํ๊ฐ์ ๋ณต์กํ ์์ ํ๋จ์ ๋ํ ๊ฒ์ฆ ๊ฐํ๊ฐ ํ์ ๊ณผ์ ์ด๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
PubMedQA๋ ์ค์ ์์ํ ๋
ผ๋ฌธ์ ๊ธฐ๋ฐํ QA ๋ฐ์ดํฐ์
์ผ๋ก LLMEval-Med์์ ์์ QA ๋ฒค์น๋งํฌ ๊ตฌ์ถ์ ๊ธฐ๋ณธ ์๋ฃ์ ๋ฌธ์ ์ ํ์ ์ ๊ณตํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
์๋ฃ ๋ถ์ผ LLM์ ์ค์ ์์ ๋ฒค์น๋งํฌ์ ํ๊ฐ ํ๋ ์์ํฌ๋ฅผ ์ ๊ณตํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Psyche ๋
ผ๋ฌธ์ PACA ๊ธฐ๋ฐ ์์ ๋ํ ์์ด์ ํธ ํ๊ฐ ํ๋ ์์ํฌ๋ก, LLMEval-Med์ ์ค์ ์์ ์๋๋ฆฌ์ค ํ๊ฐ๋ฅผ ์ด๋ก ์ ์ผ๋ก ๋ท๋ฐ์นจํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
GPT-4V ๋ชจ๋ธ ๋ฑ ์๊ฐ-์ธ์ด LLM์ ์๋ฃ ์์ฉ์ ์ค์ ์ผ์ด์ค ๊ธฐ๋ฐ์ผ๋ก ๋ค๋ฃจ์ด, LLMEval-Med์ ์์ ๋ฒค์น๋งํฌ ํ๊ฐ์ ๋น๊ต ๊ฐ๋ฅํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLMEval-Med๋ ์ค์ ์๋ฃ ๋๋ฉ์ธ์์ LLM ์ฃผ์์ ์ ์ฉ๊ณผ ํ๊ณ๋ฅผ ๋ค๋ฃจ๋ฉฐ, ChatGPT์ ๋ฒ์ฉ ํ
์คํธ ์ฃผ์ ๋ฅ๋ ฅ๊ณผ ๋น๊ตํด ์๋ฃ ํ์ฅ ๋๋ฉ์ธ ํน์ฑ์ ๋ถ์ํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
MedAgents๋ ์๋ฃ ๋ถ์ผ์์ ์ ๋ก์ท LLM ํ๋ ฅ/ํ๊ฐ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ์ฌ LLMEval-Med์ ๋ค์ํ ํ๊ฐ ์ ๋ต๊ณผ ๋น๊ต๋ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
์๋ฃ LLM ์ฅ๋ฌธ๋งฅ ์๋ต ๋ฒค์น๋งํฌ์ ๋น๊ตํ์ฌ L-CiteEval์ ํ๊ฐ ๋ฐฉ์์ ํ ๋ถ์ผ์ ์ ์ฉํ๋ ์๊ฐ์ ์ป์ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
507์ ์์ ๋ถ์ผ LLM์ ์ค์ ๋ฒค์น๋งํฌ๋ฅผ ์ ์ํ์ฌ, 078์ ๋ค์ค ์์ด์ ํธ ๊ธฐ๋ฐ ์์ ์๋ฎฌ๋ ์ดํฐ์ ์ฑ๋ฅํ๊ฐ ์ฐ๊ตฌ์ ์ํธ๋ณด์์ ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
Biodsa-1k ๋
ผ๋ฌธ์ ๋ฐ์ด์ค๋ฉ๋์ปฌ ๋ฐ์ดํฐ ๊ณผํ ์์ด์ ํธ ํ๊ฐ ๋ฒค์น๋งํฌ๋ฅผ ๋ณ๋๋ก ์ ์ํ์ฌ, ์๋ฃ LLM ํ๊ฐ์ ๋ค๋ฅธ ์ธก๋ฉด์ ๋น๊ต๊ฐ ๊ฐ๋ฅํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
ClinicalGPT-R1 ๋
ผ๋ฌธ์ ์์ LLM์ ์ถ๋ก ๋ฅ๋ ฅ์ ํ๊ฐํ๋ฉฐ ์ง๋จ ์ธ๊ณต์ง๋ฅ์ ํนํ๋ ๋ฒค์น๋งํฌ ์ฌ๋ก๋ฅผ ์ถ๊ฐ๋ก ์ ๊ณตํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLMEval-Med๋ ์์(์ํ) ํนํ LLM ํ๊ฐ ๋ฒค์น๋งํฌ๋ก, ๋๋ฉ์ธ ํนํ ๊ณผํ ํ์ฌ๋ฅ๋ ฅ ํ๊ฐ์ ๋๋ค๋ฅธ ์ฌ๋ก๋ฅผ ๋ณด์ฌ์ค๋ค.
๋ค๋ฅธ ์ ๊ทผ
507 ๋
ผ๋ฌธ์ ์ค์ ์์ ํ๊ฒฝ์์ ๋ค์ํ ์๋ฃ LLM์ ํ๊ฐํ ๋ฒค์น๋งํฌ ๋ฐ์ดํฐ์
์ ์ ๊ณตํด, 530์์ ์ ์ํ ๋ชจ๋ธ ์ฑ๋ฅ ๋น๊ต์ ๋ํ ์ฐธ๊ณ ๊ฐ ๋ฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋ ๋
ผ๋ฌธ ๋ชจ๋ ์๋ฃ LLM/MLLM ํ๊ฐ๋ฅผ ๋ค๋ฃจ์ง๋ง, ํ๋๋ ๋ค์ค๋ชจ๋ฌ3D ๊ณต๊ฐ์ถ๋ก , ๋ค๋ฅธ ํ๋๋ ์ค ์์ QA ํ๊ฐ์ ์ด์ ์ ๋๋ค.
ํ์ ์ฐ๊ตฌ
LLMEval-Med๋ PubMedQA ๋ฐ์ดํฐ์
๊ธฐ๋ฐ ์์ ์๋๋ฆฌ์ค์์ LLM ์ฑ๋ฅ์ ํ๊ฐํ๋ฉฐ, ๊ธฐ์กด QA ๋ฐ์ดํฐ์
์ ์ค์ ์๋ฃ ํ๊ฒฝ์ผ๋ก ํ์ฅํ๋ค.
ํ์ ์ฐ๊ตฌ
์ค์ ์์ LLM์ ์ฑ๋ฅ ๊ฒ์ฆ, ์ง๋จ ๋ฒค์น๋งํฌ๋ฅผ ํตํด ClinicalGPT-R1์ด ์งํฅํ๋ ์ถ๋ก ๋ ฅ ํฅ์ ์ฌ๋ก๋ฅผ ๊ตฌ์ฒด์ ์ผ๋ก ๋ณด์ฌ์ค๋ค.
์์ฉ ์ฌ๋ก
์ค์ ์์ํ์ฅ ์๋ฃ LVLM ์ค๋ฅ ๊ต์ ์ ๋ฒค์น๋งํฌ๋ฅผ ์ ๊ณตํด, Pelican์ ํ๊ฐ ๊ต์ ์ ๊ทผ๋ฒ์ด ํน์ ๋๋ฉ์ธ์์ ์ด๋ป๊ฒ ์ ์ฉ๋๋์ง ๋ณด์ฌ์ค๋ค.
์์ฉ ์ฌ๋ก
์๋ฃ ๋ถ์ผ์์ LLM ๊ธฐ๋ฐ ์ค์ ์์ ๋ฒค์น๋งํฌ ํ๊ฐ ์ฌ๋ก๋ฅผ ์ ๊ณตํ์ฌ, survey์์ ์ ์๋ ์ด์์ ์ค์ ํ์ฅ ์ ์ฉ์ ์ดํด๋ณผ ์ ์์ต๋๋ค.
์์ฉ ์ฌ๋ก
LLMEval-Med๋ ์์ ๋๋ฉ์ธ์์ LLM์ ์ค์ง์ ์ ๋ฌธ ์ง์ ํ๊ฐ ํ๋ ์์ํฌ๋ฅผ ์ ์ฉํ์ฌ introspective growth์ ์์ด๋์ด๋ฅผ ์๋ฃ์ ํ์ฅํฉ๋๋ค.
์์ฉ ์ฌ๋ก
LLMEval-Med ๋
ผ๋ฌธ์ ์ค์ ์์ ์๋๋ฆฌ์ค์์ ์๋ฃ LLM์ ํ๊ฐํด Psyche์ ํ๊ฐ ๋ฐฉ๋ฒ๋ก ์ ์ค์ง์ ์ ์ฉ ์ฌ๋ก๋ฅผ ์ ๊ณตํฉ๋๋ค.