์ ์: Ran Xu, Yuchen Zhuang, Yishan Zhong, Yue Yu, Zifeng Wang, Xiangru Tang, Hang Wu, May D. Wang, Peifeng Ruan, Donghan Yang, Tao Wang, Guanghua Xiao, Xin Liu, Carl Yang, Yang Xie, Wenqi Shi | ๋ ์ง: 2025-06-04 | DOI: ๋ฏธ์ ๊ณต 📄 PDF
Essence
Figure 1: (a) MedAgentGym์ ๊ณผ์ ๋ณ ์ฑ๋ฅ๊ณผ (b) ์ ์ฒด ๋ฆฌ๋๋ณด๋ ํ๊ฐ. ์์ฉ LLM๊ณผ ์คํ์์ค LLM ๊ฐ ์๋นํ ์ฑ๋ฅ ๊ฒฉ์ฐจ๋ฅผ ์๊ฐํํจ
๋ณธ ๋
ผ๋ฌธ์ ์์ํ ๋ฐ์ดํฐ ๊ณผํ(biomedical data science)์์ ์ฝ๋ ๊ธฐ๋ฐ ์ถ๋ก ๋ฅ๋ ฅ์ ๊ฐํํ๊ธฐ ์ํ ํ์ฅ ๊ฐ๋ฅํ LLM ์์ด์ ํธ ํ๋ จ ํ๊ฒฝ์ธ MedAgentGym์ ์ ์ํ๋ค. 72,413๊ฐ์ ๊ณผ์ ์ธ์คํด์ค์ ์คํ ๊ฐ๋ฅํ ์๋๋ฐ์ค ํ๊ฒฝ์ ํตํด ์คํ์์ค LLM๋ค์ ์์ํ ์ฝ๋ฉ ์ญ๋์ ๋ํญ ํฅ์์ํฌ ์ ์์์ ์
์ฆํ๋ค.
How
Figure 2: MedAgentGym์ ์ ์ฒด ๊ตฌ์กฐ. ์ข
ํฉ์ ์ฝ๋ ๊ธฐ๋ฐ ์์ํ ์ถ๋ก ๊ณผ์ ๋ฅผ ํฌํจ
๋ฐ์ดํฐ ๊ตฌ์ฑ ๋ฐ ํตํฉ ๋ฒค์น๋งํฌ:
- MIMIC-III(9๊ฐ ๋ฒ์ฃผ, 10,440๊ฐ ์ธ์คํด์ค), eICU(9๊ฐ ๋ฒ์ฃผ, 6,824๊ฐ), TREQS(4๊ฐ ๋ฒ์ฃผ, 9,984๊ฐ) ๋ฑ 8๊ฐ ์ฃผ์ ๋ฐ์ดํฐ์์ค์ MedAgentGym ๋ด๋ถ ๋ฐ์ดํฐ(113๊ฐ ๋ฒ์ฃผ, 40,142๊ฐ) ํตํฉ
- ์ธ๋ถ ๊ฒ์ฆ์ ์ํด EHR-SeqSQL, EHRCon, MIMIC-Extract, N-PowerAI ๋ฐ์ดํฐ์
ํฌํจ (์ด 16๊ฐ ๋ฒ์ฃผ, 32,271๊ฐ ์ธ์คํด์ค)
- 59.2K ํ๋ จ ์ธํธ, 13.2K ํ
์คํธ ์ธํธ, 6.7K ํ๋ จ ๊ถค์ ์ผ๋ก ๊ตฌ์ฑ
์คํ ๊ฐ๋ฅํ ๊ฒฉ๋ฆฌ ํ๊ฒฝ:
- ๊ฐ ๊ณผ์ ๋ฅผ ๋
๋ฆฝ์ ์ธ Docker ์ปจํ
์ด๋๋ก ์บก์ํํ์ฌ ์ฌํ์ฑ๊ณผ ๋ณด์ ๋ณด์ฅ
- ์ฌ์ ์ค์น๋ ์์ํ ๋ผ์ด๋ธ๋ฌ๋ฆฌ(pandas, scikit-learn, BioPython ๋ฑ) ํฌํจ
- ๋ฉํฐ์ค๋ ๋ ๋ณ๋ ฌ ์คํ ๋ฐ ์์ฐจ ์ํ๋ง ์ง์์ผ๋ก ํจ์จ์ ์ธ ๊ถค์ ์์ง ๊ฐ๋ฅ
๋ํํ ํผ๋๋ฐฑ ๋ฉ์ปค๋์ฆ:
- ์์ด์ ํธ์ ์ฝ๋ ์คํ ๊ฒฐ๊ณผ์ ๋ํ ์ค์๊ฐ ํผ๋๋ฐฑ ์ ๊ณต
- ์ฑ๊ณต ๊ถค์ (y^(i) = y)๊ณผ ์คํจ ๊ถค์ (y^(i) โ y, ์๋ฌ ๋ฉ์์ง ํฌํจ) ๋ชจ๋๋ฅผ ํ์ต ์ ํธ๋ก ํ์ฉ
- ๋จ์ผ ํด(single-turn)๊ณผ ๋ค์ค ํด(multi-turn) ๊ถค์ ๋ชจ๋ ์ง์
๊ฐํํ์ต ๊ธฐ๋ฐ ํ๋ จ:
- ์คํ๋ผ์ธ RL: ์์ง๋ ๊ถค์ ์ผ๋ก๋ถํฐ ๊ธฐ์กด ๋ชจ๋ธ์ ์ฑ๋ฅ ๊ฐ์
- ์จ๋ผ์ธ RL: ํ๊ฒฝ๊ณผ์ ์ํธ์์ฉ์ ํตํ ์ค์๊ฐ ์์ด์ ํธ ํ์ต
- DPO(Direct Preference Optimization) ๋ฐ PPO(Proximal Policy Optimization) ๊ฐ์ ๋ค์ํ RL ์๊ณ ๋ฆฌ์ฆ ์ง์
์ฑ๋ฅ ๊ฒ์ฆ:
- ์ฝ๋ ์คํ ๊ฒฐ๊ณผ e: C ร Y โ {0,1}๋ฅผ ํตํ ๊ฐ๊ด์ ์ ๋ต ๊ฒ์ฆ
- ๊ณผ์ ๋ณ ๋ฉํธ๋ฆญ(F1, accuracy ๋ฑ)๊ณผ ์ ์ฒด ์ฑ๋ฅ ์ ์ ๊ณ์ฐ
Evaluation
์ดํ: MedAgentGym์ ์์ํ ๋ฐ์ดํฐ ๊ณผํ ๋ถ์ผ์์ ์ฝ๋ ๊ธฐ๋ฐ ์ถ๋ก ์ ์ํ ์ต์ด์ ํฌ๊ด์ ์ด๊ณ ์คํ ๊ฐ๋ฅํ ํ๋ จ ํ๊ฒฝ์ผ๋ก, ๋๊ท๋ชจ ํตํฉ ๋ฒค์น๋งํฌ, ํจ๊ณผ์ ์ธ RL ํ๋ จ ๋ฐฉ๋ฒ๋ก , ๊ทธ๋ฆฌ๊ณ ๊ณต๊ฐ๋ ๋ฆฌ์์ค๋ฅผ ํตํด ์คํ์์ค LLM์ ์๋ฃ ๋๋ฉ์ธ ์ ์์
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
PubMedQA๋ ์์ํ QA ๋ถ์ผ์ ํต์ฌ ๋ฐ์ดํฐ์
์ผ๋ก, MedAgentGym์ ์ฝ๋ ๊ธฐ๋ฐ ์ถ๋ก ํ๊ฐ์ ๋ฐฐ๊ฒฝ ์ ๋ณด๋ฅผ ์ ๊ณตํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Researchtown(673)์ ์ฐ๊ตฌ ์ปค๋ฎค๋ํฐ ์๋ฎฌ๋ ์ด์
๋ฐ ํ๊ฐ ๋ฉ์ปค๋์ฆ์ ์ ๊ณตํด, ํ์ฅํ ์์ด์ ํธ ํ๋ จ ํ๊ฒฝ ์ค๊ณ์ ์ฌํ์ ํ๋ ์์ํฌ๊ฐ ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
MLAgentBench ๋
ผ๋ฌธ์ ํ์ผ ๊ธฐ๋ฐ ๊ณผ์ ์์ LLM ์์ด์ ํธ์ ํ์ต ๋ฐ ๋ฒค์น๋งํน ํ๋ ์์ํฌ๋ฅผ ์ ์ํ์ฌ, MedAgentGym๊ณผ ์ฝ๋์ค์ฌ ๊ณผ์ ์์ ๋น๊ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
์๋ฃ ํนํ ์ธ์ด ๋ชจ๋ธ ๊ฐ๋ฐ์์ ์ ์ฌํ ๋ชฉํ๋ฅผ ๋ค๋ฅธ ์ ๊ทผ๋ฒ์ผ๋ก ๋ฌ์ฑํ๋ ๋์์ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
528์ MedAgentGym์ ์์ํ ๋ฐ์ดํฐ ๊ณผํ, 294์ DSBench๋ ์ผ๋ฐ ๋ฐ์ดํฐ ๊ณผํ ์์ด์ ํธ ํ๊ฐ๋ก ๊ฐ๊ฐ LLM ์์ด์ ํธ ํ๋ จ ๋ฐ ์ฑ๋ฅ ํ๊ฐ ๋ฐฉํฅ์ด ๋ค๋ฆ
๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
ScholarChemQA(701)๋ ์์ํ ๋ฐ์ดํฐ ๊ณผํ ์์ญ์ QA ๋ฒค์น๋งํฌ๋ก, MedAgentGym์ด ๋ค๋ฃจ๋ ์ฝ๋ ์ค์ฌ ์คํ ํ๊ฒฝ๊ณผ ๋ณ๊ฐ๋ก ์ฃผ์ reference๊ฐ ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM์ ๋ค์ํ ๋๋ฉ์ธ์์์ ์ฑ๋ฅ๊ณผ ํ๊ณ๋ฅผ ํ๊ฐํ๋ ๊ด๋ จ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
์๋ฃ ์๋ฎฌ๋ ์ด์
๋๋ ์๋ฃ AI ์์ด์ ํธ๋ฅผ ๋ค๋ฅธ ๋ฐฉ์์ผ๋ก ์ ๊ทผํ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
MLGym์ ์ฝ๋ฉ๊ณผ AI ์ฐ๊ตฌ ๋ฌธ์ ์ ํนํ๋ LLM ์์ด์ ํธ ํ๊ฐยทํ๋ จ ํ๋ซํผ์ผ๋ก, MedAgentGym๊ณผ ๋ค๋ฅธ ๋ฐ์ดํฐ์
๊ณผ ๋ฒค์น๋งํฌ๋ก ์ ๊ทผํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
528 ๋
ผ๋ฌธ์ LLM ๊ธฐ๋ฐ ๋ฉํฐ์์ด์ ํธ์ ์ค์ ๊ณผ์
์ํ๋ฅ๋ ฅ(ํนํ ์ฝ๋ํ)์ ์ ๋ ํ๊ฐํ์ฌ, ์ค์ ์ฌ์ฉ ํํฉ ์ฐ๊ตฌ์ ์์ด์ ํธ ์ฑ๋ฅ์ ์ฐจ์ด๋ฅผ ์ดํดํ ์ ์์ต๋๋ค.
ํ์ ์ฐ๊ตฌ
์๋ฃ ์ฝ๋ฉ ๋ฐ ์ง๋จ ์ฝ๋ฉ์์์ LLM ๊ธฐ๋ฐ ์์ด์ ํธ ํ๋ ฅ ํ๊ฒฝ์ด ์ค์ ์์์ ๋คํ์ ํ๋ ฅ ํ๋ ์์ํฌ ์ ์ฉ ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์ค๋๋ค.
ํ์ ์ฐ๊ตฌ
545์ MLE-bench๋ ๊ธฐ๊ณํ์ต ์ฐ๊ตฌ๋ก ๋ฒ์๋ฅผ ํ์ฅํ์ฌ, 528์ ์์ํ ๋ฐ์ดํฐ ๊ณผํ ํนํ ํ๋ จ ํ๊ฒฝ์ ๋ ๋์ ๋ฌธ์ ๋ก ํ์ฅํฉ๋๋ค.
์์ฉ ์ฌ๋ก
AAAR-1.0 ๋
ผ๋ฌธ์ AI๊ฐ ๊ณผํ ์ฐ๊ตฌ ์ง์์ ์ด๋ป๊ฒ ํ์ฉ๋ ์ ์๋์ง ์ค์ ์ ์ฉ ์ฌ๋ก๋ฅผ ๋ค๋ฃจ๋ฏ๋ก, MedAgentGym์ agentic ํ๋ซํผ ํ์ฉ ํ์ฅ ๋
ผ์์ ๋์์ด ๋๋ค.
์์ฉ ์ฌ๋ก
AMDAT ๋
ผ๋ฌธ์ ์คํ์์ค ๋ถ์๋์ญํ ๋ถ์์ ํตํ ์ฝ๋ ์ค์ฌ ๋ฌธ์ ๋ฅผ ๋ค๋ฃจ๋ฉฐ, ์ค๋ฌผ ์๋๋ฐ์ค ํ๊ฒฝ์์ LLM ํ๊ฐ์ ์์ฉ ์์๊ฐ ๋๋ค.