MedAgentGym: A Scalable Agentic Training Environment for Code-Centric Reasoning in Biomedical Data Science

์ €์ž: Ran Xu, Yuchen Zhuang, Yishan Zhong, Yue Yu, Zifeng Wang, Xiangru Tang, Hang Wu, May D. Wang, Peifeng Ruan, Donghan Yang, Tao Wang, Guanghua Xiao, Xin Liu, Carl Yang, Yang Xie, Wenqi Shi | ๋‚ ์งœ: 2025-06-04 | DOI: ๋ฏธ์ œ๊ณต 📄 PDF


Essence

Figure 1

Figure 1: (a) MedAgentGym์˜ ๊ณผ์ œ๋ณ„ ์„ฑ๋Šฅ๊ณผ (b) ์ „์ฒด ๋ฆฌ๋”๋ณด๋“œ ํ‰๊ฐ€. ์ƒ์šฉ LLM๊ณผ ์˜คํ”ˆ์†Œ์Šค LLM ๊ฐ„ ์ƒ๋‹นํ•œ ์„ฑ๋Šฅ ๊ฒฉ์ฐจ๋ฅผ ์‹œ๊ฐํ™”ํ•จ

๋ณธ ๋…ผ๋ฌธ์€ ์ƒ์˜ํ•™ ๋ฐ์ดํ„ฐ ๊ณผํ•™(biomedical data science)์—์„œ ์ฝ”๋“œ ๊ธฐ๋ฐ˜ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ๊ฐ•ํ™”ํ•˜๊ธฐ ์œ„ํ•œ ํ™•์žฅ ๊ฐ€๋Šฅํ•œ LLM ์—์ด์ „ํŠธ ํ›ˆ๋ จ ํ™˜๊ฒฝ์ธ MedAgentGym์„ ์ œ์‹œํ•œ๋‹ค. 72,413๊ฐœ์˜ ๊ณผ์ œ ์ธ์Šคํ„ด์Šค์™€ ์‹คํ–‰ ๊ฐ€๋Šฅํ•œ ์ƒŒ๋“œ๋ฐ•์Šค ํ™˜๊ฒฝ์„ ํ†ตํ•ด ์˜คํ”ˆ์†Œ์Šค LLM๋“ค์˜ ์ƒ์˜ํ•™ ์ฝ”๋”ฉ ์—ญ๋Ÿ‰์„ ๋Œ€ํญ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ์Œ์„ ์ž…์ฆํ•œ๋‹ค.

Motivation

Achievement

Figure 1b

Figure 1b: MedAgentGym์˜ ์ „์ฒด ์ ์ˆ˜ ๋ฆฌ๋”๋ณด๋“œ. ์˜คํ”ˆ์†Œ์Šค์™€ ์ƒ์šฉ LLM ๊ฐ„์˜ ์ƒ๋‹นํ•œ ์„ฑ๋Šฅ ๊ฒฉ์ฐจ ์‹œ๊ฐํ™”

  1. ๋Œ€๊ทœ๋ชจ ์ƒ์˜ํ•™ ์ฝ”๋”ฉ ๋ฒค์น˜๋งˆํฌ ๊ตฌ์ถ•: 12๊ฐœ ์‹ค์ œ ๋ฐ์ดํ„ฐ์†Œ์Šค(MIMIC-III, eICU, TREQS ๋“ฑ)์—์„œ ํŒŒ์ƒ๋œ 72,413๊ฐœ์˜ ๊ณผ์ œ ์ธ์Šคํ„ด์Šค๋ฅผ ์ •์ˆ˜ํ™”. 129๊ฐœ ๋ฒ”์ฃผ์— ๊ฑธ์ณ ๋ฐ์ดํ„ฐ๋ฒ ์ด์Šค ์ฟผ๋ฆฌ, ์˜๋ฃŒ ๊ณ„์‚ฐ, ์ƒ๋ฌผ์ •๋ณดํ•™, ๊ธฐ๊ณ„ํ•™์Šต ๋ชจ๋ธ๋ง ๋“ฑ์„ ํฌํ•จํ•˜๋Š” ํฌ๊ด„์  ๋ฒ”์œ„๋ฅผ ์ œ๊ณต.
  2. 29๊ฐœ LLM ์ข…ํ•ฉ ๋ฒค์น˜๋งˆํ‚น: ์ƒ์šฉ LLM(gpt-4o, gpt-4.1 ๋“ฑ)๊ณผ ์˜คํ”ˆ์†Œ์Šค LLM(Qwen, Llama, DeepSeek ๋“ฑ) ๊ฐ„์˜ ์ƒ์˜ํ•™ ๋ฐ์ดํ„ฐ ๊ณผํ•™ ๋Šฅ๋ ฅ์—์„œ ์ƒ๋‹นํ•œ ์„ฑ๋Šฅ ๊ฒฉ์ฐจ๋ฅผ ์ •๋Ÿ‰ํ™”. ํŠนํžˆ ์ƒ์˜ํ•™ ์†Œํ”„ํŠธ์›จ์–ด ์—”์ง€๋‹ˆ์–ด๋ง๊ณผ ์˜ˆ์ธก ๋ชจ๋ธ๋ง์—์„œ ์ฐจ์ด๊ฐ€ ๊ฐ€์žฅ ํผ.
  3. ํšจ๊ณผ์ ์ธ ๊ฐ•ํ™”ํ•™์Šต ๊ธฐ๋ฐ˜ ํ›ˆ๋ จ: Med-Copilot ์—์ด์ „ํŠธ๊ฐ€ ์˜คํ”„๋ผ์ธ ๊ฐ•ํ™”ํ•™์Šต(offline RL)์—์„œ +43.02%, ์˜จ๋ผ์ธ ๊ฐ•ํ™”ํ•™์Šต(online RL)์—์„œ +45.28%์˜ ์„ฑ๋Šฅ ํ–ฅ์ƒ ๋‹ฌ์„ฑ. ์ตœ์ข…์ ์œผ๋กœ Med-Copilot-14B๊ฐ€ ๋ถ„ํฌ ๋‚ด(in-distribution)์™€ ๋ถ„ํฌ ์™ธ(out-of-distribution) ๊ณผ์ œ ๋ชจ๋‘์—์„œ gpt-4o์™€ ๊ฒฝ์Ÿ ๊ฐ€๋Šฅํ•œ ์„ฑ๋Šฅ ๋‹ฌ์„ฑ.

How

Figure 2

Figure 2: MedAgentGym์˜ ์ „์ฒด ๊ตฌ์กฐ. ์ข…ํ•ฉ์  ์ฝ”๋“œ ๊ธฐ๋ฐ˜ ์ƒ์˜ํ•™ ์ถ”๋ก  ๊ณผ์ œ๋ฅผ ํฌํ•จ

๋ฐ์ดํ„ฐ ๊ตฌ์„ฑ ๋ฐ ํ†ตํ•ฉ ๋ฒค์น˜๋งˆํฌ:

์‹คํ–‰ ๊ฐ€๋Šฅํ•œ ๊ฒฉ๋ฆฌ ํ™˜๊ฒฝ:

๋Œ€ํ™”ํ˜• ํ”ผ๋“œ๋ฐฑ ๋ฉ”์ปค๋‹ˆ์ฆ˜:

๊ฐ•ํ™”ํ•™์Šต ๊ธฐ๋ฐ˜ ํ›ˆ๋ จ:

์„ฑ๋Šฅ ๊ฒ€์ฆ:

Originality

Limitation & Further Study

Evaluation

์ดํ‰: MedAgentGym์€ ์ƒ์˜ํ•™ ๋ฐ์ดํ„ฐ ๊ณผํ•™ ๋ถ„์•ผ์—์„œ ์ฝ”๋“œ ๊ธฐ๋ฐ˜ ์ถ”๋ก ์„ ์œ„ํ•œ ์ตœ์ดˆ์˜ ํฌ๊ด„์ ์ด๊ณ  ์‹คํ–‰ ๊ฐ€๋Šฅํ•œ ํ›ˆ๋ จ ํ™˜๊ฒฝ์œผ๋กœ, ๋Œ€๊ทœ๋ชจ ํ†ตํ•ฉ ๋ฒค์น˜๋งˆํฌ, ํšจ๊ณผ์ ์ธ RL ํ›ˆ๋ จ ๋ฐฉ๋ฒ•๋ก , ๊ทธ๋ฆฌ๊ณ  ๊ณต๊ฐœ๋œ ๋ฆฌ์†Œ์Šค๋ฅผ ํ†ตํ•ด ์˜คํ”ˆ์†Œ์Šค LLM์˜ ์˜๋ฃŒ ๋„๋ฉ”์ธ ์ ์‘์—

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
PubMedQA๋Š” ์ƒ์˜ํ•™ QA ๋ถ„์•ผ์˜ ํ•ต์‹ฌ ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ, MedAgentGym์˜ ์ฝ”๋“œ ๊ธฐ๋ฐ˜ ์ถ”๋ก  ํ‰๊ฐ€์— ๋ฐฐ๊ฒฝ ์ •๋ณด๋ฅผ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Researchtown(673)์€ ์—ฐ๊ตฌ ์ปค๋ฎค๋‹ˆํ‹ฐ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๋ฐ ํ‰๊ฐ€ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ์ œ๊ณตํ•ด, ํ™•์žฅํ˜• ์—์ด์ „ํŠธ ํ›ˆ๋ จ ํ™˜๊ฒฝ ์„ค๊ณ„์˜ ์‚ฌํšŒ์  ํ”„๋ ˆ์ž„์›Œํฌ๊ฐ€ ๋œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
MLAgentBench ๋…ผ๋ฌธ์€ ํŒŒ์ผ ๊ธฐ๋ฐ˜ ๊ณผ์ œ์—์„œ LLM ์—์ด์ „ํŠธ์˜ ํ•™์Šต ๋ฐ ๋ฒค์น˜๋งˆํ‚น ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์‹œํ•˜์—ฌ, MedAgentGym๊ณผ ์ฝ”๋“œ์ค‘์‹ฌ ๊ณผ์ œ์—์„œ ๋น„๊ต๋œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์˜๋ฃŒ ํŠนํ™” ์–ธ์–ด ๋ชจ๋ธ ๊ฐœ๋ฐœ์—์„œ ์œ ์‚ฌํ•œ ๋ชฉํ‘œ๋ฅผ ๋‹ค๋ฅธ ์ ‘๊ทผ๋ฒ•์œผ๋กœ ๋‹ฌ์„ฑํ•˜๋Š” ๋Œ€์•ˆ์  ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
528์˜ MedAgentGym์€ ์ƒ์˜ํ•™ ๋ฐ์ดํ„ฐ ๊ณผํ•™, 294์˜ DSBench๋Š” ์ผ๋ฐ˜ ๋ฐ์ดํ„ฐ ๊ณผํ•™ ์—์ด์ „ํŠธ ํ‰๊ฐ€๋กœ ๊ฐ๊ฐ LLM ์—์ด์ „ํŠธ ํ›ˆ๋ จ ๋ฐ ์„ฑ๋Šฅ ํ‰๊ฐ€ ๋ฐฉํ–ฅ์ด ๋‹ค๋ฆ…๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
ScholarChemQA(701)๋Š” ์ƒ์˜ํ•™ ๋ฐ์ดํ„ฐ ๊ณผํ•™ ์˜์—ญ์˜ QA ๋ฒค์น˜๋งˆํฌ๋กœ, MedAgentGym์ด ๋‹ค๋ฃจ๋Š” ์ฝ”๋“œ ์ค‘์‹ฌ ์‹คํ—˜ ํ™˜๊ฒฝ๊ณผ ๋ณ„๊ฐœ๋กœ ์ฃผ์š” reference๊ฐ€ ๋œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM์˜ ๋‹ค์–‘ํ•œ ๋„๋ฉ”์ธ์—์„œ์˜ ์„ฑ๋Šฅ๊ณผ ํ•œ๊ณ„๋ฅผ ํ‰๊ฐ€ํ•˜๋Š” ๊ด€๋ จ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์˜๋ฃŒ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๋˜๋Š” ์˜๋ฃŒ AI ์—์ด์ „ํŠธ๋ฅผ ๋‹ค๋ฅธ ๋ฐฉ์‹์œผ๋กœ ์ ‘๊ทผํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
MLGym์€ ์ฝ”๋”ฉ๊ณผ AI ์—ฐ๊ตฌ ๋ฌธ์ œ์— ํŠนํ™”๋œ LLM ์—์ด์ „ํŠธ ํ‰๊ฐ€ยทํ›ˆ๋ จ ํ”Œ๋žซํผ์œผ๋กœ, MedAgentGym๊ณผ ๋‹ค๋ฅธ ๋ฐ์ดํ„ฐ์…‹๊ณผ ๋ฒค์น˜๋งˆํฌ๋กœ ์ ‘๊ทผํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
528 ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜ ๋ฉ€ํ‹ฐ์—์ด์ „ํŠธ์™€ ์‹ค์ œ ๊ณผ์—… ์ˆ˜ํ–‰๋Šฅ๋ ฅ(ํŠนํžˆ ์ฝ”๋“œํ™”)์„ ์ •๋Ÿ‰ ํ‰๊ฐ€ํ•˜์—ฌ, ์‹ค์ œ ์‚ฌ์šฉ ํ˜„ํ™ฉ ์—ฐ๊ตฌ์™€ ์—์ด์ „ํŠธ ์„ฑ๋Šฅ์˜ ์ฐจ์ด๋ฅผ ์ดํ•ดํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
์˜๋ฃŒ ์ฝ”๋”ฉ ๋ฐ ์ง„๋‹จ ์ฝ”๋”ฉ์—์„œ์˜ LLM ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ ํ˜‘๋ ฅ ํ™˜๊ฒฝ์ด ์‹ค์ œ ์ž„์ƒ์˜ ๋‹คํ•™์ œ ํ˜‘๋ ฅ ํ”„๋ ˆ์ž„์›Œํฌ ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
545์˜ MLE-bench๋Š” ๊ธฐ๊ณ„ํ•™์Šต ์—ฐ๊ตฌ๋กœ ๋ฒ”์œ„๋ฅผ ํ™•์žฅํ•˜์—ฌ, 528์˜ ์ƒ์˜ํ•™ ๋ฐ์ดํ„ฐ ๊ณผํ•™ ํŠนํ™” ํ›ˆ๋ จ ํ™˜๊ฒฝ์„ ๋” ๋„“์€ ๋ฌธ์ œ๋กœ ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
AAAR-1.0 ๋…ผ๋ฌธ์€ AI๊ฐ€ ๊ณผํ•™ ์—ฐ๊ตฌ ์ง€์›์— ์–ด๋–ป๊ฒŒ ํ™œ์šฉ๋  ์ˆ˜ ์žˆ๋Š”์ง€ ์‹ค์ œ ์ ์šฉ ์‚ฌ๋ก€๋ฅผ ๋‹ค๋ฃจ๋ฏ€๋กœ, MedAgentGym์˜ agentic ํ”Œ๋žซํผ ํ™œ์šฉ ํ™•์žฅ ๋…ผ์˜์— ๋„์›€์ด ๋œ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
AMDAT ๋…ผ๋ฌธ์€ ์˜คํ”ˆ์†Œ์Šค ๋ถ„์ž๋™์—ญํ•™ ๋ถ„์„์„ ํ†ตํ•œ ์ฝ”๋“œ ์ค‘์‹ฌ ๋ฌธ์ œ๋ฅผ ๋‹ค๋ฃจ๋ฉฐ, ์‹ค๋ฌผ ์ƒŒ๋“œ๋ฐ•์Šค ํ™˜๊ฒฝ์—์„œ LLM ํ‰๊ฐ€์˜ ์‘์šฉ ์˜ˆ์‹œ๊ฐ€ ๋œ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •