AgentMD: Empowering Language Agents for Risk Prediction with Large-Scale Clinical Tool Learning

์ €์ž: Qiao Jin, Zhizheng Wang, Yifan Yang, Qingqing Zhu, Donald Wright | ๋‚ ์งœ: 2024 | DOI: 10.48550/arXiv.2402.13225 📄 PDF


Essence

Figure 1

๊ทธ๋ฆผ 1. ์—ฐ๊ตฌ ๊ฐœ์š”: (a) RiskCalcs ๋„๊ตฌ ๋ชจ์Œ ๊ตฌ์ถ• ํ”„๋กœ์„ธ์Šค, (b) ์žฅ๊ธฐ ์‹œ์Šคํ…œ๋ณ„ ๊ณ„์‚ฐ๊ธฐ ๋ถ„ํฌ, (c) ๋„๊ตฌ์˜ ์˜๋ฏธ์  ํ‘œํ˜„ t-SNE ์‹œ๊ฐํ™”, (d) ํ™˜์ž ๋…ธํŠธ์— RiskCalcs ์ ์šฉ ํ”„๋กœ์„ธ์Šค

๋ณธ ๋…ผ๋ฌธ์€ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ(LLM)์„ ํ™œ์šฉํ•˜์—ฌ PubMed ๋ฌธํ—Œ์œผ๋กœ๋ถ€ํ„ฐ 2,164๊ฐœ์˜ ์ž„์ƒ ๊ณ„์‚ฐ๊ธฐ(RiskCalcs)๋ฅผ ์ž๋™์œผ๋กœ ํ๋ ˆ์ด์…˜ํ•˜๊ณ , ์ด๋ฅผ ํ™˜์ž ๊ธฐ๋ก์— ์ ์šฉํ•˜๋Š” ์˜๋ฃŒ ์–ธ์–ด ์—์ด์ „ํŠธ AgentMD๋ฅผ ์ œ์‹œํ•œ๋‹ค. ๊ธฐ์กด ์ˆ˜๋™ ํ๋ ˆ์ด์…˜์˜ ํ™•์žฅ์„ฑ ๋ฌธ์ œ๋ฅผ ๊ทน๋ณตํ•˜๋ฉด์„œ 80% ์ด์ƒ์˜ ์ •ํ™•๋„๋ฅผ ๋‹ฌ์„ฑํ•˜๊ณ , ๊ธฐ์กด GPT-4 ์ฒด์ธ-์˜ค๋ธŒ-์†ŒํŠธ(Chain-of-Thought) ๋ฐฉ์‹(40.9%)์„ ํฌ๊ฒŒ ๋Šฅ๊ฐ€ํ•œ๋‹ค(87.7%).

Motivation

Achievement

  1. ๋Œ€๊ทœ๋ชจ ์ž๋™ ํ๋ ˆ์ด์…˜: PubMed 339,952๊ฐœ ๋…ผ๋ฌธ ์ค‘ 2,164๊ฐœ์˜ ๊ฒ€์ฆ๋œ ์ž„์ƒ ๊ณ„์‚ฐ๊ธฐ๋ฅผ ์ž๋™์œผ๋กœ ์ถ”์ถœํ•˜์—ฌ RiskCalcs ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ ๊ตฌ์ถ•. ์ด ์ค‘ 96%๊ฐ€ ๊ธฐ์กด ์˜จ๋ผ์ธ ๊ตฌํ˜„ ๋„๊ตฌ์— ์—†๋Š” ์‹ ๊ทœ ์ž๋™ํ™” ๋„๊ตฌ.
  2. ๋†’์€ ํ’ˆ์งˆ ๋‹ฌ์„ฑ: ์ˆ˜๋™ ํ‰๊ฐ€ ๊ฒฐ๊ณผ ์ถ”์ƒ(87.0%), ๊ณ„์‚ฐ ๋กœ์ง(87.6%), ๊ฒฐ๊ณผ ํ•ด์„(89.0%) ์ •ํ™•๋„ ๋‹ฌ์„ฑ. ์ƒ์œ„ 25๊ฐœ ์ธ์šฉ ๊ณ„์‚ฐ๊ธฐ์˜ 68% ๊ตฌํ˜„๋ฅ  vs. ๋ฌด์ž‘์œ„ ์ƒ˜ํ”Œ 4% ๊ตฌํ˜„๋ฅ ๋กœ ์‹ค์งˆ์  ์ปค๋ฒ„๋ฆฌ์ง€ ํ™•๋Œ€.
  3. ์šฐ์ˆ˜ํ•œ ์ž„์ƒ ์ ์šฉ ์„ฑ๋Šฅ: ์‹ ๊ทœ ๋ฒค์น˜๋งˆํฌ RiskQA์—์„œ 87.7% ์ •ํ™•๋„๋กœ ๊ธฐ์กด GPT-4 ์ฒด์ธ-์˜ค๋ธŒ-์†ŒํŠธ(40.9%)๋ฅผ 2๋ฐฐ ์ด์ƒ ์ƒํšŒ. MIMIC-III ์ค‘ํ™˜์ž ๋ฐ์ดํ„ฐ์— ์ ์šฉํ•˜์—ฌ ์ธ๊ตฌ ์ˆ˜์ค€ ๋ฐ ๊ฐœ์ธ ์œ„ํ—˜ ์ˆ˜์ค€์˜ ํŠน์„ฑ ๋ถ„์„ ๊ฐ€๋Šฅ์„ฑ ์ž…์ฆ.

How

๋„๊ตฌ ์ œ์ž‘ (Tool Maker)

๋„๊ตฌ ์‚ฌ์šฉ (Tool User)

๊ธฐ์ˆ  ํŠน์ง•

Originality

Limitation & Further Study

ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

Evaluation

Novelty: 4.5/5 Technical Soundness: 4/5 Significance: 4.5/5 Clarity: 4/5 Overall: 4/5

์ดํ‰: ๋ณธ ๋…ผ๋ฌธ์€ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ์„ ํ™œ์šฉํ•œ ์ž„์ƒ ๋„๊ตฌ ์ž๋™ ํ๋ ˆ์ด์…˜์˜ ์„ ๋„์  ์‹œ๋„๋กœ, ๊ธฐ์ˆ ์  ํ˜์‹ ์„ฑ๊ณผ ์ž„์ƒ์  ์ž ์žฌ๋ ฅ์ด ๋†’๋‹ค. ๋‹ค๋งŒ ํ’ˆ์งˆ ๊ฒ€์ฆ ๋ฒ”์œ„ ํ™•๋Œ€, ์‹ค์ œ ์ž„์ƒ ํ†ตํ•ฉ ํšจ๊ณผ ๊ฒ€์ฆ, LLM ์˜์กด์„ฑ ์™„ํ™” ๋“ฑ์ด ์‹ค์šฉํ™”๋ฅผ ์œ„ํ•œ ๊ณผ์ œ์ด๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
645์˜ PubMedQA ๋ฐ์ดํ„ฐ์…‹์€ 068์—์„œ ๋ฌธํ—Œ ๊ธฐ๋ฐ˜ ์ž„์ƒ ํŒ๋‹จ์˜ ์ •ํ™•๋„ ํ–ฅ์ƒ์— ํ•„์š”ํ•œ ๊ฒ€์ฆ๋œ QA ๋ฐ์ดํ„ฐ ์†Œ์Šค์ด๋ฉฐ, ์ด๋ก ์  ๋ฐ”ํƒ•์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
LLM ๊ธฐ๋ฐ˜ ์˜๋ฃŒ ์‘์šฉ์˜ ๋ฐฉ๋ฒ•๋ก ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•˜๋Š” ์„ ํ–‰ ์—ฐ๊ตฌ์ด๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
gene regulatory networks์™€ causal ๊ด€๊ณ„ ๋ฐœ๊ฒฌ์„ ์œ„ํ•œ LLM ๊ธฐ๋ฐ˜ ์ž๋™ํ™” ๋„๊ตฌ๋กœ, ์ž„์ƒ๊ณ„์‚ฐ๊ธฐ์™€ ํ™˜์ž ๋ฐ์ดํ„ฐ ์ ์šฉ์— ๊ฐœ๋…์  ๊ธฐ๋ฐ˜์ด ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
AgentMD๋Š” LLM ์—์ด์ „ํŠธ์˜ ์‹ค์‚ฌ์šฉ ํ™˜๊ฒฝ์—์„œ์˜ ํ‰๊ฐ€์™€ ์‹ ๋ขฐ์„ฑ ๋ฌธ์ œ๋ฅผ ๋…ผ์˜ํ•˜๋ฏ€๋กœ, DeepResearch Bench์˜ ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ์™€ ์ƒํ˜ธ ์ฐธ๊ณ ๊ฐ€ ์œ ์ตํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ž„์ƒ ์œ„ํ—˜ ์˜ˆ์ธก ๋ฐ ๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜ ์ง„๋‹จ ๋ณด์กฐ์—์„œ Zero-shot ํ•™์Šต LLM ํ™œ์šฉ ์‚ฌ๋ก€๋กœ, AgentMD์™€ ์œ ์‚ฌํ•˜์ง€๋งŒ ๋‹ค๋ฅธ ๋ฐฉ๋ฒ•์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
068๋ฒˆ AgentMD๋Š” ์˜ํ•™์  ๋ฆฌ์Šคํฌ ์˜ˆ์ธก์„ ์œ„ํ•œ ๋žญ๊ท€์ง€ ์—์ด์ „ํŠธ๋ฅผ ๋‹ค๋ค„, 806๋ฒˆ์ด ๋‹ค๋ฃจ๋Š” ์‹คํ—˜์  ์ž๋™ํ™” ์—์ด์ „ํŠธ์™€ ์˜๋ฃŒ ๋ถ„์•ผ ํŠนํ™” ์ ์šฉ์˜ ๋Œ€์•ˆ์  ์ ‘๊ทผ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ž„์ƒ ๋ฌธํ—Œ ๊ธฐ๋ฐ˜ ์˜๋ฃŒ ์ •๋ณด ์ž๋™ํ™”์—์„œ ์œ ์‚ฌํ•œ ์ ‘๊ทผ๋ฒ•์„ ์‚ฌ์šฉํ•˜๋Š” ๋Œ€์•ˆ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์˜๋ฃŒ ์–ธ์–ด ์—์ด์ „ํŠธ ๋˜๋Š” ์ž„์ƒ ๊ณ„์‚ฐ๊ธฐ ์ž๋™ํ™”์™€ ๊ด€๋ จ๋œ ์œ ์‚ฌํ•œ ๋ชฉํ‘œ๋ฅผ ์ถ”๊ตฌํ•˜๋Š” ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
531์€ ์˜๋ฃŒ ์ง„๋‹จ ๋ณด์กฐ์— human-AI ํ˜‘๋ ฅ์„ ๋„์ž…ํ•œ ์‚ฌ๋ก€๋กœ, ์ž„์ƒ ๊ณ„์‚ฐ๊ธฐ ์ ์šฉ์— ์ง‘์ค‘ํ•˜๋Š” 068๊ณผ ๋‹ค๋ฅธ ๋ณด์กฐ๋ฐฉ๋ฒ•์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์˜๋ฃŒ ๋ถ„์•ผ์—์„œ LLM ์—์ด์ „ํŠธ๋ฅผ ํ™œ์šฉํ•œ ์ž„์ƒ ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ ๋ฐ ์œ„ํ—˜ ์˜ˆ์ธก์„ ๋‹ค๋ฃจ๋Š” ์œ ์‚ฌํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์˜๋ฃŒ ๋ฐ์ดํ„ฐ ๋ถ„์„ ๋˜๋Š” ์ž„์ƒ ์˜์‚ฌ๊ฒฐ์ • ์ง€์›์„ ์œ„ํ•œ LLM ์—์ด์ „ํŠธ๋ฅผ ๋‹ค๋ฃจ๋Š” ์œ ์‚ฌํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
LLM๊ณผ ๋„๊ตฌ ํ™œ์šฉ ๊ธฐ๋ฐ˜์˜ ์ฆ๊ฑฐ ์ƒ์„ฑ ๋ฐ ๊ฒ€์ฆ ํ”„๋ ˆ์ž„์›Œํฌ๋กœ, AgentMD์˜ ์ž„์ƒ ํŒ๋‹จ ์‹ ๋น™์„ฑ ๋ณด์™„ ๋ฐฉ๋ฒ• ์ œ๊ณต.
์‘์šฉ ์‚ฌ๋ก€
785 ๋…ผ๋ฌธ์˜ CoT ๊ธฐ๋ฐ˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ถ”๋ก  ํ•™์Šต ๋ฐฉ๋ฒ•๋ก ์€ 068 ๋…ผ๋ฌธ์˜ ๋ฆฌ์Šคํฌ ์˜ˆ์ธก, ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์˜๋ฃŒ ์—์ด์ „ํŠธ ๊ฐœ๋ฐœ์— ์‹ค์ œ๋กœ ์ ์šฉ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •