AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator

์ €์ž: Zhihao Fan, Jialong Tang, Wei Chen, Siyuan Wang, Zhongyu Wei, Jun Xie, Fei Huang, Jingren Zhou (Alibaba Inc., Huazhong University of Science and Technology, Fudan University) | ๋‚ ์งœ: 2024 | DOI: arXiv:2402.09742 📄 PDF


Essence

Figure 1

AI Hospital ํ”„๋ ˆ์ž„์›Œํฌ์˜ ๋‹ค์ค‘ ์—์ด์ „ํŠธ ์ƒํ˜ธ์ž‘์šฉ ์‹œ๋ฎฌ๋ ˆ์ด์…˜: ์˜์‚ฌ(ํ”Œ๋ ˆ์ด์–ด)๊ฐ€ ํ™˜์ž, ๊ฒ€์‚ฌ๊ด€, ๊ณผ์žฅ๊ณผ ๋‹ค์ค‘ ํ„ด ๋Œ€ํ™”๋ฅผ ํ†ตํ•ด ์ง„๋‹จํ•˜๋Š” ๋™์  ์˜๋ฃŒ ์ƒํ˜ธ์ž‘์šฉ ํ™˜๊ฒฝ

๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์ด ์˜๋ฃŒ ์งˆ๋ฌธ ๋‹ต๋ณ€ ๋ฒค์น˜๋งˆํฌ์—์„œ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์ด์ง€๋งŒ, ์‹ค์ œ ์˜๋ฃŒ ํ˜„์žฅ์˜ ๋ณต์žกํ•œ ์˜์‚ฌ-ํ™˜์ž ์ƒํ˜ธ์ž‘์šฉ์„ ๋ฐ˜์˜ํ•˜์ง€ ๋ชปํ•œ๋‹ค. ์ด ๋…ผ๋ฌธ์€ ๋‹ค์ค‘ ์—์ด์ „ํŠธ ์˜๋ฃŒ ์ƒํ˜ธ์ž‘์šฉ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ์ธ AI Hospital์„ ์ œ์•ˆํ•˜๊ณ , ํ˜„์‹ค์ ์ธ ์ž„์ƒ ์ง„๋‹จ ์‹œ๋‚˜๋ฆฌ์˜ค์—์„œ LLM์˜ ์„ฑ๋Šฅ ๊ฒฉ์ฐจ๋ฅผ ํ‰๊ฐ€ํ•œ๋‹ค.

Motivation

Achievement

Figure 1

AI Hospital์˜ ๋‹ค์ค‘ ์—์ด์ „ํŠธ ๊ตฌ์กฐ์™€ ์ง„๋‹จ ๊ณผ์ •์˜ ํ๋ฆ„

  1. AI Hospital ํ”„๋ ˆ์ž„์›Œํฌ ๊ฐœ๋ฐœ: ๋‹ค์ค‘ ์—์ด์ „ํŠธ(Patient, Examiner, Chief Physician, Doctor) ๊ตฌ์กฐ๋กœ ์‹ค์ œ ์˜์‚ฌ-ํ™˜์ž ์ƒํ˜ธ์ž‘์šฉ์„ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ํ•˜๋ฉฐ, Doctor ์—์ด์ „ํŠธ๊ฐ€ ์ฆ์ƒ ์ˆ˜์ง‘ โ†’ ๊ฒ€์‚ฌ ์ถ”์ฒœ โ†’ ์ง„๋‹จ์˜ ๋‹ค์ค‘ ํ„ด ๋Œ€ํ™”๋ฅผ ์ˆ˜ํ–‰
  2. MVME(Multi-View Medical Evaluation) ๋ฒค์น˜๋งˆํฌ ๊ตฌ์ถ•: ์˜๋ฃŒ ์ „๋ฌธ๊ฐ€๊ฐ€ ์„ ๋ณ„ํ•œ ๊ณ ํ’ˆ์งˆ ์ค‘๊ตญ ์˜๋ฃŒ ๊ธฐ๋ก์„ ๊ธฐ๋ฐ˜์œผ๋กœ ์ฆ์ƒ ์ˆ˜์ง‘, ๊ฒ€์‚ฌ ์ถ”์ฒœ, ์ง„๋‹จ ์ •ํ™•๋„ ๋“ฑ ์„ธ ๊ฐ€์ง€ ์ฐจ์›์˜ ์„ฑ๋Šฅ ํ‰๊ฐ€ ์ง€ํ‘œ ๊ฐœ๋ฐœ
  3. ์„ฑ๋Šฅ ๊ฒฉ์ฐจ ์ •๋Ÿ‰ํ™”: ๋‹ค์ค‘ ํ„ด ์ƒํ˜ธ์ž‘์šฉ LLM์˜ ์„ฑ๋Šฅ์ด ๋ชจ๋“  ์ •๋ณด๋ฅผ ํ•œ ๋ฒˆ์— ๋ฐ›๋Š” GPT-4 ์ƒํ•œ์„ (one-step approach)์˜ 50% ๋ฏธ๋งŒ์— ๊ทธ์นจ์„ ์‹ค์ฆ์ ์œผ๋กœ ์ž…์ฆ
  4. ๋ถ„์Ÿ ํ•ด๊ฒฐ ํ˜‘์—… ๋ฉ”์ปค๋‹ˆ์ฆ˜: ๋ณต์ˆ˜์˜ ์˜์‚ฌ ์—์ด์ „ํŠธ๊ฐ€ ๋…๋ฆฝ์ ์œผ๋กœ ๋™์ผ ์‚ฌ๋ก€์— ๋Œ€ํ•ด ์ƒํ˜ธ์ž‘์šฉํ•˜๊ณ  Centre Agent๊ฐ€ ์˜๊ฒฌ ์ˆ˜๋ ด์„ ๊ฐ€์ด๋“œํ•˜๋Š” ํ˜‘์—… ์ „๋žต ์ œ์•ˆ์œผ๋กœ ์„ฑ๋Šฅ ํ–ฅ์ƒ (๋‹จ, ์—ฌ์ „ํžˆ ์ƒํ•œ์„  ์ดํ•˜)

How

Figure 1

์˜๋ฃŒ ๊ธฐ๋ก ์ •๋ณด์˜ ๋ถ„๋ฅ˜์™€ ์—์ด์ „ํŠธ๋ณ„ ํ• ๋‹น ๊ตฌ์กฐ

์‹œ์Šคํ…œ ๊ตฌ์„ฑ:

ํ‰๊ฐ€ ๋ฐฉ๋ฒ•๋ก :

ํ˜‘์—… ๋ฉ”์ปค๋‹ˆ์ฆ˜:

Originality

Limitation & Further Study

ํ•œ๊ณ„:

ํ›„์† ์—ฐ๊ตฌ:

Evaluation

Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

์ดํ‰: AI Hospital์€ ์˜๋ฃŒ AI์˜ ํ˜„์‹ค์  ์„ฑ๋Šฅ ํ‰๊ฐ€๋ฅผ ์œ„ํ•ด ๋‹ค์ค‘ ์—์ด์ „ํŠธ ์‹œ๋ฎฌ๋ ˆ์ด์…˜๊ณผ ๊ณ ํ’ˆ์งˆ ์˜๋ฃŒ ๊ธฐ๋ก์„ ๊ฒฐํ•ฉํ•œ ์˜๋ฏธ ์žˆ๋Š” ํ”„๋ ˆ์ž„์›Œํฌ์ด๋ฉฐ, ํ˜„์กด LLM์ด ๋ฒค์น˜๋งˆํฌ์™€ ์‹ค์ œ ์ž„์ƒ ์ƒํ™ฉ ์‚ฌ์ด์˜ ์ƒ๋‹นํ•œ ๊ฒฉ์ฐจ(50% ์ดํ•˜)๋ฅผ ๊ฐ–๊ณ  ์žˆ์Œ์„ ์ •๋Ÿ‰์ ์œผ๋กœ ์ž…์ฆํ•˜์˜€์œผ๋‚˜, ์ค‘๊ตญ ํŠนํ™”์„ฑ๊ณผ ํ•œ๊ณ„ ๋ถ„์„์˜ ๊นŠ์ด ๋ถ€์กฑ์ด ์ผ๋ฐ˜ํ™” ๊ฐ€๋Šฅ์„ฑ์„ ์ œํ•œํ•œ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๋‹ค๋ฅธ ์ ‘๊ทผ
๋‹ค์ค‘ ์—์ด์ „ํŠธ ์˜๋ฃŒ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๋˜๋Š” LLM ๊ธฐ๋ฐ˜ ์ž„์ƒ ์ง„๋‹จ์„ ๋‹ค๋ฃจ๋Š” ์œ ์‚ฌํ•œ ๋ฒค์น˜๋งˆํฌ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ƒ์„ฑํ˜• AI๊ฐ€ ๊ณผํ•™ ์ „๋ฐ˜์— ๋ฏธ์นœ ์˜ํ–ฅ์— ๋Œ€ํ•œ ๊ด€์ ์„ ์ œ๊ณตํ•˜๋ฉฐ ChatGPT์˜ ์˜ํ–ฅ๊ณผ ๋น„๊ตํ•  ์ˆ˜ ์žˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
AI Hospital ๋…ผ๋ฌธ๋„ ๋ณ‘์› ํ™˜๊ฒฝ์—์„œ ๋ฉ€ํ‹ฐ์—์ด์ „ํŠธ LLM์„ ํ‰๊ฐ€ํ•˜์—ฌ, ๋ณ‘์› ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ์—ฐ๊ตฌ์— ๋Œ€ํ•œ ๋น„๊ต ๋ฐ ๋ณด์™„ ์—ฐ๊ตฌ๋กœ ์ ํ•ฉํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋‹ค์ค‘ ์—์ด์ „ํŠธ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ํ™˜๊ฒฝ์—์„œ์˜ LLM ํ‰๊ฐ€๋ฅผ ๋‹ค๋ฃจ๋Š” ์œ ์‚ฌํ•œ ์ ‘๊ทผ๋ฒ•์˜ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM์˜ ์˜๋ฃŒ ์งˆ๋ฌธ ๋‹ต๋ณ€ ๋ฐ ์ž„์ƒ ์ƒํ˜ธ์ž‘์šฉ ํ‰๊ฐ€๋ฅผ ๋‹ค๋ฃจ๋Š” ์œ ์‚ฌํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์˜๋ฃŒ AI ์—์ด์ „ํŠธ ๋˜๋Š” ์ž„์ƒ ์‹œ๋‚˜๋ฆฌ์˜ค ์‹œ๋ฎฌ๋ ˆ์ด์…˜์„ ์œ„ํ•œ ์œ ์‚ฌํ•œ ํ”„๋ ˆ์ž„์›Œํฌ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
507์€ ์ž„์ƒ ๋ถ„์•ผ LLM์˜ ์‹ค์ œ ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ์‹œํ•˜์—ฌ, 078์˜ ๋‹ค์ค‘ ์—์ด์ „ํŠธ ๊ธฐ๋ฐ˜ ์ž„์ƒ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ์™€ ์„ฑ๋Šฅํ‰๊ฐ€ ์—ฐ๊ตฌ์™€ ์ƒํ˜ธ๋ณด์™„์ ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋ณ‘์› ํ™˜๊ฒฝ ๋‚ด ๋‹ค์ค‘ ์—์ด์ „ํŠธ AI ํ™œ์šฉ ์‹คํ—˜์„ ํ†ตํ•ด, ์‚ฌํšŒ์  ์œ„ํ—˜ ์š”์†Œ๊ฐ€ ์‹ค์ œ ์ ์šฉ์—์„œ ์–ด๋–ค ๋ณ€์ˆ˜๋กœ ์ž‘๋™ํ•˜๋Š”์ง€ ๋น„๊ตํ•  ์ˆ˜ ์žˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
์‹ค์ œ ํ™˜์ž ์ƒํ˜ธ์ž‘์šฉ ๋ฐ ์ž„์ƒ ์‹œ๋‚˜๋ฆฌ์˜ค์—์„œ LLM ๊ธฐ๋ฐ˜ ํ™˜์ž ์‹œ๋ฎฌ๋ ˆ์ด์…˜์„ ๋‹ค๊ฐ๋„๋กœ ๋ฒค์น˜๋งˆํฌํ•ด, AI Hospital์˜ ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ๋ณด์™„ํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
AI ๊ธฐ๋ฐ˜ ๊ณผํ•™ ๋…ผ๋ฌธ ๊ฒ€์ƒ‰ ๋ฐ ํ™œ์šฉ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ํ†ตํ•ด ์‹ค์ œ ์˜๋ฃŒ ์ •๋ณด ์ ‘๊ทผ ๋ฐ ๋‹ต๋ณ€ ์ƒ์„ฑ ์‹œ์Šคํ…œ์˜ ํšจ์šฉ์„ฑ์„ ๋’ท๋ฐ›์นจํ•œ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •