ClinicalGPT: Large Language Models Finetuned with Diverse Medical Data and Comprehensive Evaluation

์ €์ž: Guangyu Wang, Guoxing Yang, Zongxin Du, Longjun Fan, Xiaohu Li | ๋‚ ์งœ: 2023 | DOI: 10.48550/arXiv.2306.09968 📄 PDF


Essence

Figure 1

ClinicalGPT์˜ ์ „์ฒด ๊ตฌ์กฐ: ๋‹ค์–‘ํ•œ ์˜๋ฃŒ ๋ฐ์ดํ„ฐ์™€ ๊ฐ๋… ๋ฏธ์„ธ์กฐ์ •(SFT), ๋ณด์ƒ ๋ชจ๋ธ(Reward Model), ๊ฐ•ํ™”ํ•™์Šต(RL) ํŒŒ์ดํ”„๋ผ์ธ์„ ํ†ตํ•ฉ

๋ณธ ๋…ผ๋ฌธ์€ ์˜๋ฃŒ ๋„๋ฉ”์ธ์— ํŠนํ™”๋œ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ ClinicalGPT๋ฅผ ์ œ์‹œํ•œ๋‹ค. ๋‹ค์–‘ํ•œ ์ž„์ƒ ๋ฐ์ดํ„ฐ์™€ ํฌ๊ด„์  ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ํ™œ์šฉํ•˜์—ฌ ์˜๋ฃŒ ๋ถ„์•ผ์˜ ๊ณ ์ •ํ™•๋„, ํ•ด์„์„ฑ, ์•ˆ์ „์„ฑ ์š”๊ตฌ์‚ฌํ•ญ์„ ์ถฉ์กฑํ•˜๋„๋ก ์„ค๊ณ„๋˜์—ˆ๋‹ค.

Motivation

Achievement

  1. ๋‹ค์–‘ํ•œ ์˜๋ฃŒ ๋ฐ์ดํ„ฐ์…‹ ํ†ตํ•ฉ: cMedQA2 (120k ์งˆ๋ฌธ), cMedQA-KG (100k Q&A ์Œ), MEDQA-MCMLE (34k ์˜๋ฃŒ ์‹œํ—˜ ๋ฌธ์ œ), MedDialog (100k ํ•™์Šต ๋Œ€ํ™”), MD-EHR (100k ์ „์ž์˜๋ฃŒ๊ธฐ๋ก)์„ ํ™œ์šฉํ•œ ํฌ๊ด„์  ํ•™์Šต ๋ฐ์ดํ„ฐ ๊ตฌ์„ฑ
  2. ํฌ๊ด„์  ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ: ์˜๋ฃŒ ์ง€์‹ ์งˆ๋‹ต(QA), ์˜๋ฃŒ ์‹œํ—˜, ํ™˜์ž ์ƒ๋‹ด, ์˜๋ฃŒ ๊ธฐ๋ก ์ง„๋‹จ ๋ถ„์„ ๋“ฑ 4๊ฐ€์ง€ ์ž„์ƒ ์ž‘์—…์„ ํ†ตํ•ด ๋ชจ๋ธ ์„ฑ๋Šฅ์„ ๋‹ค๊ฐ๋„๋กœ ๊ฒ€์ฆ
  3. ๊ฐ๋… ๋ฏธ์„ธ์กฐ์ •๊ณผ ๊ฐ•ํ™”ํ•™์Šต ์กฐํ•ฉ: ์ง€์‹ ๊ทธ๋ž˜ํ”„ ๊ธฐ๋ฐ˜ ํ…œํ”Œ๋ฆฟ์œผ๋กœ ์ƒ์„ฑ๋œ prompt-response ์Œ์œผ๋กœ SFT ์ˆ˜ํ–‰ ํ›„, ์ธ๊ฐ„ ํ”ผ๋“œ๋ฐฑ ๊ธฐ๋ฐ˜ ๋ณด์ƒ ๋ชจ๋ธ๊ณผ PPO(Proximal Policy Optimization)๋กœ ์ถ”๊ฐ€ ์ตœ์ ํ™”
  4. ์„ฑ๋Šฅ ํ–ฅ์ƒ: ClinicalGPT๊ฐ€ ๊ธฐ์กด ๋ชจ๋ธ๋“ค(FlanPaLM ํฌํ•จ)์„ ๋ชจ๋“  ์ž„์ƒ ์ž‘์—…์—์„œ ์ดˆ๊ณผ ์„ฑ๋Šฅ ๋‹ฌ์„ฑ

How

Originality

Limitation & Further Study

Evaluation

์ดํ‰: ClinicalGPT๋Š” ์˜๋ฃŒ ๋„๋ฉ”์ธ์— ํŠนํ™”๋œ LLM ๊ฐœ๋ฐœ์˜ ์‹ค์šฉ์  ์ ‘๊ทผ์„ ๋ณด์—ฌ์ฃผ๋ฉฐ ๋‹ค์–‘ํ•œ ์ž„์ƒ ๋ฐ์ดํ„ฐ ํ†ตํ•ฉ๊ณผ ํฌ๊ด„์  ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ๊ฐ€ ์ฃผ์š” ๊ธฐ์—ฌ์ด๋‚˜, ๊ธฐ์ˆ ์  ํ˜์‹ ์„ฑ์ด ์ œํ•œ์ ์ด๊ณ  ์‹ค์ œ ์ž„์ƒ ์„ฑ๋Šฅ ๊ฒ€์ฆ ๋ฐ ์‹ค๋ฌด ์ ์šฉ ๊ฒฝ๋กœ์— ๋Œ€ํ•œ ๋…ผ์˜๊ฐ€ ๋ถ€์กฑํ•˜๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
BioBERT๋Š” ์ƒ๋ฌผ์˜ํ•™ ๋ฐ์ดํ„ฐ๋ฅผ ํ†ตํ•œ ์‚ฌ์ „ํ•™์Šต ๋ชจ๋ธ๋กœ, ์˜๋ฃŒ LLM ๋„๋ฉ”์ธ ํŠนํ™” ํ•™์Šต์˜ ๊ทผ๊ฐ„์„ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
์˜ํ•™ ํŠนํ™” LLM์˜ ๋‹ค์–‘ํ•œ ๋ฏธ์„ธ์กฐ์ • ๋ฐ ๋ฐ์ดํ„ฐ ํ™œ์šฉ ์‚ฌ๋ก€๊ฐ€ Patchat์˜ ๋น„์ „-์–ธ์–ด ๋ณ‘ํ•ฉ ์ ‘๊ทผ๋ฒ•๊ณผ ์—ฐ๊ด€ ๊นŠ์Šต๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
ClinicalGPT-R1์˜ ์˜๋ฃŒ ํŠนํ™” ์ง„๋‹จ ๊ธฐ๋Šฅ์€ ๋‹ค์–‘ํ•œ ์ž„์ƒ ๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜ ClinicalGPT์˜ ํ•ต์‹ฌ ๊ฐœ๋…์„ ๊ณ„์Šน/ํ™•์žฅํ–ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
ClinicalGPT๋Š” ์˜ํ•™ ๋…ผ๋ฌธ ๊ฒ€ํ† ๋ฅผ LLM์œผ๋กœ ์ž๋™ํ™”ํ•œ ์‚ฌ๋ก€๋กœ, REMOR๊ฐ€ ๋‹ค๋ชฉ์  ๊ฐ•ํ™”ํ•™์Šต(MORL) ๊ธฐ๋ฒ•์„ ํ™•์žฅํ•ด ๋‹ค์–‘ํ•œ ๋ถ„์•ผ์— ์ ์šฉํ•  ๊ฐ€๋Šฅ์„ฑ๋„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ž„์ƒ ์‹œ๋‚˜๋ฆฌ์˜ค์—์„œ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ์„ ํ™œ์šฉํ•œ ๊ฐœ์ธ๋งž์ถคํ˜• ์˜๋ฃŒ์„œ๋น„์Šค LLM ์‘์šฉ ์‚ฌ๋ก€์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ž„์ƒ ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•œ ์˜๋ฃŒ LLM ๋ฏธ์„ธ์กฐ์ •์—์„œ ์œ ์‚ฌํ•œ ๋ฌธ์ œ๋ฅผ ๋‹ค๋ฅธ ๋ฐฉ์‹์œผ๋กœ ์ ‘๊ทผํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์˜๋ฃŒ LLM๊ณผ ์—์ด์ „ํŠธ ์ž๋™ํ™”๊ฐ€ ์‹ค์ œ ์ž„์ƒ ๋ฐ ๋ฐ”์ด์˜ค๋ฉ”๋“œ ๋ถ„์•ผ์—์„œ ์–ผ๋งˆ๋‚˜ ์ง„๋ณดํ–ˆ๋Š”์ง€ ํ˜„ํ™ฉ์„ ๋น„๊ตยท์ ๊ฒ€ํ•  ์ˆ˜ ์žˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ž„์ƒ ์ •๋ณด๋ฅผ ์ถ”์ถœํ•˜๊ณ  ์ž„์ƒ ๋…ธํŠธ์˜ ์˜๋ฏธ ์ดํ•ด์— ํŠนํ™”๋œ ClinicalGPT ์—ฐ๊ตฌ์™€ CLEAR ํŒŒ์ดํ”„๋ผ์ธ์˜ ์‹ค์ œ ์ ์šฉ ์‚ฌ๋ก€๊ฐ€ ๋Œ€์กฐ๋ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์˜๋ฃŒ ํŠนํ™” ์–ธ์–ด ๋ชจ๋ธ ๊ฐœ๋ฐœ์—์„œ ์œ ์‚ฌํ•œ ๋ชฉํ‘œ๋ฅผ ๋‹ค๋ฅธ ์ ‘๊ทผ๋ฒ•์œผ๋กœ ๋‹ฌ์„ฑํ•˜๋Š” ๋Œ€์•ˆ์  ์—ฐ๊ตฌ์ด๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
ClinicalGPT๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๊ฐ•ํ™”ํ•™์Šต์„ ํ†ตํ•ด ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ๊ฐ•ํ™”ํ•œ ํ™•์žฅ ์—ฐ๊ตฌ์ด๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
488์€ ์ž„์ƒ ๋„๋ฉ”์ธ์˜ ์ง€์‹๊ทธ๋ž˜ํ”„ QA ์˜์—ญ์—์„œ LLMs์˜ ํ™œ์šฉ๋„๋ฅผ ์‹ค์ œ ์ง„๋‹จ ๋ฌธ์ œ์— ์ ์šฉํ•˜์—ฌ, ClinicalGPT๊ฐ€ ์‹œ๋„ํ•œ ์˜ํ•™์  ์งˆ์˜์‘๋‹ต์˜ ์‹คํšจ์„ฑ์„ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •