ClinicalGPT-R1: Pushing reasoning capability of generalist disease diagnosis with large language model

์ €์ž: Wuyang Lan, Wenzheng Wang, Changwei Ji, Guoxing Yang, Yongbo Zhang, Xiaohong Liu, Song Wu, Guangyu Wang | ๋‚ ์งœ: 2025 | DOI: N/A 📄 PDF


Essence

Figure 1

๊ทธ๋ฆผ 1: ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ ํŒŒ์ดํ”„๋ผ์ธ

๋ณธ ๋…ผ๋ฌธ์€ ์‹ค์ œ ์ž„์ƒ ๊ธฐ๋ก์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•œ 20,000๊ฐœ์˜ ์ž„์ƒ ๋ฐ์ดํ„ฐ์…‹์—์„œ ํ•™์Šตํ•˜์—ฌ, ์งˆ๋ณ‘ ์ง„๋‹จ์—์„œ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ๊ฐ•ํ™”ํ•œ ์˜๋ฃŒ ํŠนํ™” ๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ(LLM) ClinicalGPT-R1์„ ์ œ์‹œํ•œ๋‹ค. ์ง€๋„ํ•™์Šต ๋ฏธ์„ธ์กฐ์ •(SFT)๊ณผ ๊ฐ•ํ™”ํ•™์Šต(RL)์˜ ๋‘ ๋‹จ๊ณ„ ํ•™์Šต์„ ํ†ตํ•ด ์ง„๋‹จ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๋ฉฐ, ์ค‘๊ตญ์–ด ์ง„๋‹จ ์ž‘์—…์—์„œ GPT-4o๋ฅผ ๋Šฅ๊ฐ€ํ•˜๋Š” ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•œ๋‹ค.

Motivation

Achievement

Figure 2

๊ทธ๋ฆผ 2: ์„œ๋กœ ๋‹ค๋ฅธ ํ›ˆ๋ จ ๋ฐฉ๋ฒ•์— ๋”ฐ๋ฅธ ClinicalGPT-R1 ์„ฑ๋Šฅ ๋น„๊ต (SFT vs SFT+RL)

Figure 3

๊ทธ๋ฆผ 3: ์„œ๋กœ ๋‹ค๋ฅธ ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ ์†Œ์Šค์— ๋”ฐ๋ฅธ ClinicalGPT-R1 ์„ฑ๋Šฅ ๋น„๊ต

  1. ์„ฑ๊ณผ 1 - ์ค‘๊ตญ์–ด ์ง„๋‹จ ์šฐ์ˆ˜์„ฑ: ClinicalGPT-R1์€ ์ค‘๊ตญ์–ด ์ง„๋‹จ ์ž‘์—…์—์„œ GPT-4o๋ฅผ ๋Šฅ๊ฐ€ํ•˜๋Š” ์„ฑ๋Šฅ ๋‹ฌ์„ฑ. 7๊ฐœ ์˜๋ฃŒ ๋ถ€์„œ ์ „๋ฐ˜์—์„œ ํ‰๊ท  ์ •ํ™•๋„ ํ–ฅ์ƒ ์ž…์ฆ.
  2. ์„ฑ๊ณผ 2 - ๋‘ ๋‹จ๊ณ„ ํ›ˆ๋ จ์˜ ํšจ๊ณผ์„ฑ: SFT+RL ์กฐํ•ฉ ํ›ˆ๋ จ์ด SFT ๋‹จ๋… ํ›ˆ๋ จ๋ณด๋‹ค ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑ. ๊ฐ•ํ™”ํ•™์Šต ๋‹จ๊ณ„๋ฅผ ํ†ตํ•œ ์ถ”๋ก  ์ตœ์ ํ™”์˜ ํšจ๊ณผ ์ž…์ฆ (๊ทธ๋ฆผ 2).
  3. ์„ฑ๊ณผ 3 - ๋ฐ์ดํ„ฐ ํ•ฉ์„ฑ ์ „๋žต์˜ ์œ ํšจ์„ฑ: GPT-4o-mini๋กœ ์ƒ์„ฑํ•œ ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ๊ฐ€ DeepSeek-v3-0324๋กœ ์ƒ์„ฑํ•œ ๋ฐ์ดํ„ฐ๋ณด๋‹ค ๋” ๋†’์€ ์ง„๋‹จ ์„ฑ๋Šฅ ๋‹ฌ์„ฑ (๊ทธ๋ฆผ 3, ํ‰๊ท  ์ •ํ™•๋„ 20.4% vs 22.4%).
  4. ์„ฑ๊ณผ 4 - ๋ฒค์น˜๋งˆํฌ ๊ตฌ์ถ•: 7๊ฐœ ์ฃผ์š” ์˜๋ฃŒ ๋ถ€์„œ(ํ˜ธํก๊ธฐ๊ณ„, ์œ„์žฅ๊ด€๊ณ„, ๋น„๋‡จ๊ธฐ๊ณ„, ์‹ฌํ˜ˆ๊ด€๊ณ„, ๋ฉด์—ญํ•™, ์‹ ๊ฒฝํ•™, ๋‚ด๋ถ„๋น„ํ•™)๋ฅผ ํฌ๊ด„ํ•œ 3,500๊ฐœ ์ƒ˜ํ”Œ์˜ ๋„์ „์  ํ‰๊ฐ€ ๋ฒค์น˜๋งˆํฌ MedBench-Hard ๊ตฌ์ถ•.

How

Figure 1

๊ทธ๋ฆผ 1: ์ž„์ƒ ๊ธฐ๋ก ๊ธฐ๋ฐ˜ ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ ํŒŒ์ดํ”„๋ผ์ธ ์ƒ์„ธ๋„

์˜๋ฃŒ ๋ฐ์ดํ„ฐ ๊ตฌ์ถ•:

์žฅํ˜• ์ถ”๋ก (Long CoT) ์ƒ์„ฑ:

๋‘ ๋‹จ๊ณ„ ํ•™์Šต:

  1. ์ง€๋„ํ•™์Šต ๋ฏธ์„ธ์กฐ์ •(SFT): ์งˆ๋ฌธ, ์ถ”๋ก  ๊ณผ์ •(thinking), ์ตœ์ข… ์‘๋‹ต์œผ๋กœ ๊ตฌ์„ฑ๋œ ๋ช…๋ น์–ด ํŠœ๋‹ ๋ฐ์ดํ„ฐ์…‹ ํ™œ์šฉ
  2. ๊ฐ•ํ™”ํ•™์Šต(RL): ์ •์ฑ… ๊ทผ์ฒ˜ ์ตœ์ ํ™”(Proximal Policy Optimization, PPO) ์•Œ๊ณ ๋ฆฌ์ฆ˜ ํ™œ์šฉํ•˜์—ฌ ์žฅ๊ธฐ ์ถ”๋ก  ๋Šฅ๋ ฅ ์ตœ์ ํ™”

๋ณด์ƒ ์„ค๊ณ„:

Originality

Limitation & Further Study

ํ•œ๊ณ„:

ํ›„์† ์—ฐ๊ตฌ ๋ฐฉํ–ฅ:

Evaluation

Novelty: 3.5/5 Technical Soundness: 3.5/5 Significance: 3/5 Clarity: 3.5/5 Overall: 3.5/5

์ดํ‰: ClinicalGPT-R1์€ ์ผ๋ฐ˜ ๋„๋ฉ”์ธ์˜ ์ถ”๋ก  ๊ธฐ๋ฒ•์„ ์˜๋ฃŒ์— ์ฒด๊ณ„์ ์œผ๋กœ ์ ์šฉํ•˜๊ณ  ์‹ค์ œ ์ž„์ƒ ๊ธฐ๋ก ๊ธฐ๋ฐ˜์˜ ๋ฐ์ดํ„ฐ์…‹์„ ํ™œ์šฉํ•œ ์ ์—์„œ ์ฐฝ์˜์ ์ด๋‚˜, ์ ˆ๋Œ€ ์„ฑ๋Šฅ ์ˆ˜์น˜์˜ ๋‚ฎ์Œ๊ณผ ํ‰๊ฐ€์˜ ์ œํ•œ์„ฑ, ๊ทธ๋ฆฌ๊ณ  ์ค‘๊ตญ์–ด ์ค‘์‹ฌ์˜ ์„ฑ๊ณผ๋กœ ์ธํ•ด ์ผ๋ฐ˜์  ์ž„์ƒ ์‘์šฉ์„ฑ์ด ์•„์ง ๋ฏธํกํ•˜๋‹ค. ์˜๋ฃŒ AI ๋ถ„์•ผ์—์„œ ์ถ”๋ก  ๊ฐ•ํ™”์˜ ์ค‘์š”์„ฑ์„ ๋ณด์—ฌ์ฃผ๋Š” ์„ ๋„์  ์—ฐ๊ตฌ์ด๋‚˜, ์‹ค์šฉํ™”๋ฅผ ์œ„ํ•ด์„œ๋Š” ๋”์šฑ ๊ฐ•๋ ฅํ•œ ์„ฑ๋Šฅ ๊ฐœ์„ ๊ณผ ์ž„์ƒ ํƒ€๋‹น์„ฑ ๊ฒ€์ฆ์ด ํ•„์š”ํ•˜๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
ClinicalGPT-R1์˜ ์˜๋ฃŒ ํŠนํ™” ์ง„๋‹จ ๊ธฐ๋Šฅ์€ ๋‹ค์–‘ํ•œ ์ž„์ƒ ๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜ ClinicalGPT์˜ ํ•ต์‹ฌ ๊ฐœ๋…์„ ๊ณ„์Šน/ํ™•์žฅํ–ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM์˜ ์˜๋ฃŒ ์ง„๋‹จ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ์œ ์‚ฌํ•œ ์—ฐ๊ตฌ๋กœ, ๋‹ค๋ฅธ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ๋‚˜ ์‹œ์Šคํ…œ์„ ๋Œ€์ƒ์œผ๋กœ ํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ž„์ƒ ์งˆ๋ณ‘ ์ง„๋‹จ ์ถ”๋ก ์— ํŠนํ™”๋œ LLM๊ณผ, ํ•™์ˆ  ์ง€์‹ ์งˆ์˜์‘๋‹ต์„ ์œ„ํ•œ ๋ชจ๋ธ์„ ๋น„๊ตํ•ด๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
MedBioLM์€ ํŒŒ์ธํŠœ๋‹ํ•œ ๋‹ค์–‘ํ•œ ์˜๋ฃŒ QA๋ฅผ ํ†ตํ•ด, 225์˜ ์ž„์ƒ ๊ธฐ๋ก ๊ธฐ๋ฐ˜ ClinicalGPT-R1๊ณผ ๋น„๊ต ๊ฐ€๋Šฅํ•œ ์˜๋ฃŒ ์„ ํƒ์  QA ์„ฑ๋Šฅ์„ ์„ ๋ณด์ž…๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
ClinicalGPT-R1 ๋…ผ๋ฌธ์€ ์ž„์ƒ LLM์˜ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋ฉฐ ์ง„๋‹จ ์ธ๊ณต์ง€๋Šฅ์— ํŠนํ™”๋œ ๋ฒค์น˜๋งˆํฌ ์‚ฌ๋ก€๋ฅผ ์ถ”๊ฐ€๋กœ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
ClinicalGPT-R1 ๋…ผ๋ฌธ์€ ์ž„์ƒ ๋ถ„์•ผ LLM์˜ ์ „๋ฌธ์  ์ถ”๋ก  ๋Šฅ๋ ฅ ํ–ฅ์ƒ๊ณผ ์‹ค์ œ ํ™˜๊ฒฝ ์ ์šฉ ๋ฐฉ์‹์„ ์ œ์‹œํ•˜๋ฏ€๋กœ, ํ™˜์ž ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ์™€ ๋„๋ฉ”์ธ ํŠนํ™” LLM์˜ ๋Œ€์•ˆ์  ์„ค๊ณ„ ์‹œ์‚ฌ์ ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์˜๋ฃŒ์ง„๋‹จ์šฉ ํŠนํ™” LLM ๊ฐœ๋ฐœ๊ณผ ๋‹ฌ๋ฆฌ, ์ธ๊ฐ„-LLM ํ˜‘์—…์— ์ค‘์ ์„ ๋‘” ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ์‹œ์Šคํ…œ์„ ๋น„๊ตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
837์€ ํ™”ํ•™ ํŠนํ™” LLM์˜ ์ถ”๋ก  ๋ฐ ์ „๋ฌธ๊ฐ€ ์ˆ˜์ค€ ์„ฑ๋Šฅ์„, 225๋Š” ์ž„์ƒ ์ง„๋‹จ ํŠนํ™” LLM์˜ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ๊ฐ๊ฐ ๋ณด์—ฌ์ค€๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์˜๋ฃŒ ํŠนํ™” ๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ ๊ฐœ๋ฐœ์—์„œ ์œ ์‚ฌํ•œ ๋ชฉํ‘œ๋ฅผ ๋‹ค๋ฅธ ๋ฐฉ๋ฒ•๋ก ์œผ๋กœ ์ ‘๊ทผํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ƒ์˜ํ•™ ๋ฐ ์•ฝ๋ฌผ์ „๋‹ฌ ๊ด€๋ จ LLM ๊ธฐ๋ฐ˜ ์‹œ์Šคํ…œ์˜ ๋…ผ๋ฆฌ์  ์ถ”๋ก  ํ–ฅ์ƒ ๋ฐ ํ˜์‹ ์  ์•ฝ๋ฌผ ๊ฐœ๋ฐœ ์ ์šฉ ์‚ฌ๋ก€๋กœ ๋Œ€์ฒด์  ์ ‘๊ทผ์„ ๋ณด์—ฌ์ค€๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
ClinicalGPT๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๊ฐ•ํ™”ํ•™์Šต์„ ํ†ตํ•ด ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ๊ฐ•ํ™”ํ•œ ํ™•์žฅ ์—ฐ๊ตฌ์ด๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
์‹ค์ œ ์ž„์ƒ LLM์˜ ์„ฑ๋Šฅ ๊ฒ€์ฆ, ์ง„๋‹จ ๋ฒค์น˜๋งˆํฌ๋ฅผ ํ†ตํ•ด ClinicalGPT-R1์ด ์ง€ํ–ฅํ•˜๋Š” ์ถ”๋ก ๋ ฅ ํ–ฅ์ƒ ์‚ฌ๋ก€๋ฅผ ๊ตฌ์ฒด์ ์œผ๋กœ ๋ณด์—ฌ์ค€๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
225์˜ ์ž„์ƒ ๊ธฐ๋ก ๊ธฐ๋ฐ˜ LLM ์ง„๋‹จ ๋ชจ๋ธ ์—ฐ๊ตฌ๋Š” 663์˜ ๋‹ค์ค‘ ์—์ด์ „ํŠธํ˜• ์ž„์ƒ ์˜์‚ฌ๊ฒฐ์ • ์ง€์› ์‹œ์Šคํ…œ๊ณผ ๋น„๊ตํ•ด ์‹ค์ œ ๋ณ‘์› ํ™˜๊ฒฝ์—์„œ์˜ ์ ์šฉ ๋…ผ์˜๋ฅผ ํ™•์žฅํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
์ •์‹ ๊ณผ ์™ธ ๋‹ค์–‘ํ•œ ์ž„์ƒ๋„๋ฉ”์ธ LLM ์ ํ•ฉ์„ฑ ํ‰๊ฐ€ ๋ฐ ๊ฐ•ํ™” ํ† ๋ก  ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ํ†ตํ•ด ํ™˜์ž ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ํ‰๊ฐ€๋ฅผ ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
225๋Š” ์ž„์ƒ ์ง„๋‹จ์— ํŠนํ™”๋œ LLM ๋ฐ ๋ณต์ˆ˜ ๋ฐ์ดํ„ฐ์…‹์„ ํ†ตํ•œ ์งˆ๋ณ‘ ์˜ˆ์ธก์„ ๋‹ค๋ฃจ์–ด, 817์ด ์ œ์•ˆํ•œ ์งˆ๋ณ‘ ์œ ์ „์ž ๋ฐœ๊ฒฌ ํŒŒ์ดํ”„๋ผ์ธ์˜ ์‹ค์ œ์  ์‘์šฉ์ด๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
์˜์‚ฌ์™€ LLM์˜ ํ˜‘์—…์  ์ง„๋‹จ์ง€์› ํ”„๋ ˆ์ž„์›Œํฌ๊ฐ€ ์‹ค์ œ ์ž„์ƒ์ ์šฉ์—์„œ์˜ ์‹œ์‚ฌ์ ์„ ๋ณด์™„ํ•ฉ๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •