MedBioLM: Optimizing Medical and Biological QA with Fine-Tuned Large Language Models and Retrieval-Augmented Generation

์ €์ž: Seonโ€Ok Kim | ๋‚ ์งœ: 2025 | DOI: N/A 📄 PDF


Essence

Figure 2

๊ทธ๋ฆผ 2: ์ƒ์˜ํ•™ ์งˆ์˜์‘๋‹ต ์ตœ์ ํ™”๋ฅผ ์œ„ํ•œ ์ ‘๊ทผ ๋ฐฉ์‹ ๊ฐœ์š” - ๋ฏธ์„ธ์กฐ์ •, ๊ฒ€์ƒ‰ ์ฆ๊ฐ• ์ƒ์„ฑ(RAG), ํ”„๋กฌํ”„ํŠธ ์—”์ง€๋‹ˆ์–ด๋ง ํ†ตํ•ฉ

MedBioLM์€ ์˜๋ฃŒ ๋ฐ ์ƒ๋ฌผํ•™ ๋ถ„์•ผ์˜ ์งˆ์˜์‘๋‹ต(QA) ์ž‘์—…์— ์ตœ์ ํ™”๋œ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)๋กœ, ๋ฏธ์„ธ์กฐ์ •(fine-tuning)๊ณผ ๊ฒ€์ƒ‰ ์ฆ๊ฐ• ์ƒ์„ฑ(RAG)์„ ๊ฒฐํ•ฉํ•˜์—ฌ ์‚ฌ์‹ค์  ์ •ํ™•์„ฑ๊ณผ ์‹ ๋ขฐ์„ฑ์„ ๋™์‹œ์— ํ–ฅ์ƒ์‹œํ‚จ๋‹ค. ํ์‡„ํ˜• QA(๊ฐ๊ด€์‹), ์žฅ๋ฌธํ˜• QA, ๋‹จ๋ฌธํ˜• QA ๋“ฑ ๋‹ค์–‘ํ•œ ํ˜•์‹์—์„œ ๊ธฐ์กด ๋ชจ๋ธ์„ ๋Šฅ๊ฐ€ํ•˜๋Š” ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•œ๋‹ค.

Motivation

Achievement

Figure 1

๊ทธ๋ฆผ 1: MedBioLM๊ณผ ๊ธฐ๋ณธ ๋ชจ๋ธ์˜ ํ์‡„ํ˜• ๋ฐ ๋‹จ๋ฌธํ˜• ์˜๋ฃŒ QA ์ž‘์—… ์„ฑ๋Šฅ ๋น„๊ต

  1. ํ์‡„ํ˜• QA ์„ฑ๋Šฅ ํ–ฅ์ƒ: ๋ฏธ์„ธ์กฐ์ •๋œ MedBioLM์ด MedQA์—์„œ 88% ์ •ํ™•๋„, BioASQ์—์„œ 96% ์ •ํ™•๋„ ๋‹ฌ์„ฑ. ์ด๋Š” GPT-4o, GPT-3.5๋ฅผ ๋Šฅ๊ฐ€ํ•˜๋Š” 10-30% ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ์˜๋ฏธํ•œ๋‹ค.
  2. ์žฅ๋ฌธํ˜• QA ๊ฐœ์„ : MedicationQA์—์„œ ROUGE-1 ๋ฐ BLEU ์ ์ˆ˜๊ฐ€ GPT-4o ๋Œ€๋น„ ํ–ฅ์ƒ๋˜์–ด ์ƒ์„ธํ•˜๊ณ  ์ผ๊ด€์„ฑ ์žˆ๋Š” ์„ค๋ช… ์ƒ์„ฑ ๋Šฅ๋ ฅ ์ž…์ฆ.
  3. RAG์˜ ๋‹จ๋ฌธํ˜• QA ํšจ๊ณผ: ๊ฒ€์ƒ‰ ์ฆ๊ฐ• ์ƒ์„ฑ์ด ๋‹จ๋ฌธํ˜• QA์—์„œ ์‚ฌ์‹ค์  ์ •ํ™•์„ฑ ๋ฐ ์–ดํœ˜ ์œ ์‚ฌ์„ฑ(ROUGE-1) ํ–ฅ์ƒ์— ํŠนํžˆ ํšจ๊ณผ์ ์ž„์„ ํ™•์ธ.
  4. GPT-4o ์šฐ์ˆ˜์„ฑ ๊ฒ€์ฆ: ์ตœ์‹  ๋ชจ๋ธ(GPT-4o)์ด ๋ฏธ์„ธ์กฐ์ • ์‹œ GPT-4 ๋ฐ GPT-3.5๋ณด๋‹ค ๋ชจ๋“  ์˜๋ฃŒ QA ๋ฒค์น˜๋งˆํฌ์—์„œ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์ž„.

How

Figure 3

๊ทธ๋ฆผ 3: RAG(๊ฒ€์ƒ‰ ์ฆ๊ฐ• ์ƒ์„ฑ) ํ”„๋กœ์„ธ์Šค - ์ฟผ๋ฆฌ ์ธ์ฝ”๋”, ์ง€์‹ ๊ฒ€์ƒ‰ยท๊ฒ€์ƒ‰, ๋‹ต๋ณ€ ์ƒ์„ฑ๊ธฐ์˜ 3๋‹จ๊ณ„ ๊ตฌ์„ฑ

๋ฏธ์„ธ์กฐ์ •(Fine-tuning)

๊ฒ€์ƒ‰ ์ฆ๊ฐ• ์ƒ์„ฑ(RAG)

ํ”„๋กฌํ”„ํŠธ ์—”์ง€๋‹ˆ์–ด๋ง

Azure ํด๋ผ์šฐ๋“œ ํ™˜๊ฒฝ ํ™œ์šฉ

Originality

Limitation & Further Study

Evaluation

Novelty: 3.5/5 Technical Soundness: 3/5 Significance: 3.5/5 Clarity: 3/5 Overall: 3/5

์ดํ‰: MedBioLM์€ ๋ฏธ์„ธ์กฐ์ •๊ณผ RAG๋ฅผ ์˜๋ฃŒ QA์— ํ†ตํ•ฉํ•œ ์‹ค์šฉ์  ์—ฐ๊ตฌ๋กœ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๋ณด์—ฌ์ฃผ์ง€๋งŒ, ๊ธฐ์ˆ ์  ์„ธ๋ถ€์‚ฌํ•ญ ๋ฏธ๋น„์™€ ์„ ํ–‰์—ฐ๊ตฌ ๋Œ€๋น„ ์ฐจ๋ณ„์„ฑ ๋ถ€์กฑ์œผ๋กœ ํ•™์ˆ ์  ๊ธฐ์—ฌ๋„๋Š” ์ค‘์ƒ ์ˆ˜์ค€์ด๋ฉฐ, ์ž„์ƒ ํƒ€๋‹น์„ฑ ๊ฒ€์ฆ ๊ฐ•ํ™”๊ฐ€ ํ•„์š”ํ•˜๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
BioBERT, SciBERT ๋“ฑ ๊ธฐ์กด ์ƒ์˜ํ•™/์ƒ๋ฌผํ•™ ํŠนํ™” LLM๊ณผ ๋น„๊ตํ•˜์—ฌ ๋ณธ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ ๊ฐœ์„ ์ ์„ ์งš์„ ์ˆ˜ ์žˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
RAG(Retrieval-Augmented Generation)์— ๊ด€ํ•œ ์‹ฌ๋„์žˆ๋Š” ๋ฆฌ๋ทฐ ๋…ผ๋ฌธ์œผ๋กœ, [530]์ด ์ฑ„ํƒํ•œ RAG ๊ธฐ๋ฐ˜ QA ์‹œ์Šคํ…œ์˜ ์ด๋ก ์  ๋ฐฐ๊ฒฝ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
486 ๋…ผ๋ฌธ์€ ์ง€์‹ ๊ทธ๋ž˜ํ”„ ๊ธฐ๋ฐ˜ ์ถ”๋ก ๊ณผ ๊ฒ€์ฆ์„ ์ˆ˜๋ฆฌ์ ์œผ๋กœ ์„ค๋ช…ํ•˜์—ฌ, 530 ๋…ผ๋ฌธ์—์„œ ์˜๋ฃŒ ์ง€์‹ ๊ทธ๋ž˜ํ”„ ์งˆ์˜์‘๋‹ต์— ์‘์šฉ๋  ์ˆ˜ ์žˆ๋Š” ์ด๋ก ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
MedBioLM ๋…ผ๋ฌธ์€ ๋‹ค์–‘ํ•œ ์ƒ๋ช…๊ณผํ•™ ๋ถ„์•ผ QA ๋ฌธ์ œ ํ•ด๊ฒฐ์„ ์œ„ํ•œ ํŒŒ์ธํŠœ๋‹ ๋ฐฉ๋ฒ•๋ก ์„ ๋‹ค๋ฃจ์–ด, ScholarChemQA ๋ฐ์ดํ„ฐ์…‹ ๊ฐœ๋ฐœ๊ณผ QAMatch ๋ชจ๋ธ ์—ฐ๊ตฌ์— ๊ธฐ์ดˆ๊ฐ€ ๋œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
MedBioLM ๋…ผ๋ฌธ์€ ์ƒ๋ช…๊ณผํ•™/์˜ํ•™ QA ์ตœ์ ํ™”์— ํŠนํ™”๋œ LLM ๊ฐœ๋ฐœ์„ ๋‹ค๋ฃจ์–ด, PubMedQA์˜ ์ •๋Ÿ‰์  QA ๋ฒค์น˜๋งˆํฌ์™€ ๋น„๊ต ๊ฐ€๋Šฅํ•˜๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ž„์ƒ ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•œ ์˜๋ฃŒ LLM ๋ฏธ์„ธ์กฐ์ •์—์„œ ์œ ์‚ฌํ•œ ๋ฌธ์ œ๋ฅผ ๋‹ค๋ฅธ ๋ฐฉ์‹์œผ๋กœ ์ ‘๊ทผํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์˜ํ•™ ๋ฐ ์ƒ๋ช…๊ณผํ•™ ๊ด€๋ จ ์ง€์‹ ๊ทธ๋ž˜ํ”„ ์งˆ์˜์‘๋‹ต์— LLM ๊ธฐ๋ฐ˜ ๋ฐฉ์‹์„ ์ ์šฉํ•˜์—ฌ, MedBioLM์˜ ์ ‘๊ทผ๋ฒ•๊ณผ ๋น„๊ตํ•  ์ˆ˜ ์žˆ๋Š” ๋Œ€์•ˆ์  ์†”๋ฃจ์…˜์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์˜๋ฃŒ QA ๋ฐ reasoning์—์„œ LLMs์˜ ์‘์šฉ์„ ๊ณ ๋„ํ™”ํ•˜๋Š” ๊ธฐ์ˆ ์  ์ ‘๊ทผ์˜ ๋˜ ๋‹ค๋ฅธ ๋Œ€ํ‘œ ์‚ฌ๋ก€์ž…๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
404๋ฒˆ ๋…ผ๋ฌธ์€ ๊ณ ์„ฑ๋Šฅ RAG ๊ธฐ๋ฐ˜ ๋ฌธํ—Œ QA ์‹œ์Šคํ…œ์„ ์ œ์•ˆํ•˜๋ฏ€๋กœ, 530๋ฒˆ ๋…ผ๋ฌธ๊ณผ ํ•จ๊ป˜ ๋ณด๋ฉด ์‚ฌ์‹ค์„ฑ, ์‹ ๋ขฐ์„ฑ ๊ฐœ์„ ์„ ์œ„ํ•œ RAG ํ™œ์šฉ ๋ฐฉ์‹์˜ ์ฐจ์ด๋ฅผ ๋น„๊ตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
AI ๊ธฐ๋ฐ˜ ๊ณผํ•™ ์‹คํ—˜ ์žฌํ˜„ ์ž๋™ํ™”์— ๊ด€ํ•œ ์—ฐ๊ตฌ๋กœ, ์งˆ์˜์‘๋‹ต(QA)์ด ์•„๋‹Œ ๋ณต์žกํ•œ ์‹คํ—˜์  ๊ณผํ•™์  ์ž‘์—…์˜ ์‹ ๋ขฐ์„ฑ๊ณผ ๊ฒ€์ฆ ๊ฐ€๋Šฅ์„ฑ ๊ด€์ ์—์„œ ๋Œ€๊ตฌ(MedBioLM) ์ ‘๊ทผ์„ ๋ณด์™„ํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
507 ๋…ผ๋ฌธ์€ ์‹ค์ œ ์ž„์ƒ ํ™˜๊ฒฝ์—์„œ ๋‹ค์–‘ํ•œ ์˜๋ฃŒ LLM์„ ํ‰๊ฐ€ํ•œ ๋ฒค์น˜๋งˆํฌ ๋ฐ์ดํ„ฐ์…‹์„ ์ œ๊ณตํ•ด, 530์—์„œ ์ œ์‹œํ•œ ๋ชจ๋ธ ์„ฑ๋Šฅ ๋น„๊ต์— ๋Œ€ํ•œ ์ฐธ๊ณ ๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
RAG๋ฅผ ํ™œ์šฉํ•œ ๊ณผํ•™ ๋ฌธํ—Œ ๊ธฐ๋ฐ˜ ์ง€์‹ ๋งˆ์ด๋‹ ๋ฐฉ๋ฒ•๋ก ์„ ๋‹ค๋ฃจ๋Š” ์œ ์‚ฌํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
MedBioLM์€ ํŒŒ์ธํŠœ๋‹ํ•œ ๋‹ค์–‘ํ•œ ์˜๋ฃŒ QA๋ฅผ ํ†ตํ•ด, 225์˜ ์ž„์ƒ ๊ธฐ๋ก ๊ธฐ๋ฐ˜ ClinicalGPT-R1๊ณผ ๋น„๊ต ๊ฐ€๋Šฅํ•œ ์˜๋ฃŒ ์„ ํƒ์  QA ์„ฑ๋Šฅ์„ ์„ ๋ณด์ž…๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
530 ๋…ผ๋ฌธ์€ ์งˆ์˜์‘๋‹ตํ˜• LLM ๊ธฐ๋ฐ˜ ์˜๋ฃŒ/์ƒ๋ฌผ QA ์ตœ์ ํ™” ๊ธฐ๋ฒ•์„ ์ œ์‹œํ•ด, 3042์˜ ํ•ญ์ฒด ๊ฐœ๋ฐœ๊ฐ€๋Šฅ์„ฑ ํŠน์„ฑ ์˜ˆ์ธก๊ณผ ์ƒˆ LLM ์‘์šฉ ํ˜•ํƒœ๋ฅผ ๋น„๊ตํ•  ์ˆ˜ ์žˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
530 ๋…ผ๋ฌธ์€ ์ƒ์˜ํ•™ ๋ฐ ์˜๋ฃŒ QA ์ตœ์ ํ™”๋ฅผ ์œ„ํ•œ ์–ธ์–ด๋ชจ๋ธ ํŒŒ์ธํŠœ๋‹ ๊ฒฝ๋กœ๋ฅผ ๋‹ค๋ค„, 734 ํ”„๋ ˆ์ž„์›Œํฌ์˜ ์‹ค์ œ ํ™œ์šฉ ์˜์—ญ์„ ํ™•์žฅ์‹œํ‚ต๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
MedBioLM์€ ๋Œ€๊ทœ๋ชจ ์ƒ์˜ํ•™ ์งˆ์˜์‘๋‹ต์—์„œ LLM์˜ ์„ฑ๋Šฅ์„ ์ตœ์ ํ™”ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ํƒ๊ตฌํ•˜๋ฉฐ, 224๋ฒˆ์˜ ์ž„์ƒ ์—”ํ‹ฐํ‹ฐ ๊ธฐ๋ฐ˜ ๊ฒ€์ƒ‰๊ณผ ์ƒํ˜ธ๋ณด์™„๋ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
MedBioLM ๋…ผ๋ฌธ์€ BioMedLM์ฒ˜๋Ÿผ QA ์„ฑ๋Šฅ ์ตœ์ ํ™”๋œ ๋ชจ๋ธ๋กœ, ์‹ค์ œ ๋ฐ”์ด์˜ค ์งˆ์˜์‘๋‹ต์— ์–ด๋–ป๊ฒŒ ์ ์šฉ๋˜๋Š”์ง€ ๋ณด์—ฌ์ค€๋‹ค.
๋ฐ˜๋ก /๋น„ํŒ
Instruction tuning ๋“ฑ ๋‹ค์–‘ํ•œ ์ตœ์ ํ™” ๋ฐฉ๋ฒ•์ด ์‹ค์ œ QA ํƒœ์Šคํฌ์—์„œ ์–ผ๋งˆ๋‚˜ ์ฐจ์ด๋ฅผ ๋งŒ๋“œ๋Š”์ง€, ๋น„๊ต ๋ถ„์„ ์‚ฌ๋ก€๋ฅผ ์ œ๊ณตํ•œ๋‹ค.
๋ฐ˜๋ก /๋น„ํŒ
184๋ฒˆ ๋…ผ๋ฌธ์€ LLM์ด ๊ณผํ•™ ๋ฌธํ—Œ์— ์ค„ ์ˆ˜ ์žˆ๋Š” ํ”ผ๋“œ๋ฐฑ์˜ ํ•œ๊ณ„์™€ ํ™œ์šฉ๊ฒฐ๊ณผ๋ฅผ ํ‰๊ฐ€ํ•˜์—ฌ, 530๋ฒˆ ๋…ผ๋ฌธ์—์„œ ์ œ์‹œํ•œ QA ์„ฑ๋Šฅ ๊ฐœ์„  ์ฃผ์žฅ์— ๋Œ€ํ•œ ๋น„ํŒ์  ์‹œ๊ฐ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •