PubMedQA: A Dataset for Biomedical Research Question Answering

์ €์ž: Qiao Jin, Bhuwan Dhingra, Zhengping Liu, William Cohen, Xinghua Lu | ๋‚ ์งœ: 2019 | DOI: ๋ฏธ์ œ๊ณต 📄 PDF


Essence

์ƒ์˜ํ•™ ๋ถ„์•ผ์˜ ์—ฐ๊ตฌ ๋…ผ๋ฌธ ์ดˆ๋ก์„ ์ด์šฉํ•˜์—ฌ yes/no/maybe๋กœ ๋‹ต๋ณ€ํ•˜๋Š” ์งˆ๋ฌธ์‘๋‹ต ๋ฐ์ดํ„ฐ์…‹์„ ์ œ์•ˆํ•œ๋‹ค. 1,000๊ฐœ์˜ ์ „๋ฌธ๊ฐ€ ์ฃผ์„ ๋ฐ์ดํ„ฐ, 61,200๊ฐœ์˜ ๋ฏธํ‘œ์ง€ ๋ฐ์ดํ„ฐ, 211,300๊ฐœ์˜ ์ž๋™์ƒ์„ฑ ๋ฐ์ดํ„ฐ๋กœ ๊ตฌ์„ฑ๋˜๋ฉฐ, ์ •๋Ÿ‰์  ์ถ”๋ก ์ด ํ•„์š”ํ•œ ์ตœ์ดˆ์˜ ์ƒ์˜ํ•™ QA ๋ฐ์ดํ„ฐ์…‹์ด๋‹ค.

Motivation

Achievement

Figure 2

PubMedQA ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์กฐ: PQA-Labeled(1k), PQA-Unlabeled(61.2k), PQA-Artificial(211.3k)์˜ ์„ธ ๊ฐ€์ง€ ๋ถ€๋ถ„์ง‘ํ•ฉ์œผ๋กœ ๊ตฌ์„ฑ

  1. ๋ฐ์ดํ„ฐ์…‹ ๊ทœ๋ชจ ๋ฐ ๋‹ค์–‘์„ฑ: ์ „๋ฌธ๊ฐ€ ์ฃผ์„ 1,000๊ฐœ, ๋ฐ˜์ค€์ง€๋„ํ•™์Šต์šฉ ๋ฏธํ‘œ์ง€ 61,200๊ฐœ, ์‚ฌ์ „ํ›ˆ๋ จ์šฉ ์ž๋™์ƒ์„ฑ 211,300๊ฐœ์˜ ์ด 273,500๊ฐœ ์ธ์Šคํ„ด์Šค ๊ตฌ์ถ•. PubMed์˜ MeSH(Medical Subject Headings) ๋ถ„๋ฅ˜์— ๋”ฐ๋ผ ์ธ๊ฐ„ ์—ฐ๊ตฌ, ์น˜๋ฃŒ ๊ฒฐ๊ณผ, ์œ„ํ—˜ ์š”์†Œ ๋“ฑ ๋‹ค์–‘ํ•œ ์˜ํ•™ ์ฃผ์ œ ํฌ๊ด„.
  2. ์ถ”๋ก  ์š”๊ตฌ ํŠน์„ฑ: PQA-Labeled์—์„œ ๋‘ ๋ช…์˜ ์ฃผ์„์ž๋ฅผ ํ™œ์šฉํ•œ ์ด์ค‘ ์ฃผ์„ ํ”„๋กœ์„ธ์Šค(Algorithm 1)๋กœ, ์žฅ๋‹ต๋ณ€ ์—†์ด ์ˆœ์ˆ˜ ๋งฅ๋ฝ๋งŒ์œผ๋กœ ์ถ”๋ก ์ด ํ•„์š”ํ•œ ๋ฐ์ดํ„ฐ ๊ฒ€์ฆ. ์‚ฌ๋žŒ์˜ ๋‹จ์ผ ์„ฑ๋Šฅ์€ 78.0%, ๋‹ค์ˆ˜๊ฒฐ ๋ฒ ์ด์Šค๋ผ์ธ์€ 55.2%๋กœ, ์ƒ๋‹นํ•œ ๊ฐœ์„  ์—ฌ์ง€๋ฅผ ์‹œ์‚ฌ.
  3. ๋ชจ๋ธ ์„ฑ๋Šฅ: BioBERT์˜ ๋‹ค๋‹จ๊ณ„ ๋ฏธ์„ธ์กฐ์ •(multi-phase fine-tuning)๊ณผ ์žฅ๋‹ต๋ณ€์˜ bag-of-word ํ†ต๊ณ„๋ฅผ ์ถ”๊ฐ€ ์ง€๋„์‹ ํ˜ธ๋กœ ํ™œ์šฉํ•˜์—ฌ 68.1% ์ •ํ™•๋„ ๋‹ฌ์„ฑ. ์ด๋Š” ์ธ๊ฐ„ ์„ฑ๋Šฅ(78.0%)๊ณผ์˜ 9.9% ๊ฒฉ์ฐจ๋ฅผ ๋ณด์ด๋ฉฐ ์‹œ์Šคํ…œ์˜ ํ•œ๊ณ„๋ฅผ ๋ช…์‹œ์ ์œผ๋กœ ๋“œ๋Ÿฌ๋ƒ„.

How

Figure 3

PubMedQA ๋ฐ์ดํ„ฐ์…‹์˜ MeSH ์ฃผ์ œ ๋ถ„ํฌ: ์ธ๊ฐ„ ์—ฐ๊ตฌ, ์—ฌ์„ฑ, ๋‚จ์„ฑ, ์ค‘๋…„ ๋“ฑ์˜ ์šฉ์–ด๊ฐ€ ๋†’์€ ๋นˆ๋„๋กœ ๋‚˜ํƒ€๋‚จ

๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ๋ฐฉ๋ฒ•๋ก :

๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜:

Originality

Limitation & Further Study

ํ•œ๊ณ„:

ํ›„์† ์—ฐ๊ตฌ ๋ฐฉํ–ฅ:

Evaluation

Novelty: 4.5/5 Technical Soundness: 4/5 Significance: 4.5/5 Clarity: 4.5/5 Overall: 4.25/5

์ดํ‰: PubMedQA๋Š” ์ƒ์˜ํ•™ ํ…์ŠคํŠธ ๊ธฐ๋ฐ˜ ์ถ”๋ก ์ด ํ•„์ˆ˜์ ์ธ ์ฒซ ๋Œ€๊ทœ๋ชจ QA ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ, PubMed์˜ ์ž์—ฐ์  ๊ตฌ์กฐ๋ฅผ ์ฐฝ์˜์ ์œผ๋กœ ํ™œ์šฉํ•œ ์ ๊ณผ ์‚ผ์ธต ๊ตฌ์กฐ์˜ ์ฒด๊ณ„์  ์„ค๊ณ„๊ฐ€ ๋‹๋ณด์ธ๋‹ค. ๋‹ค๋งŒ ์ž๋™์ƒ์„ฑ ๋ถ€๋ถ„์ง‘ํ•ฉ์˜ ํ’ˆ์งˆ ํ•œ๊ณ„์™€ ์ธ๊ฐ„-๋ชจ๋ธ ์„ฑ๋Šฅ ๊ฒฉ์ฐจ ๋ถ„์„์˜ ๋ถ€์กฑ์ด ๋ณด์™„๋˜์–ด์•ผ ํ•  ์ ์ด๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
BioBERT ๋…ผ๋ฌธ์€ PubMed ๋“ฑ ์ƒ์˜ํ•™ ํ…์ŠคํŠธ์— ํŠนํ™”๋œ LLM์œผ๋กœ, PubMedQA์˜ ๊ณ ํ’ˆ์งˆ QA ๋ฐ์ดํ„ฐ์…‹ ํ•™์Šต/์‘์šฉ์— ํ•„์ˆ˜์ ์ธ ๊ธฐ์ดˆ๋ฅผ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
645์˜ PubMedQA ๋ฐ์ดํ„ฐ์…‹์€ 068์—์„œ ๋ฌธํ—Œ ๊ธฐ๋ฐ˜ ์ž„์ƒ ํŒ๋‹จ์˜ ์ •ํ™•๋„ ํ–ฅ์ƒ์— ํ•„์š”ํ•œ ๊ฒ€์ฆ๋œ QA ๋ฐ์ดํ„ฐ ์†Œ์Šค์ด๋ฉฐ, ์ด๋ก ์  ๋ฐ”ํƒ•์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
PubMedQA ๋…ผ๋ฌธ์€ ScholarChemQA ๋“ฑ ๊ณผํ•™ QA ๋ฐ์ดํ„ฐ์…‹์˜ ์„ค๊ณ„์™€ ํ‰๊ฐ€ ๋ฐฉ์‹์— ์žˆ์–ด ๋Œ€ํ‘œ์ ์ธ ์ „ํ†ต์  ๋ฐ”์ด์˜ค๋ฉ”๋””์ปฌ QA ๋ฐ์ดํ„ฐ์…‹์ž…๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
PubMedQA๋Š” ์ƒ์˜ํ•™ ๋…ผ๋ฌธ ๊ธฐ๋ฐ˜ ๊ฑด๊ฐ• ์งˆ๋ฌธ ์‘๋‹ต์˜ ๋Œ€ํ‘œ์  ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ, 424 ๋…ผ๋ฌธ์˜ ์ฆ๊ฑฐ ๊ฒ€์ƒ‰ ์ „๋žต ์—ฐ๊ตฌ์˜ ๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜์ด ๋œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
PubMedQA๋Š” ์‹ค์ œ ์ƒ์˜ํ•™ ๋…ผ๋ฌธ์— ๊ธฐ๋ฐ˜ํ•œ QA ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ LLMEval-Med์—์„œ ์ž„์ƒ QA ๋ฒค์น˜๋งˆํฌ ๊ตฌ์ถ•์˜ ๊ธฐ๋ณธ ์ž๋ฃŒ์™€ ๋ฌธ์ œ ์œ ํ˜•์„ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
PubMedQA๋Š” ์ƒ์˜ํ•™ QA ๋ถ„์•ผ์˜ ํ•ต์‹ฌ ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ, MedAgentGym์˜ ์ฝ”๋“œ ๊ธฐ๋ฐ˜ ์ถ”๋ก  ํ‰๊ฐ€์— ๋ฐฐ๊ฒฝ ์ •๋ณด๋ฅผ ์ œ๊ณตํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
SciBERT๋Š” PubMedQA์™€ ๊ฐ™์€ ์ƒ์˜ํ•™ QA ๋ฐ์ดํ„ฐ์…‹ ํ•™์Šต์— ํŠนํ™”๋œ ํ”„๋ฆฌํŠธ๋ ˆ์ธ๋“œ ๋ชจ๋ธ๋กœ, ๋…ผ๋ฌธ ์งˆ๋ฌธ์‘๋‹ต ์„ฑ๋Šฅ์„ ๋†’์ž…๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ƒ์˜ํ•™ ๋…ผ๋ฌธ์„ ํ™œ์šฉํ•œ ์งˆ๋ฌธ์‘๋‹ต๊ณผ ์š”์•ฝ ๋ฐ์ดํ„ฐ์…‹ ์—ฐ๊ตฌ๋กœ, ์ž๋™ํ™”๋œ ๋ฆฌ๋ทฐ ๋ฐ ์ •๋ณด ์ถ”์ถœ ํ‰๊ฐ€์— ์ƒํ˜ธ๋ณด์™„์  ์‹œ๊ฐ์„ ์ œ๊ณตํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
SciQAG๋Š” ํ•™๊ณ„ ๋‚ด ์ƒˆ๋กœ์šด ๊ณผํ•™ QA ์…‹ ์ƒ์„ฑ์œผ๋กœ PubMedQA๋ณด๋‹ค ๋‹ค์–‘ํ•œ ์ ‘๊ทผ ๋ฐ ๊ณผ๋ชฉ์„ ๋‹ค๋ฃจ์–ด ๋น„๊ต ์ฝ๊ธฐ์— ์ ํ•ฉํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
MedBioLM ๋…ผ๋ฌธ์€ ์ƒ๋ช…๊ณผํ•™/์˜ํ•™ QA ์ตœ์ ํ™”์— ํŠนํ™”๋œ LLM ๊ฐœ๋ฐœ์„ ๋‹ค๋ฃจ์–ด, PubMedQA์˜ ์ •๋Ÿ‰์  QA ๋ฒค์น˜๋งˆํฌ์™€ ๋น„๊ต ๊ฐ€๋Šฅํ•˜๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์˜ํ•™ ๋ฌธํ—Œ์—์„œ ์ง€์‹ ์ถ”์ถœ ๋ฐ ๊ทธ๋ž˜ํ”„ ๊ตฌ์ถ•์„ ์œ„ํ•œ LLM ํ™œ์šฉ์„ ๋‹ค๋ฃจ๋Š” ๊ด€๋ จ ์—ฐ๊ตฌ์ด๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
์ƒ์˜ํ•™ ์—ฐ๊ตฌ์— ํŠนํ™”๋œ ์ง€์‹๊ทธ๋ž˜ํ”„ ์—ฐ๊ณ„ LLM์„ ํ†ตํ•œ QA ๋ฐ ๊ฐ€์„ค ์ƒ์„ฑ ๋ฐฉ๋ฒ•์€ PubMedQA์˜ ์‹ค์ œ ๋ฐ์ดํ„ฐ๋ฅผ ํ™•์žฅ์ ์œผ๋กœ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
LLMEval-Med๋Š” PubMedQA ๋ฐ์ดํ„ฐ์…‹ ๊ธฐ๋ฐ˜ ์ž„์ƒ ์‹œ๋‚˜๋ฆฌ์˜ค์—์„œ LLM ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•˜๋ฉฐ, ๊ธฐ์กด QA ๋ฐ์ดํ„ฐ์…‹์„ ์‹ค์ œ ์˜๋ฃŒ ํ™˜๊ฒฝ์œผ๋กœ ํ™•์žฅํ•œ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
Bio-SIEVE ๋…ผ๋ฌธ์€ PubMedQA์™€ ๊ฐ™์€ QA ๋ฐ์ดํ„ฐ์…‹์—์„œ instruction tuning์„ ํ†ตํ•ด LLM ๊ธฐ๋ฐ˜ ๋‹ต๋ณ€์˜ ์‹ ๋ขฐ๋„๋ฅผ ์‹ฌ์ธต์ ์œผ๋กœ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
์ง€์‹ ์ถ”์ถœ ๋ฐ QA ๋ถ„์•ผ์—์„œ GEEX์™€ ๊ฐ™์€ ์„ค๋ช… ์ƒ์„ฑ ๊ธฐ๋ฒ•์ด ์‹ค์ œ ๋„๋ฉ”์ธ ๋ฌธ์ œ(์ƒ์˜ํ•™ ์งˆ์˜ ์‘๋‹ต)์— ์–ด๋–ป๊ฒŒ ํ™œ์šฉ๋  ์ˆ˜ ์žˆ์„์ง€ ์‹œ์‚ฌ์ ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •