BioBERT: a pre-trained biomedical language representation model for biomedical text mining

์ €์ž: Jinhyuk Lee, WonJin Yoon, Sungdong Kim, Donghyeon Kim, Sunkyu Kim | ๋‚ ์งœ: 2019 | DOI: 10.1093/bioinformatics/btz682 📄 PDF


Essence

Figure 1

Fig. 1. Overview of the pre-training and ๏ฌne-tuning of BioBERT

BioBERT๋Š” ์ƒ์˜ํ•™ ๋„๋ฉ”์ธ์— ํŠนํ™”๋œ BERT ๊ธฐ๋ฐ˜์˜ ์‚ฌ์ „ ํ›ˆ๋ จ ๋ชจ๋ธ๋กœ, PubMed์™€ PMC ์ฝ”ํผ์Šค์—์„œ ์ถ”๊ฐ€๋กœ ์‚ฌ์ „ ํ›ˆ๋ จ๋จ์œผ๋กœ์จ ์ผ๋ฐ˜ ๋„๋ฉ”์ธ BERT๋ณด๋‹ค ์ƒ์˜ํ•™ ํ…์ŠคํŠธ ๋งˆ์ด๋‹ ์ž‘์—…์—์„œ ํ˜„์ €ํžˆ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•œ๋‹ค.

Motivation

Achievement

Figure 1

Fig. 1. Overview of the pre-training and ๏ฌne-tuning of BioBERT

BioBERT์˜ ์ฃผ์š” ์„ฑ๊ณผ:

How

Figure 2

Fig. 2. (a) Effects of varying the size of the PubMed corpus for pre-training. (b) NER performance of BioBERT at differe

Originality

Limitation & Further Study

Evaluation

Novelty: 4/5 Technical Soundness: 5/5 Significance: 5/5 Clarity: 5/5 Overall: 5/5

์ดํ‰: BioBERT๋Š” ๋„๋ฉ”์ธ ํŠนํ™” ์‚ฌ์ „ ํ›ˆ๋ จ์˜ ์ด์ ์„ ์ฒด๊ณ„์ ์œผ๋กœ ๋ณด์—ฌ์ฃผ๋Š” ๊ฒฌ๊ณ ํ•œ ์—ฐ๊ตฌ๋กœ, ์ƒ์˜ํ•™ ํ…์ŠคํŠธ ๋งˆ์ด๋‹ ๋ถ„์•ผ์—์„œ ์‹ค์งˆ์ ์ด๊ณ  ๊ด‘๋ฒ”์œ„ํ•œ ์˜ํ–ฅ์„ ๋ฏธ์นœ ์„ ๋„์  ๊ธฐ์—ฌ ๋…ผ๋ฌธ์ด๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
BioBERT๋Š” BERT ์‚ฌ์ „ํ•™์Šต ํ”„๋ ˆ์ž„์›Œํฌ์— ๋„๋ฉ”์ธ ํŠน์ด์  ์ฝ”ํผ์Šค(PubMed ๋“ฑ)๋ฅผ ์ ‘๋ชฉํ•œ ๋…ผ๋ฌธ์ด๊ธฐ ๋•Œ๋ฌธ์—, ์ด๋ก ์ ยท๋ฐฉ๋ฒ•๋ก ์  ๊ธฐ๋ฐ˜์ด ๋™์ผํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
BioBERT ๋…ผ๋ฌธ์€ PubMed ๋“ฑ ์ƒ์˜ํ•™ ํ…์ŠคํŠธ์— ํŠนํ™”๋œ LLM์œผ๋กœ, PubMedQA์˜ ๊ณ ํ’ˆ์งˆ QA ๋ฐ์ดํ„ฐ์…‹ ํ•™์Šต/์‘์šฉ์— ํ•„์ˆ˜์ ์ธ ๊ธฐ์ดˆ๋ฅผ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
161์€ ๋ฐ”์ด์˜ค๋ฉ”๋””์ปฌ ํ…์ŠคํŠธ ์ฒ˜๋ฆฌ์— ํŠนํ™”๋œ BERT ๊ธฐ๋ฐ˜ ๋ชจ๋ธ๋กœ, 734์˜ scispaCy ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ ์„ค๊ณ„์— ํ•ต์‹ฌ์  ์ด๋ก ๊ณผ ๋ฐ์ดํ„ฐ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
161์€ ๋ฐ”์ด์˜ค๋ฉ”๋””์ปฌ ํ…์ŠคํŠธ ์ „์šฉ์œผ๋กœ ์‚ฌ์ „ํ•™์Šต๋œ BioBERT๋ฅผ ์ œ์•ˆํ•˜๋ฉฐ, 159์™€ ๊ฐ™์ด ๋„๋ฉ”์ธ ํŠนํ™” LLM ๊ฐœ๋ฐœ์˜ ์„ ํ–‰ ๊ธฐ์ˆ ์ด๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
BioBERT๋Š” ์ƒ๋ฌผ์˜ํ•™ ๋ฐ์ดํ„ฐ๋ฅผ ํ†ตํ•œ ์‚ฌ์ „ํ•™์Šต ๋ชจ๋ธ๋กœ, ์˜๋ฃŒ LLM ๋„๋ฉ”์ธ ํŠนํ™” ํ•™์Šต์˜ ๊ทผ๊ฐ„์„ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
BioBERT๋Š” BioMedLM ๊ฐœ๋ฐœ์„ ์œ„ํ•œ ์ „๋ฌธ ์ƒ์˜ํ•™ ์‚ฌ์ „ํ•™์Šต ๋ชจ๋ธ๋กœ, ๊ธฐ๋ณธ์ ์ธ ์–ธ์–ด ํ‘œํ˜„ ๋Šฅ๋ ฅ์˜ ํ† ๋Œ€๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
BioBERT ๋…ผ๋ฌธ์€ ์ƒ๋ฌผ์˜ํ•™ ํŠนํ™” LLM์˜ ์ „ํ˜•์  ์˜ˆ์‹œ๋กœ, ์ƒ๋ฌผยทํ™”ํ•™ ํŠนํ™” ๋„๋ฉ”์ธ LLM์— ๊ด€ํ•œ 720 ๋…ผ๋ฌธ์˜ ์ด๋ก ์  ๊ธฐ์ค€์„ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
์ž„์ƒ ๋ฐ ์ƒ์˜ํ•™ ์ •๋ณด ์ถ”์ถœ์—์„œ ํŠนํ™” ์‚ฌ์ „ํ•™์Šต ๋ชจ๋ธ(BioBERT)์˜ ํ•„์š”์„ฑ์„ ๋ณด์˜€๊ณ , CLEAR ํŒŒ์ดํ”„๋ผ์ธ์€ ์ด๋ฅผ ์‹ค์ œ ์ž„์ƒ ์—”ํ‹ฐํ‹ฐ ๊ฒ€์ƒ‰์— ์ ์šฉํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
BioBERT ๋…ผ๋ฌธ์€ ์ƒ๋ฌผ์˜ํ•™ ํ…์ŠคํŠธ์— ํŠนํ™”๋œ LLM์œผ๋กœ, SciBERT์™€ ํ•จ๊ป˜ ๋„๋ฉ”์ธ ํŠนํ™” ์‚ฌ์ „ํ•™์Šต์˜ ๋Œ€์•ˆ์  ์ ‘๊ทผ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ž„์ƒ์ •๋ณด ์ถ”์ถœ์„ ์œ„ํ•ด BioBERT์™€๋Š” ๋‹ฌ๋ฆฌ ์ž„์ƒ ์—”ํ‹ฐํ‹ฐ ๊ธฐ๋ฐ˜ ๊ฒ€์ƒ‰ ๊ฐ•ํ™” ๋ฐฉ์‹์„ ์ œ์•ˆํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ „์ดํ•™์Šต ๊ธฐ๋ฐ˜ ์‚ฌ์ „ํ›ˆ๋ จ ๋ชจ๋ธ์„ ์ƒ์˜ํ•™ NLP ์ž‘์—…์— ์ ์šฉํ•˜๋Š” ์œ ์‚ฌํ•œ ๋ฐฉ๋ฒ•๋ก ์„ ์—ฐ๊ตฌํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
BioBERT๋Š” BERT์˜ ๊ตฌ์กฐ๋ฅผ ์ƒ์˜ํ•™ ๋„๋ฉ”์ธ์— ๋งž์ถฐ ์‚ฌ์ „ํ•™์Šต ํ™•์žฅํ•œ ์—ฐ๊ตฌ๋กœ, ๋„๋ฉ”์ธ ํŠนํ™” NLP ๋ชจ๋ธ ๋ถ„์•ผ์—์„œ ์ง๊ฒฐ๋ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
SciBERT๋Š” ๊ณผํ•™ ํ…์ŠคํŠธ ์ „์ฒด๋ฅผ ๋Œ€์ƒ์œผ๋กœ ์‚ฌ์ „ํ•™์Šต๋œ BERT ๊ณ„์—ด ๋ชจ๋ธ๋กœ, BioBERT ๋“ฑ์˜ ๋„๋ฉ”์ธ ํŠนํ™” ๋ชจ๋ธ ๋น„๊ต์— ์œ ์šฉํ•˜๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
์˜ค๋ฏน์Šค ๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜ ์ž‘์—…์—์„œ AI ๊ณผํ•™์ž ๋ฒค์น˜๋งˆํฌ๋กœ ๋ฐ”์ด์˜คํ…์ŠคํŠธ ๋งˆ์ด๋‹ ๋ฐ BioBERT ํ™œ์šฉ ์‚ฌ๋ก€๊ฐ€ ๋ฒ”์šฉ ๋ชจ๋ธ ํ‰๊ฐ€์— ์ง๊ฒฐ๋ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
์ƒ์˜ํ•™์  ์‚ฌ์‹ค ์ถ”์ถœ ๋ฐ ๊ฒ€์ฆ์„ LLM ๊ธฐ๋ฐ˜์œผ๋กœ ์–ด๋–ป๊ฒŒ ํ‰๊ฐ€ํ•˜๊ณ  ๊ฐœ์„ ํ•  ์ˆ˜ ์žˆ๋Š”์ง€ ๊ตฌ์ฒด์ ์œผ๋กœ ํƒ๊ตฌํ•œ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
161(BioBERT)๋Š” ์ƒ๋ช…๊ณผํ•™ ๋ถ„์•ผ์—์„œ LLM์˜ ์ ์šฉ ์‚ฌ๋ก€๋กœ, 038์˜ ์ž๋™ ์—ฐ๊ตฌ ํ”„๋ ˆ์ž„์›Œํฌ๊ฐ€ ์‹ค์ œ ๋„๋ฉ”์ธ ๋ฌธ์ œ ํ•ด๊ฒฐ์— ์–ด๋–ป๊ฒŒ ์“ฐ์ผ ์ˆ˜ ์žˆ๋Š”์ง€ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •