SciBERT: A Pretrained Language Model for Scientific Text

์ €์ž: Iz Beltagy, Kyle Lo, Arman Cohan | ๋‚ ์งœ: 2019 | DOI: 10.48550/ARXIV.1903.10676 📄 PDF


Essence

๊ณผํ•™ ๋…ผ๋ฌธ์˜ NLP ์ž‘์—…์„ ์œ„ํ•ด BERT๋ฅผ ๊ณผํ•™ ํ…์ŠคํŠธ ์ฝ”ํผ์Šค์—์„œ ์žฌํ•™์Šต์‹œํ‚จ ๋„๋ฉ”์ธ ํŠนํ™” ์–ธ์–ด ๋ชจ๋ธ SciBERT๋ฅผ ์ œ์•ˆํ•˜๋ฉฐ, ์—ฌ๋Ÿฌ ๊ณผํ•™ NLP ํƒœ์Šคํฌ์—์„œ ๊ธฐ์กด BERT๋ฅผ ๋Šฅ๊ฐ€ํ•˜๋Š” ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ๋‹ค.

Motivation

Achievement

์„ฑ๊ณผ์ƒ์„ธ
**๋‹ค์ค‘ ํƒœ์Šคํฌ ๊ฒ€์ฆ**๋ช…๋ช…๋œ๊ฐœ์ฒด์ธ์‹(NER), PICO ์ถ”์ถœ, ํ…์ŠคํŠธ ๋ถ„๋ฅ˜, ๊ด€๊ณ„ ๋ถ„๋ฅ˜, ์˜์กด์„ฑ ํŒŒ์‹ฑ ๋“ฑ 5๊ฐ€์ง€ ํ•ต์‹ฌ NLP ํƒœ์Šคํฌ์—์„œ ํ‰๊ฐ€
**์ผ๊ด€๋œ ์„ฑ๋Šฅ ํ–ฅ์ƒ**BERT-Base ๋Œ€๋น„ ํ‰๊ท  +2.11 F1 (๋ฏธ์„ธ์กฐ์ •) / +2.43 F1 (๋™๊ฒฐ๋œ ์ž„๋ฒ ๋”ฉ) ๊ฐœ์„ 
**์ตœ์‹  ๊ธฐ์ˆ  ๋‹ฌ์„ฑ**BC5CDR, ChemProt, EBM-NLP, ACL-ARC ๋“ฑ ์—ฌ๋Ÿฌ ๋ฒค์น˜๋งˆํฌ์—์„œ ์ƒˆ๋กœ์šด SOTA(State-of-the-Art) ๋‹ฌ์„ฑ
**์ƒ์˜ํ•™ ๋ฐ ์ปดํ“จํ„ฐ๊ณผํ•™ ๋„๋ฉ”์ธ**์ƒ์˜ํ•™: +1.92 F1 (๋ฏธ์„ธ์กฐ์ •), +3.59 F1 (๋™๊ฒฐ) / ์ปดํ“จํ„ฐ๊ณผํ•™: +3.55 F1 (๋ฏธ์„ธ์กฐ์ •), +1.13 F1 (๋™๊ฒฐ)
**๋ชจ๋ธ ๊ณต๊ฐœ**์ฝ”๋“œ์™€ ์‚ฌ์ „ํ•™์Šต ๋ชจ๋ธ์„ GitHub์—์„œ ๊ณต๊ฐœํ•˜์—ฌ ์žฌํ˜„์„ฑ๊ณผ ์ ‘๊ทผ์„ฑ ํ™•๋ณด

How

Originality

Limitation & Further Study

Evaluation

์ดํ‰: SciBERT๋Š” ๊ณผํ•™ ํ…์ŠคํŠธ์— ํŠนํ™”๋œ ์–ธ์–ด ๋ชจ๋ธ๋กœ์„œ ์‹ค์šฉ์„ฑ์ด ๋†’๊ณ  ๋„๋ฆฌ ์ฑ„ํƒ๋˜์—ˆ์œผ๋‚˜, ๊ธฐ์ˆ ์  ํ˜์‹ ๋ณด๋‹ค๋Š” ๋„๋ฉ”์ธ ํŠนํ™” ์ ์šฉ์ด ์ฃผ์š” ๊ธฐ์—ฌ์ด๋ฉฐ, ์ดํ›„ ๋„๋ฉ”์ธ ํŠนํ™” ์‚ฌ์ „ํ•™์Šต ๋ชจ๋ธ ๊ฐœ๋ฐœ์˜ ์ค‘์š”ํ•œ ์„ ๋ก€๋ฅผ ์ œ์‹œํ–ˆ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Don't Stop Pretraining ๋…ผ๋ฌธ์€ ๋„๋ฉ”์ธ ์ ์‘ ์‚ฌ์ „ํ•™์Šต์ด SciBERT์™€ ๊ฐ™์ด ๊ณผํ•™ ํŠนํ™” LLM ๊ตฌ์ถ•์˜ ๊ธฐ๋ฐ˜์ด ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
707๋ฒˆ SciBERT๋Š” ๊ณผํ•™ ๋…ผ๋ฌธ ํ…์ŠคํŠธ ์‚ฌ์ „ํ•™์Šต ๋ชจ๋ธ๋กœ, 812๋ฒˆ์—์„œ ๊ณผํ•™ ๋…ผ๋ฌธ ์š”์•ฝ์„ ์œ„ํ•œ ๊ธฐ๋ณธ ๋ชจ๋ธ๋กœ ํ™œ์šฉ๋  ์ˆ˜ ์žˆ์–ด ์ด๋ก ์  ๊ธฐ์ดˆ๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
์ฆ๊ฐ• ์–ธ์–ด๋ชจ๋ธ์˜ ์„œ๋ฒ ์ด์—์„œ SciBERT์™€ ๊ฐ™์ด ๋„๋ฉ”์ธ ํŠนํ™” ์‚ฌ์ „ํ›ˆ๋ จ LLM์˜ ์›๋ฆฌ ๋ฐ ํ™•์žฅ์‚ฌ๋ก€๋ฅผ ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
SciBERT ๋“ฑ ๊ณผํ•™ ๋ถ„์•ผ ํŠนํ™” ์–ธ์–ด ๋ชจ๋ธ์˜ ๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ๋กœ, ํ•™์ˆ  ์ง€์‹ ๊ทธ๋ž˜ํ”„ ์งˆ์˜ ์‘๋‹ต ์ „๋ฐ˜์— ์ด๋ก ์  ๋ฐฐ๊ฒฝ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
SciBERT ์—ญ์‹œ ๊ณผํ•™ ํ…์ŠคํŠธ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•œ ์–ธ์–ด๋ชจ๋ธ๋กœ, BioMedLM์˜ ๋„๋ฉ”์ธ ํŠนํ™” LLM ์ ‘๊ทผ์˜ ์ฃผ์š” ์„ ํ–‰ ์‚ฌ๋ก€์ด๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
SciBERT๋Š” ๊ณผํ•™ ๋…ผ๋ฌธ ๊ธฐ๋ฐ˜ ์‚ฌ์ „ํ•™์Šต ๋ชจ๋ธ๋กœ, Scidqa์™€ ๊ฐ™์€ ๊ณผํ•™ ํ…์ŠคํŠธ QA ๋ฒค์น˜๋งˆํฌ์— ํ•„์ˆ˜์ ์ธ ์–ธ์–ด๋ชจ๋ธ ์ธํ”„๋ผ ์—ญํ• ์„ ํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
SciBERT์™€ ๊ฐ™์€ ๋„๋ฉ”์ธ ํŠนํ™” ์–ธ์–ด๋ชจ๋ธ์˜ ์‚ฌ์ „ํ•™์Šต์ด SciCode์˜ ๊ณผํ•™์ฝ”๋”ฉ ๋ฒค์น˜๋งˆํฌ ๊ธฐ๋ฐ˜์„ ํ˜•์„ฑํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
BioBERT, SciBERT ๋“ฑ ๊ธฐ์กด ์ƒ์˜ํ•™/์ƒ๋ฌผํ•™ ํŠนํ™” LLM๊ณผ ๋น„๊ตํ•˜์—ฌ ๋ณธ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ ๊ฐœ์„ ์ ์„ ์งš์„ ์ˆ˜ ์žˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
398์˜ LLM ๊ธฐ๋ฐ˜ ๋ฌธํ—Œ ๋ถ„์„์€ 707 SciBERT ๋“ฑ ๊ณผํ•™ํŠนํ™” ์–ธ์–ด๋ชจ๋ธ์˜ ์„ฑ๋Šฅ ๋ฐ ํ•œ๊ณ„์— ์ด๋ก ์ ์œผ๋กœ ๋’ท๋ฐ›์นจ๋œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
SciBERT๋Š” ๊ณผํ•™ยท์ƒ๋ช…๊ณผํ•™ ํ…์ŠคํŠธ์— ์ตœ์ ํ™”๋œ LLM์œผ๋กœ, Cell2Sentence์™€ ๊ฐ™์ด ์ƒ๋ฌผํ•™์  ์–ธ์–ด์ •๋ณด ์œตํ•ฉ ํ”Œ๋žซํผ ๊ตฌ์ถ•์˜ ๊ธฐ๋ฐ˜์ด ๋œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๊ณผํ•™ ๋…ผ๋ฌธ ํ…์ŠคํŠธ ๋ถ„์„์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•œ ์‚ฌ์ „ํ•™์Šต ๋ชจ๋ธ ํ™œ์šฉ ๋…ผ๋ฌธ์œผ๋กœ, ๋‹จ๋ฐฑ์งˆ ์„œ์—ด ๋ฐ ๊ตฌ์กฐ ์ •๋ณด์˜ ํ†ตํ•ฉ์— ์ด๋ก ์  ํ† ๋Œ€๋ฅผ ์ œ๊ณตํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
SciBERT๋Š” BERT๋ฅผ ๊ณผํ•™ ๋…ผ๋ฌธ ๋ฐ์ดํ„ฐ์— ์‚ฌ์ „ํ•™์Šตํ•œ ๋˜๋‹ค๋ฅธ domain adaptation ์‚ฌ๋ก€๋กœ, ๋‹ค์–‘ํ•œ ๊ณผํ•™ ์–ธ์–ด๋ชจ๋ธ ๋น„๊ต์— ์œ ์ตํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
BioBERT ๋…ผ๋ฌธ์€ ์ƒ๋ฌผ์˜ํ•™ ํ…์ŠคํŠธ์— ํŠนํ™”๋œ LLM์œผ๋กœ, SciBERT์™€ ํ•จ๊ป˜ ๋„๋ฉ”์ธ ํŠนํ™” ์‚ฌ์ „ํ•™์Šต์˜ ๋Œ€์•ˆ์  ์ ‘๊ทผ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
SciBERT๋Š” PubMedQA์™€ ๊ฐ™์€ ์ƒ์˜ํ•™ QA ๋ฐ์ดํ„ฐ์…‹ ํ•™์Šต์— ํŠนํ™”๋œ ํ”„๋ฆฌํŠธ๋ ˆ์ธ๋“œ ๋ชจ๋ธ๋กœ, ๋…ผ๋ฌธ ์งˆ๋ฌธ์‘๋‹ต ์„ฑ๋Šฅ์„ ๋†’์ž…๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
707 ๋…ผ๋ฌธ์€ ๊ณผํ•™ ํ…์ŠคํŠธ๋ฅผ ์œ„ํ•œ ์‚ฌ์ „ํ•™์Šต ์–ธ์–ด๋ชจ๋ธ๋กœ์„œ, 734์˜ ์ƒ์˜ํ•™ ์–ธ์–ด์ฒ˜๋ฆฌ ํŠนํ™” ํ”„๋ ˆ์ž„์›Œํฌ์™€ ๋ชจ๋ธ ๊ตฌ์กฐ์ ์œผ๋กœ ๋Œ€์•ˆ์„ฑ์„ ๊ฐ€์ง‘๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๊ณผํ•™ ๋ถ„์•ผ์˜ ํŠนํ™”๋œ ์–ธ์–ด์ž์›(์ธ๋ฒ ๋”ฉ ๋“ฑ) ํ™œ์šฉ์— ์žˆ์–ด, SimAlign๊ณผ SciBERT์˜ ๋‹ค์–ธ์–ด/์ „๋ฌธ์šฉ์–ด ์ฒ˜๋ฆฌ ์ „๋žต์„ ๋น„๊ตํ•  ์ˆ˜ ์žˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
SciBERT๋Š” ๋„๋ฉ”์ธ ํŠนํ™” ํ”ผ๋“œ๋ฐฑ ๋ฐ ๋„๋ฉ”์ธ ์ ํ•ฉ์„ฑ ๊ธฐ๋ฐ˜ ๊ณผํ•™ ํ…์ŠคํŠธ ์ƒ์„ฑ ๋Šฅ๋ ฅ์„ ์‹คํ—˜์ ์œผ๋กœ ๋น„๊ตํ•˜๋Š” ๋Œ€์•ˆ์  ๋ฐฉ๋ฒ•๋ก ์„ ์ œ์‹œํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
707์€ ํŠน์ • ๊ณผํ•™ ๋„๋ฉ”์ธ์„ ์œ„ํ•œ ์ „๋ฌธํ™”๋œ LLM ๊ฐœ๋ฐœ ์ ‘๊ทผ๋ฒ•์„ ์ œ์‹œํ•˜์—ฌ ChemDFM์˜ ํ™”ํ•™ ํŠนํ™” ๋ชจ๋ธ๊ณผ ๋น„๊ต ๊ฐ€๋Šฅํ•˜๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM ๊ธฐ๋ฐ˜ ๊ณผํ•™ ๋ฐœ๊ฒฌ ์ง€์›์„ ๋‹ค๋ฅธ ํ”„๋ ˆ์ž„์›Œํฌ๋กœ ๊ตฌํ˜„ํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
707 SciBERT๋Š” 224์™€ ๊ฐ™์ด ๋„๋ฉ”์ธ ํŠนํ™” ์–ธ์–ด๋ชจ๋ธ์„ ํ™œ์šฉํ•œ ์ •๋ณด ์ถ”์ถœ ๋ฐ ๊ฒ€์ƒ‰ ํšจ์œจํ™” ์ ‘๊ทผ๋ฒ•์˜ ๋˜ ๋‹ค๋ฅธ ์˜ˆ์‹œ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๊ณผํ•™ AI ๋ชจ๋ธ์˜ ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ• ๋ฐ ํ‰๊ฐ€๋ฅผ ๋‹ค๋ฃจ๋Š” ์œ ์‚ฌํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ƒ๋ฌผ์ •๋ณดํ•™ ์›Œํฌํ”Œ๋กœ์šฐ ์žฌํ˜„์„ฑ ๋ฐ ๋„๊ตฌ ์—ฐ๊ฒฐ์„ ์œ„ํ•œ ๋Œ€์•ˆ์  ์ ‘๊ทผ๋ฒ•์„ ์ œ์‹œํ•˜๋Š” ์—ฐ๊ตฌ์ด๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
SciBERT๋Š” ๊ณผํ•™ ํ…์ŠคํŠธ ์ „์ฒด๋ฅผ ๋Œ€์ƒ์œผ๋กœ ์‚ฌ์ „ํ•™์Šต๋œ BERT ๊ณ„์—ด ๋ชจ๋ธ๋กœ, BioBERT ๋“ฑ์˜ ๋„๋ฉ”์ธ ํŠนํ™” ๋ชจ๋ธ ๋น„๊ต์— ์œ ์šฉํ•˜๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Galactica ๋…ผ๋ฌธ์€ SciBERT์˜ ๋„๋ฉ”์ธ ํŠนํ™” ์‚ฌ์ „ํ•™์Šต ์ ‘๊ทผ๋ฒ•์„ ๋Œ€๊ทœ๋ชจ ๊ณผํ•™ ์ง€์‹ ํ†ตํ•ฉ์œผ๋กœ ํ™•์žฅํ•œ ๋Œ€ํ‘œ ์‚ฌ๋ก€์ž…๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
๊ณผํ•™ ๋ฐ ์ƒ๋ฌผํ•™/ํ™”ํ•™ ๋ถ„์•ผ LLM์— ๋Œ€ํ•œ ํฌ๊ด„์  ์„œ๋ฒ ์ด๋กœ SciBERT์˜ ๋„๋ฉ”์ธ ํŠนํ™” ์ ‘๊ทผ๋ฒ•์˜ ํ™•์žฅ๋œ ๋…ผ์˜๋ฅผ ๋‹ด๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Transforming Science with Large Language Models ๋…ผ๋ฌธ์€ SciBERT ๋“ฑ ๋„๋ฉ”์ธ ํŠนํ™” ์–ธ์–ด๋ชจ๋ธ๋“ค์ด ๊ณผํ•™ ์—ฐ๊ตฌ์— ๋ฏธ์น˜๋Š” ์˜ํ–ฅ๊ณผ ์ดํ›„ ๋ฐœ์ „ ๋ฐฉํ–ฅ์„ ํญ๋„“๊ฒŒ ๋…ผ์˜ํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
SciBERT๋Š” ๋Œ€๊ทœ๋ชจ ์‚ฌ์ „ํ•™์Šต ๋ชจ๋ธ์„ ๊ณผํ•™ ๋ถ„์•ผ์— ์ถ”๊ฐ€ ์ ์‘์‹œ์ผœ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ์‹ค์ฆํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
SciBERT๋Š” ๋Œ€๊ทœ๋ชจ ์‚ฌ์ „ํ•™์Šต ์–ธ์–ด๋ชจ๋ธ์ด ํŠน์ • ๋„๋ฉ”์ธ์— ์–ด๋–ป๊ฒŒ ์ ์šฉ๋˜๋Š”์ง€ ๋ณด์—ฌ์ฃผ๋Š” ์‹ค์ œ ์‘์šฉ์‚ฌ๋ก€์ž…๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
SciCode ๋…ผ๋ฌธ์€ SciBERT ๋“ฑ ๊ณผํ•™ ํŠนํ™” LLM์˜ ์‹ค์ œ ๊ณผํ•™ ์—ฐ๊ตฌ ์ฝ”๋“œ ํƒœ์Šคํฌ ํ‰๊ฐ€์— ์‘์šฉ๋œ ๊ตฌ์ฒด์  ์‚ฌ๋ก€์ž…๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
Clinical entity augmented retrieval ์—ฐ๊ตฌ๋Š” SciBERT์˜ ๋„๋ฉ”์ธ ํŠนํ™” ์–ธ์–ด๋ชจ๋ธ์„ ์ž„์ƒ์ •๋ณด ์ถ”์ถœ์— ์‹ค์ œ ์ ์šฉํ•œ ์‚ฌ๋ก€์ž…๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
707์€ 398์—์„œ ๋Œ€๊ทœ๋ชจ LLM์„ ํ™œ์šฉํ•œ ๊ธˆ์†-์œ ๊ธฐ ๊ณจ๊ฒฉ ๋…ผ๋ฌธ ์ž๋™ ๋ถ„์„์˜ ์ดˆ์„์œผ๋กœ ์“ฐ์ธ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •