Essence
Figure 1: Overall pre-training and ๏ฌne-tuning procedures for BERT. Apart from output layers, the same architec-
BERT๋ masked language model (MLM)๊ณผ next sentence prediction (NSP) ๋ชฉํ๋ฅผ ์ฌ์ฉํ์ฌ ์๋ฐฉํฅ Transformer ๊ธฐ๋ฐ ๊น์ ํํ์ ์ฌ์ ํ์ตํ๋ ํ์ ์ ์ธ ์ธ์ด ํํ ๋ชจ๋ธ์ ์ ์ํ๋ค. ๊ธฐ์กด์ ๋จ๋ฐฉํฅ ์ธ์ด ๋ชจ๋ธ๊ณผ ๋ฌ๋ฆฌ ์์ชฝ ๋ฌธ๋งฅ์ ๋ชจ๋ ์กฐ๊ฑด์ผ๋ก ํ์ฉํ์ฌ ๋ฏธ์ธ์กฐ์ ๋ง์ผ๋ก 11๊ฐ์ NLP ์์
์์ ์ต๊ณ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ค.
Achievement
Figure 1: Overall pre-training and ๏ฌne-tuning procedures for BERT. Apart from output layers, the same architec-
GLUE ๋ฒค์น๋งํฌ: 80.5% (7.7% ์ ๋ ๊ฐ์ ), MultiNLI ์ ํ๋: 86.7% (4.6% ์ ๋ ๊ฐ์ ), SQuAD v1.1 F1: 93.2 (1.5 ์ ๋ ๊ฐ์ ), SQuAD v2.0 F1: 83.1 (5.1 ์ ๋ ๊ฐ์ ), ์ด 11๊ฐ NLP ์์
์์ ์ต๊ณ ์ฑ๋ฅ ๋ฌ์ฑ, ์์ ์์
๋ณ ์ํคํ
์ฒ ์์ ์ผ๋ก ๋ค์ํ ์์
์ง์.
Evaluation
Novelty: 4/5 Technical Soundness: 5/5 Significance: 5/5 Clarity: 5/5 Overall: 5/5
์ดํ: BERT๋ ์๋ฐฉํฅ ์ฌ์ ํ์ต์ ํตํด ์ธ์ด ํํ ๋ชจ๋ธ๋ง์ ํ์ ์ ์ ํ์ ์ ๋ง๋ จํ์ผ๋ฉฐ, ํตํฉ๋ ์ํคํ
์ฒ๋ก ๊ด๋ฒ์ํ NLP ์์
์์ ์ต๊ณ ์ฑ๋ฅ์ ๋ฌ์ฑํ ํ๊ธฐ์ ์ธ ์ฐ๊ตฌ์ด๋ค. ๊ธฐ์ ์ ์์ฑ๋, ์คํ ๊ฒ์ฆ, ๊ทธ๋ฆฌ๊ณ ์ค์ ์ํฅ๋ ฅ์์ ๋งค์ฐ ์ฐ์ํ๋ฉฐ ํ๋ NLP์ ๊ธฐ์ด๋ฅผ ์ ๋ฆฝํ ํต์ฌ ๋
ผ๋ฌธ์ด๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
BERT์ ์๋ฐฉํฅ ์ฌ์ ํ์ต ๊ตฌ์กฐ๋ XLM-R ๋ฑ์ ๋ค์ธ์ด ๋ชจ๋ธ ๊ฐ๋ฐ์ ํต์ฌ ๋ฐฉ๋ฒ๋ก ์ ๊ธฐ์ด๊ฐ ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
BioBERT๋ BERT ์ฌ์ ํ์ต ํ๋ ์์ํฌ์ ๋๋ฉ์ธ ํน์ด์ ์ฝํผ์ค(PubMed ๋ฑ)๋ฅผ ์ ๋ชฉํ ๋
ผ๋ฌธ์ด๊ธฐ ๋๋ฌธ์, ์ด๋ก ์ ยท๋ฐฉ๋ฒ๋ก ์ ๊ธฐ๋ฐ์ด ๋์ผํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
BERT์ ๊ฐ์ ์ฌ์ ํ์ต ์ธ์ด๋ชจ๋ธ์ ๋๋ฉ์ธ ๋ฐ ๊ณผ์
๋ณ ์ถ๊ฐ ์ ์์ ์ค์ง์ ํจ๊ณผ๋ฅผ ์คํ์ ์ผ๋ก ๊ฒ์ฆํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Deepseek-v3 ์ญ์ BERT์ ์ฌ์ ํ์ต, ์๊ธฐ์ฃผ์, ๋๊ท๋ชจ ๋ฐ์ดํฐ ์ ๋ต ๋ฑ์ ๋ฐ์ ํ์ด๋ฉฐ, ๋ฐฉ๋ฒ๋ก ์ ์ฐ์์ฑ์ด ํฌ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Transformer ์ํคํ
์ฒ ๊ฐ์ ๋ฐ ์ธ์ด๋ชจ๋ธ ํ๋ จ์ ์ด๋ก ์ ๊ธฐ๋ฐ์ ์ ๊ณตํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
SciBERT๋ BERT๋ฅผ ๊ณผํ ๋
ผ๋ฌธ ๋ฐ์ดํฐ์ ์ฌ์ ํ์ตํ ๋๋ค๋ฅธ domain adaptation ์ฌ๋ก๋ก, ๋ค์ํ ๊ณผํ ์ธ์ด๋ชจ๋ธ ๋น๊ต์ ์ ์ตํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
์ฌ์ ํ์ต ์ธ์ด ๋ชจ๋ธ์ NLP ํ์คํฌ ์ฑ๋ฅ์ ๋ค๋ฃจ๋ ์ ์ฌํ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
ํธ๋์คํฌ๋จธ ๊ธฐ๋ฐ ์ธ์ด ๋ชจ๋ธ์ ๋ค์ํ ์์ฉ์ ๋ค๋ฃจ๋ ๊ด๋ จ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
์๋ฐฉํฅ ์ธ์ด ํํ ํ์ต ๋๋ ๋ฏธ์ธ์กฐ์ ๊ธฐ๋ฐ NLP์ ๊ด๋ จ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
์ฌ์ ํ์ต ์ธ์ด ๋ชจ๋ธ์ ๋ค์ด์คํธ๋ฆผ ํ์คํฌ ์ ์ฉ์ ๊ด๋ จ ์ฐ๊ตฌ์ด๋ค.
ํ์ ์ฐ๊ตฌ
BioBERT๋ BERT์ ๊ตฌ์กฐ๋ฅผ ์์ํ ๋๋ฉ์ธ์ ๋ง์ถฐ ์ฌ์ ํ์ต ํ์ฅํ ์ฐ๊ตฌ๋ก, ๋๋ฉ์ธ ํนํ NLP ๋ชจ๋ธ ๋ถ์ผ์์ ์ง๊ฒฐ๋ฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
Don't Stop Pretraining ๋
ผ๋ฌธ์ BERT์ ๊ฐ์ ๋ชจ๋ธ์ ์๋ก์ด ๋๋ฉ์ธ์ ์ ์์ํค๋ ์ฌ์ ํ์ต ์ ๋ต์ ์ฒด๊ณ์ ์ผ๋ก ํ๊ตฌํ๋ค.
ํ์ ์ฐ๊ตฌ
BERT๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ์ฅํ๊ฑฐ๋ ๊ฐ์ ํ ์ธ์ด ๋ชจ๋ธ์ ๊ด๋ จ ์ฐ๊ตฌ์ด๋ค.