Essence
๊ณผํ ๋
ผ๋ฌธ์ NLP ์์
์ ์ํด BERT๋ฅผ ๊ณผํ ํ
์คํธ ์ฝํผ์ค์์ ์ฌํ์ต์ํจ ๋๋ฉ์ธ ํนํ ์ธ์ด ๋ชจ๋ธ SciBERT๋ฅผ ์ ์ํ๋ฉฐ, ์ฌ๋ฌ ๊ณผํ NLP ํ์คํฌ์์ ๊ธฐ์กด BERT๋ฅผ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ค.
Evaluation
์ดํ: SciBERT๋ ๊ณผํ ํ
์คํธ์ ํนํ๋ ์ธ์ด ๋ชจ๋ธ๋ก์ ์ค์ฉ์ฑ์ด ๋๊ณ ๋๋ฆฌ ์ฑํ๋์์ผ๋, ๊ธฐ์ ์ ํ์ ๋ณด๋ค๋ ๋๋ฉ์ธ ํนํ ์ ์ฉ์ด ์ฃผ์ ๊ธฐ์ฌ์ด๋ฉฐ, ์ดํ ๋๋ฉ์ธ ํนํ ์ฌ์ ํ์ต ๋ชจ๋ธ ๊ฐ๋ฐ์ ์ค์ํ ์ ๋ก๋ฅผ ์ ์ํ๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
Don't Stop Pretraining ๋
ผ๋ฌธ์ ๋๋ฉ์ธ ์ ์ ์ฌ์ ํ์ต์ด SciBERT์ ๊ฐ์ด ๊ณผํ ํนํ LLM ๊ตฌ์ถ์ ๊ธฐ๋ฐ์ด ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
707๋ฒ SciBERT๋ ๊ณผํ ๋
ผ๋ฌธ ํ
์คํธ ์ฌ์ ํ์ต ๋ชจ๋ธ๋ก, 812๋ฒ์์ ๊ณผํ ๋
ผ๋ฌธ ์์ฝ์ ์ํ ๊ธฐ๋ณธ ๋ชจ๋ธ๋ก ํ์ฉ๋ ์ ์์ด ์ด๋ก ์ ๊ธฐ์ด๊ฐ ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
์ฆ๊ฐ ์ธ์ด๋ชจ๋ธ์ ์๋ฒ ์ด์์ SciBERT์ ๊ฐ์ด ๋๋ฉ์ธ ํนํ ์ฌ์ ํ๋ จ LLM์ ์๋ฆฌ ๋ฐ ํ์ฅ์ฌ๋ก๋ฅผ ์ค๋ช
ํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
SciBERT ๋ฑ ๊ณผํ ๋ถ์ผ ํนํ ์ธ์ด ๋ชจ๋ธ์ ๊ธฐ๋ฐ ์ฐ๊ตฌ๋ก, ํ์ ์ง์ ๊ทธ๋ํ ์ง์ ์๋ต ์ ๋ฐ์ ์ด๋ก ์ ๋ฐฐ๊ฒฝ์ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
SciBERT ์ญ์ ๊ณผํ ํ
์คํธ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ ์ธ์ด๋ชจ๋ธ๋ก, BioMedLM์ ๋๋ฉ์ธ ํนํ LLM ์ ๊ทผ์ ์ฃผ์ ์ ํ ์ฌ๋ก์ด๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
SciBERT๋ ๊ณผํ ๋
ผ๋ฌธ ๊ธฐ๋ฐ ์ฌ์ ํ์ต ๋ชจ๋ธ๋ก, Scidqa์ ๊ฐ์ ๊ณผํ ํ
์คํธ QA ๋ฒค์น๋งํฌ์ ํ์์ ์ธ ์ธ์ด๋ชจ๋ธ ์ธํ๋ผ ์ญํ ์ ํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
SciBERT์ ๊ฐ์ ๋๋ฉ์ธ ํนํ ์ธ์ด๋ชจ๋ธ์ ์ฌ์ ํ์ต์ด SciCode์ ๊ณผํ์ฝ๋ฉ ๋ฒค์น๋งํฌ ๊ธฐ๋ฐ์ ํ์ฑํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
BioBERT, SciBERT ๋ฑ ๊ธฐ์กด ์์ํ/์๋ฌผํ ํนํ LLM๊ณผ ๋น๊ตํ์ฌ ๋ณธ ๋ชจ๋ธ์ ์ฑ๋ฅ ๊ฐ์ ์ ์ ์ง์ ์ ์๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
398์ LLM ๊ธฐ๋ฐ ๋ฌธํ ๋ถ์์ 707 SciBERT ๋ฑ ๊ณผํํนํ ์ธ์ด๋ชจ๋ธ์ ์ฑ๋ฅ ๋ฐ ํ๊ณ์ ์ด๋ก ์ ์ผ๋ก ๋ท๋ฐ์นจ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
SciBERT๋ ๊ณผํยท์๋ช
๊ณผํ ํ
์คํธ์ ์ต์ ํ๋ LLM์ผ๋ก, Cell2Sentence์ ๊ฐ์ด ์๋ฌผํ์ ์ธ์ด์ ๋ณด ์ตํฉ ํ๋ซํผ ๊ตฌ์ถ์ ๊ธฐ๋ฐ์ด ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๊ณผํ ๋
ผ๋ฌธ ํ
์คํธ ๋ถ์์ ๊ธฐ๋ฐ์ผ๋ก ํ ์ฌ์ ํ์ต ๋ชจ๋ธ ํ์ฉ ๋
ผ๋ฌธ์ผ๋ก, ๋จ๋ฐฑ์ง ์์ด ๋ฐ ๊ตฌ์กฐ ์ ๋ณด์ ํตํฉ์ ์ด๋ก ์ ํ ๋๋ฅผ ์ ๊ณตํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
SciBERT๋ BERT๋ฅผ ๊ณผํ ๋
ผ๋ฌธ ๋ฐ์ดํฐ์ ์ฌ์ ํ์ตํ ๋๋ค๋ฅธ domain adaptation ์ฌ๋ก๋ก, ๋ค์ํ ๊ณผํ ์ธ์ด๋ชจ๋ธ ๋น๊ต์ ์ ์ตํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
BioBERT ๋
ผ๋ฌธ์ ์๋ฌผ์ํ ํ
์คํธ์ ํนํ๋ LLM์ผ๋ก, SciBERT์ ํจ๊ป ๋๋ฉ์ธ ํนํ ์ฌ์ ํ์ต์ ๋์์ ์ ๊ทผ์ ์ ์ํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
SciBERT๋ PubMedQA์ ๊ฐ์ ์์ํ QA ๋ฐ์ดํฐ์
ํ์ต์ ํนํ๋ ํ๋ฆฌํธ๋ ์ธ๋ ๋ชจ๋ธ๋ก, ๋
ผ๋ฌธ ์ง๋ฌธ์๋ต ์ฑ๋ฅ์ ๋์
๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
707 ๋
ผ๋ฌธ์ ๊ณผํ ํ
์คํธ๋ฅผ ์ํ ์ฌ์ ํ์ต ์ธ์ด๋ชจ๋ธ๋ก์, 734์ ์์ํ ์ธ์ด์ฒ๋ฆฌ ํนํ ํ๋ ์์ํฌ์ ๋ชจ๋ธ ๊ตฌ์กฐ์ ์ผ๋ก ๋์์ฑ์ ๊ฐ์ง๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๊ณผํ ๋ถ์ผ์ ํนํ๋ ์ธ์ด์์(์ธ๋ฒ ๋ฉ ๋ฑ) ํ์ฉ์ ์์ด, SimAlign๊ณผ SciBERT์ ๋ค์ธ์ด/์ ๋ฌธ์ฉ์ด ์ฒ๋ฆฌ ์ ๋ต์ ๋น๊ตํ ์ ์๋ค.
๋ค๋ฅธ ์ ๊ทผ
SciBERT๋ ๋๋ฉ์ธ ํนํ ํผ๋๋ฐฑ ๋ฐ ๋๋ฉ์ธ ์ ํฉ์ฑ ๊ธฐ๋ฐ ๊ณผํ ํ
์คํธ ์์ฑ ๋ฅ๋ ฅ์ ์คํ์ ์ผ๋ก ๋น๊ตํ๋ ๋์์ ๋ฐฉ๋ฒ๋ก ์ ์ ์ํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
707์ ํน์ ๊ณผํ ๋๋ฉ์ธ์ ์ํ ์ ๋ฌธํ๋ LLM ๊ฐ๋ฐ ์ ๊ทผ๋ฒ์ ์ ์ํ์ฌ ChemDFM์ ํํ ํนํ ๋ชจ๋ธ๊ณผ ๋น๊ต ๊ฐ๋ฅํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM ๊ธฐ๋ฐ ๊ณผํ ๋ฐ๊ฒฌ ์ง์์ ๋ค๋ฅธ ํ๋ ์์ํฌ๋ก ๊ตฌํํ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
707 SciBERT๋ 224์ ๊ฐ์ด ๋๋ฉ์ธ ํนํ ์ธ์ด๋ชจ๋ธ์ ํ์ฉํ ์ ๋ณด ์ถ์ถ ๋ฐ ๊ฒ์ ํจ์จํ ์ ๊ทผ๋ฒ์ ๋ ๋ค๋ฅธ ์์์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
๊ณผํ AI ๋ชจ๋ธ์ ๋ฐ์ดํฐ์
๊ตฌ์ถ ๋ฐ ํ๊ฐ๋ฅผ ๋ค๋ฃจ๋ ์ ์ฌํ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
์๋ฌผ์ ๋ณดํ ์ํฌํ๋ก์ฐ ์ฌํ์ฑ ๋ฐ ๋๊ตฌ ์ฐ๊ฒฐ์ ์ํ ๋์์ ์ ๊ทผ๋ฒ์ ์ ์ํ๋ ์ฐ๊ตฌ์ด๋ค.
ํ์ ์ฐ๊ตฌ
SciBERT๋ ๊ณผํ ํ
์คํธ ์ ์ฒด๋ฅผ ๋์์ผ๋ก ์ฌ์ ํ์ต๋ BERT ๊ณ์ด ๋ชจ๋ธ๋ก, BioBERT ๋ฑ์ ๋๋ฉ์ธ ํนํ ๋ชจ๋ธ ๋น๊ต์ ์ ์ฉํ๋ค.
ํ์ ์ฐ๊ตฌ
Galactica ๋
ผ๋ฌธ์ SciBERT์ ๋๋ฉ์ธ ํนํ ์ฌ์ ํ์ต ์ ๊ทผ๋ฒ์ ๋๊ท๋ชจ ๊ณผํ ์ง์ ํตํฉ์ผ๋ก ํ์ฅํ ๋ํ ์ฌ๋ก์
๋๋ค.
ํ์ ์ฐ๊ตฌ
๊ณผํ ๋ฐ ์๋ฌผํ/ํํ ๋ถ์ผ LLM์ ๋ํ ํฌ๊ด์ ์๋ฒ ์ด๋ก SciBERT์ ๋๋ฉ์ธ ํนํ ์ ๊ทผ๋ฒ์ ํ์ฅ๋ ๋
ผ์๋ฅผ ๋ด๊ณ ์์ต๋๋ค.
ํ์ ์ฐ๊ตฌ
Transforming Science with Large Language Models ๋
ผ๋ฌธ์ SciBERT ๋ฑ ๋๋ฉ์ธ ํนํ ์ธ์ด๋ชจ๋ธ๋ค์ด ๊ณผํ ์ฐ๊ตฌ์ ๋ฏธ์น๋ ์ํฅ๊ณผ ์ดํ ๋ฐ์ ๋ฐฉํฅ์ ํญ๋๊ฒ ๋
ผ์ํฉ๋๋ค.
์์ฉ ์ฌ๋ก
SciBERT๋ ๋๊ท๋ชจ ์ฌ์ ํ์ต ๋ชจ๋ธ์ ๊ณผํ ๋ถ์ผ์ ์ถ๊ฐ ์ ์์์ผ ์ฑ๋ฅ ํฅ์์ ์ค์ฆํฉ๋๋ค.
์์ฉ ์ฌ๋ก
SciBERT๋ ๋๊ท๋ชจ ์ฌ์ ํ์ต ์ธ์ด๋ชจ๋ธ์ด ํน์ ๋๋ฉ์ธ์ ์ด๋ป๊ฒ ์ ์ฉ๋๋์ง ๋ณด์ฌ์ฃผ๋ ์ค์ ์์ฉ์ฌ๋ก์
๋๋ค.
์์ฉ ์ฌ๋ก
SciCode ๋
ผ๋ฌธ์ SciBERT ๋ฑ ๊ณผํ ํนํ LLM์ ์ค์ ๊ณผํ ์ฐ๊ตฌ ์ฝ๋ ํ์คํฌ ํ๊ฐ์ ์์ฉ๋ ๊ตฌ์ฒด์ ์ฌ๋ก์
๋๋ค.
์์ฉ ์ฌ๋ก
Clinical entity augmented retrieval ์ฐ๊ตฌ๋ SciBERT์ ๋๋ฉ์ธ ํนํ ์ธ์ด๋ชจ๋ธ์ ์์์ ๋ณด ์ถ์ถ์ ์ค์ ์ ์ฉํ ์ฌ๋ก์
๋๋ค.
์์ฉ ์ฌ๋ก
707์ 398์์ ๋๊ท๋ชจ LLM์ ํ์ฉํ ๊ธ์-์ ๊ธฐ ๊ณจ๊ฒฉ ๋
ผ๋ฌธ ์๋ ๋ถ์์ ์ด์์ผ๋ก ์ฐ์ธ๋ค.