์ ์: Ross Taylor, Marcin Kardas, Guillem Cucurull, Thomas Scialom, Anthony Hartshorn, Elvis Saravia, Andrew Poulton, Viktor Kerkez, Robert Stojnic | ๋ ์ง: 2022-11-16 | DOI: 10.48550/arXiv.2211.09085 📄 PDF
Essence
Galactica๋ 48๋ฐฑ๋ง ํธ์ ๋
ผ๋ฌธ๊ณผ ๊ณผํ ์๋ฃ๋ก ํ์ต๋ ๋๊ท๋ชจ ์ธ์ด๋ชจ๋ธ(LLM)๋ก, ๊ณผํ ์ง์์ ์ ์ฅยท์กฐํฉยท์ถ๋ก ํ์ฌ ์ ๋ณด ๊ณผ์ ์๋์ ๊ณผํ ์ฐ๊ตฌ๋ฅผ ์ง์ํ๋ ์๋ก์ด ์ธํฐํ์ด์ค๋ฅผ ์ ์ํ๋ค. ์ผ๋ฐ LLM๊ณผ ๋ฌ๋ฆฌ ์๊ฒฉํ ์ ๋ณ๋ ๊ณผํ ์ฝํผ์ค๋ฅผ ํ์ฉํ์ฌ LaTeX ๋ฐฉ์ ์, ํํ์(SMILES), ๋จ๋ฐฑ์ง ์์ด ๋ฑ ๋ค์ํ ์์์ ์ฒ๋ฆฌํ ์ ์๋ค.
Evaluation
์ดํ: Galactica๋ ๊ณผํ ์ง์ ์ฒ๋ฆฌ๋ฅผ ์ํด ํ๋ ์ด์
๋ ๋ฐ์ดํฐ์ ํนํ๋ ์ธํฐํ์ด์ค๋ฅผ ๊ฒฐํฉํ ์ผ์ฌ ์ฐฌ ํ๋ก์ ํธ๋ก, ๊ณผํ LLM์ ๊ฐ๋ฅ์ฑ์ ์ค์ง์ ์ผ๋ก ์
์ฆํ๋ค. ํนํ ์ผ๋ฐ LLM ๋๋น ๊ธฐ์ ์ง์์์์ ์ฐ์์ฑ๊ณผ ๋ฏธ๋ฆฌ ํ์ต๋ ํ๋กฌํํธ๋ฅผ ํตํ ์กฐํฉ ๋ฅ๋ ฅ์ ์ฃผ๋ชฉํ ๋งํ๋, ์ถ๋ก ์ ๋ ์ฑ๋ฅ์ ํ๊ณ์ ํ ๋ฃจ์๋ค์ด์
์ํ์ด ์ค์ ๊ณผํ ์ปค๋ฎค๋ํฐ ์ฑํ์ ๊ฑธ๋ฆผ๋์ด ๋ ์ ์๋ค. ์ถํ ๊ฒ์ ์ฆ๊ฐ ๋ฐ ์ ๋ขฐ๋ ๊ฒ์ฆ ๋ฉ์ปค๋์ฆ๊ณผ์ ๊ฒฐํฉ์ด ํ์์ ์ด๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
Galactica๋ ๊ณผํ ํนํ ๋น
ํ๋ฌ๋ค์ LLM์ผ๋ก, 829๋ฒ ๋
ผ๋ฌธ์ SciML ํ์ด๋ฐ์ด์
๋ชจ๋ธ ์คํ์ ๊ธฐ๋ฐ์ด ๋๋ ์ฌ๋ก์
๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Galactica(367)๋ ๊ณผํ ์ ๋ฐ ๋๋ฉ์ธ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ์ ๊ธฐ๋ฐ์ ์ ๊ณตํ์ฌ ChemDFM์ ํ๋ จ ๋ฐ ํ๊ฐ ์ฒ ํ์ ๊ธฐ์ด๊ฐ ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Galactica ๋
ผ๋ฌธ์ ๊ณผํ์ LLM์ ๋ฉํฐ๋ชจ๋ฌ ์ง์ ์ ์ฅ๊ณผ ํ๊ฐ ํ๋ ์์ํฌ๋ฅผ ์ ๊ณตํ์ฌ Sciknoweval์ ๋ฌธ์ ์์์ ์ด๋ก ์ ๊ธฐ๋ฐ์ ์ ์ํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๊ณผํ ๋
ผ๋ฌธ์ ํ์ตํ ๋๊ท๋ชจ ์ธ์ด๋ชจ๋ธ ๊ธฐ๋ฐ ๊ณผํ ์ถ๋ก ๋ฐฉ๋ฒ์ ์ด๋ก ์ ๊ธฐ๋ฐ ๋ฐ ๋ค์ํ ๋๋ฉ์ธ ์ ์ฉ์ ์ ์ดํดํ๋ ๋ฐ ์ ์ฉํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
367 ๋
ผ๋ฌธ์ ์๋ช
๊ณผํ ๋ถ์ผ LLM ์งํ์ ์ฃผ์ ํธ๋ ๋์ ๋ฌธ์ ์ ์ ์๊ฐํ๋ฉฐ, 720 ๋
ผ๋ฌธ์์ ๋
ผ์ํ๋ ๋ํฅ ์กฐ์ฌ์ ์ด๋ก ์ ๋ฐฐ๊ฒฝ์ด ๋๋ ๋
ผ๋ฌธ์ด๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
LLM์ ํ์ฉํ ๊ณผํ์ ์์ด๋์ด ์์ฑ์ ์ด๋ก ์ ยท๋ฐฉ๋ฒ๋ก ์ ๊ธฐ๋ฐ์ ์ ๊ณตํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
340 ๋
ผ๋ฌธ์ LLM์ ๋๋ฉ์ธ ์ ์(ํนํ ๋๋ฉ์ธ ํ๋ฆฌํธ๋ ์ด๋) ๊ธฐ๋ฒ์ ์ฒด๊ณ์ ์ผ๋ก ์๊ฐํด, 367์ ๋ฑ์ฅํ๋ Galactica์ ๊ฐ์ ํนํ LLM ๊ฐ๋ฐ์ ์ด๋ก ์ ๊ธฐ๋ฐ์ ์ ๊ณตํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
์ํ, ๊ณผํ ๋ฑ ์ ๋ฌธ ์ฐ๊ตฌ ์์ญ์์ ๋๊ท๋ชจ ์ธ์ด๋ชจ๋ธ์ ํ์ฉํ๋ ๊ธฐ๋ฐ ๊ธฐ์ ์ด Galactica๋ก๋ถํฐ ๋ฐ์ ๋ ๋งฅ๋ฝ์ ์ดํดํ ์ ์๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
367์ ๊ณผํ ๋ถ์ผ์ ๋ํ ์ธ์ด ๋ฐ ์์ฑ ๋ชจ๋ธ๋ค์ ์์ฉ ๋ํฅ์ ๋
ผ์ํ์ฌ 3141 ๊ฐ์ ์์ฑ ๊ธฐ๋ฐ ์ ์ฝ ์ค๊ณ ๋
ผ๋ฌธ์ ํ ๋๋ฅผ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Galactica ๋
ผ๋ฌธ์ ๊ณผํ ์ธ์ด๋ชจ๋ธ์ ๋๊ท๋ชจ ํ๋ฆฌํธ๋ ์ด๋ ์ ๋ต ๋ฐ ํฌ๋ก์ค๋๋ฉ์ธ ์ ์ฉ ํ๊ณ๋ฅผ ๋ค๋ฃจ๊ณ ์์ด, ์๋์ง ๋ฌผ์ง๋ก ๋๋ฉ์ธ ํ์ฅ ์ฌ๋ก ์ฐ๊ตฌ์ ํ์์ ์
๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๊ณผํ ๋ถ์ผ์์ ๋ํ ์ธ์ด๋ชจ๋ธ(Galactica ๋ฑ)์ ๊ตฌ์กฐ์ ์๋ฌผ์ ๋ณด ์์ฉ๊ณผ ๋ถ์ ์์ฑ ๋ฅ๋ ฅ์ ๋ํ ํฌ๊ด์ ์ฌ๋ก๋ฅผ ์ ์ํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
367์ AI ๊ธฐ๋ฐ ์ ์ฝ ๋ฐ ์ฌ๋ฃ ์์ฌ ๋ฐ๊ฒฌ์ ์ด์ค๋ก, 3159์ ML ๊ธฐ๋ฐ ํ์๋ฃจํ ํ์ ๋ฐฉ์์ ๋ค์ํ LLM/AI ๊ธฐ๋ฐ ์๋ํ์ ์ฐ๊ฒฐํด ๋น๊ตํ ์ ์์ต๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
367์ ๊ฐ๋ฝํฐ์นด ๋ชจ๋ธ ๋ฐ ๊ณผํ LLM ๋
ผ์๋ 3144๊ฐ ๋ค๋ฃจ๋ ๋ฐ์ดํฐ-ํํ-๋ชจ๋ธ ํ์ดํ๋ผ์ธ์์ LLM ์์ฉ์ ์ด๋ก ์ ๊ธฐ๋ฐ์ด ๋ฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๊ณผํ ์ฐ๊ตฌ๋ฅผ ์ํ ๋๊ท๋ชจ ์ธ์ด๋ชจ๋ธ์ ๋ค๋ฅธ ์ค๊ณ ๋ฐ ํ๋ จ ๋ฐฉ๋ฒ์ ์ ์ํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
๊ณผํ ๋ฌธํ ์ดํด ๋ฐ ์ฒ๋ฆฌ๋ฅผ ์ํ ์ธ์ด๋ชจ๋ธ์ ๋ค๋ฃจ๋ ๊ด๋ จ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
๊ณผํ์ ๋๋ฉ์ธ ํนํ ์ธ์ด๋ชจ๋ธ ๊ฐ๋ฐ์ ๋ค๋ฃจ๋ ์ ์ฌํ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
Galactica ๊ธฐ๋ฐ ๊ณผํ ๋๋ฉ์ธ์ฉ LLM ๋๊ท๋ชจ ์ค๊ณ์ ๋น๊ตํด, MapReduce-V2 ์ ๋ชฉ์ผ๋ก ์ฅ๋ฌธ ์์ฝ ์ ํฉ์ฑ์ ๋์ด๋ ๋ฐฉ๋ฒ๋ก ์ ๊ตฌ์ฌํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๊ณผํ ์ง์ ์ฒ๋ฆฌ๋ฅผ ์ํ LLM์ ๋ค๋ฅธ ์ ๊ทผ๋ฒ์ ๋ค๋ฃจ๋ ๊ด๋ จ ์ฐ๊ตฌ์ด๋ค.
ํ์ ์ฐ๊ตฌ
707 ๋
ผ๋ฌธ์ ๊ณผํ ๋
ผ๋ฌธ์ ํนํ๋ ์ฌ์ ํ์ต ๋ชจ๋ธ๋ก Galactica์ ๋ชฉ์ (๊ณผํ์ ์ ๋ณด ์ ์ฅยท์กฐํฉยท์ถ๋ก )์ ๋ํ ์ค์ฉ์ ํ์ฅ ์ฌ๋ก๋ฅผ ์ ๊ณตํ๋ค.
ํ์ ์ฐ๊ตฌ
๊ณผํํนํ LLM (Galactica)์ ๊ธฐ๋ฒ๊ณผ ์ฑ๋ฅ์, ๋ค์ํ SciML ํ์ด๋ฐ์ด์
๋ชจ๋ธ๋ก ํ์ฅยท๊ฒ์ฆํ๋ ์ค์ฆ ์ฐ๊ตฌ์
๋๋ค.
ํ์ ์ฐ๊ตฌ
Scientific Large Language Models: A Survey on Biological & Chemical Sciences ๋
ผ๋ฌธ์ Galactica ๊ณ์ด์ ๊ณผํ LLM ๋ชจ๋ธ์ ๋ํ ๊ด๋ฒ์ํ ์ฌ๋ก์ ์ํฅ๋ ฅ์ ๋ค๋ฃฌ๋ค.
ํ์ ์ฐ๊ตฌ
Galactica ๋ฑ ๊ณผํ LLM์ ํน์ ๊ณผํ ๋ถ์ผ์ ์ ์ฉํ๋ ํ์ฅ ์ฐ๊ตฌ์ด๋ค.
ํ์ ์ฐ๊ตฌ
Galactica์ ๊ฐ์ ๊ณผํ ์ ์ฉ ๋ํ๋ชจ๋ธ ๊ฐ๋ฐ๊ณผ ์ ์ฉ ๋ํฅ์ ์ถ๊ฐ๋ก ์ ๋ฆฌํ์ฌ ํ์ด๋ฐ์ด์
๋ชจ๋ธ์ ๋ฏธ๋ ๋ฐฉํฅ์ฑ์ ํฌ๊ด์ ์ผ๋ก ์ ์ํ๋ค.
์์ฉ ์ฌ๋ก
Galactica ๋
ผ๋ฌธ์ ๋ณ๋ ฌํ ๊ธฐ๋ฒ๊ณผ ์ต์ ํ ๊ธฐ๋ฒ์ด ์ค์ ๊ณผํ LLM์ ์ด๋ป๊ฒ ์ ์ฉ๋๋์ง ๋ณด์ฌ์ค๋ค.