Galactica: A Large Language Model for Science

์ €์ž: Ross Taylor, Marcin Kardas, Guillem Cucurull, Thomas Scialom, Anthony Hartshorn, Elvis Saravia, Andrew Poulton, Viktor Kerkez, Robert Stojnic | ๋‚ ์งœ: 2022-11-16 | DOI: 10.48550/arXiv.2211.09085 📄 PDF


Essence

Galactica๋Š” 48๋ฐฑ๋งŒ ํŽธ์˜ ๋…ผ๋ฌธ๊ณผ ๊ณผํ•™ ์ž๋ฃŒ๋กœ ํ•™์Šต๋œ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ(LLM)๋กœ, ๊ณผํ•™ ์ง€์‹์„ ์ €์žฅยท์กฐํ•ฉยท์ถ”๋ก ํ•˜์—ฌ ์ •๋ณด ๊ณผ์ž‰ ์‹œ๋Œ€์˜ ๊ณผํ•™ ์—ฐ๊ตฌ๋ฅผ ์ง€์›ํ•˜๋Š” ์ƒˆ๋กœ์šด ์ธํ„ฐํŽ˜์ด์Šค๋ฅผ ์ œ์‹œํ•œ๋‹ค. ์ผ๋ฐ˜ LLM๊ณผ ๋‹ฌ๋ฆฌ ์—„๊ฒฉํžˆ ์„ ๋ณ„๋œ ๊ณผํ•™ ์ฝ”ํผ์Šค๋ฅผ ํ™œ์šฉํ•˜์—ฌ LaTeX ๋ฐฉ์ •์‹, ํ™”ํ•™์‹(SMILES), ๋‹จ๋ฐฑ์งˆ ์„œ์—ด ๋“ฑ ๋‹ค์–‘ํ•œ ์–‘์‹์„ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋‹ค.

Motivation

Achievement

Figure 1: ๋‹ค์–‘ํ•œ ๊ณผํ•™ ์–‘์‹ ํ†ตํ•ฉ. ๋‹จ๋ฐฑ์งˆ ์„œ์—ด์ด ๋ฌธ์„œ ๋งฅ๋ฝ ๋‚ด์—์„œ ์ฃผ์„๊ณผ ํ•จ๊ป˜ ๋‚˜ํƒ€๋‚จ

ํ‘œ 1: ๊ณผํ•™ ๋ฐ์ดํ„ฐ์˜ ํ† ํฐํ™” - ํ…์ŠคํŠธ, LaTeX, ์ฝ”๋“œ, SMILES, ์•„๋ฏธ๋…ธ์‚ฐ ์„œ์—ด, DNA ์„œ์—ด ๋“ฑ์„ ํ†ตํ•ฉ

  1. ๊ธฐ์ˆ  ์ง€์‹ ์ž‘์—… ์šฐ์ˆ˜์„ฑ
    • LaTeX ๋ฐฉ์ •์‹: 68.2% (vs GPT-3 49.0%)
    • ํ™”ํ•™ ๋ฐ˜์‘ ๋ฐ IUPAC ์ด๋ฆ„ ์˜ˆ์ธก ์šฐ์ˆ˜
  2. ์ถ”๋ก  ์ž‘์—… ์„ฑ๋Šฅ
    • ์ˆ˜ํ•™ MMLU: 41.3% (vs Chinchilla 35.7%)
    • MATH: 20.4% (120B ๋ชจ๋ธ, vs PaLM 540B 8.8%, ๋งค๊ฐœ๋ณ€์ˆ˜ 18๋ฐฐ ์ ์Œ)
  3. ํ•˜์œ„ ์ž‘์—…(downstream task) ์ตœ์‹  ๊ธฐ์ˆ (SOTA)
    • PubMedQA: 77.6%
    • MedMCQA dev: 52.9%
    • BIG-bench: ์ผ๋ฐ˜ ์ฝ”ํผ์Šค ๋ฏธํ•™์Šต์—๋„ BLOOM, OPT-175B ์ดˆ๊ณผ
  4. ์ƒˆ๋กœ์šด ๋Šฅ๋ ฅ ์‹œ์—ฐ
    • ์ธ์šฉ ์˜ˆ์ธก์ด ์Šค์ผ€์ผ์— ๋”ฐ๋ผ ๋งค๋„๋Ÿฝ๊ฒŒ ์ฆ๊ฐ€, ํฌ์†Œ/๋ฐ€์ง‘ ๊ฒ€์ƒ‰ ๋ฐฉ์‹ ์ดˆ๊ณผ
    • ์•ฝ๊ฐ์‹œ ํ•™์Šต(weakly-supervised)์œผ๋กœ ์•ฝ๋ฌผ ๋ฐœ๊ฒฌ ์ž‘์—… ์ˆ˜ํ–‰
    • ์ž๊ฐ์‹œ ํ•™์Šต์œผ๋กœ ๊ธฐ๋Šฅ ๊ทธ๋ฃน(functional groups) ๊ฐ™์€ ํ•ด์„ ๊ฐ€๋Šฅํ•œ ์†์„ฑ ํ•™์Šต

How

Figure 2: ์ž‘์—… ๋งฅ๋ฝ์—์„œ "43, 29, 51, 13์˜ ํ‰๊ท ์€?" ๊ฐ™์€ ์งˆ๋ฌธ์— ๋Œ€ํ•ด ์ธ๊ฐ„์ด ๋‚ด๋ถ€/์™ธ๋ถ€ ์ž‘์—… ๋ฉ”๋ชจ๋ฆฌ๋ฅผ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์Œ
Figure 3: ๋ชจ๋ธ-๊ธฐ๊ณ„ ๊ณต์ƒ. <work> ์ž‘์—… ๋ฉ”๋ชจ๋ฆฌ ํ† ํฐ์ด ์žˆ๋Š” ๋‹ต๋ณ€ ์˜ˆ์‹œ

Originality

Limitation & Further Study

Evaluation

์ดํ‰: Galactica๋Š” ๊ณผํ•™ ์ง€์‹ ์ฒ˜๋ฆฌ๋ฅผ ์œ„ํ•ด ํ๋ ˆ์ด์…˜๋œ ๋ฐ์ดํ„ฐ์™€ ํŠนํ™”๋œ ์ธํ„ฐํŽ˜์ด์Šค๋ฅผ ๊ฒฐํ•ฉํ•œ ์•ผ์‹ฌ ์ฐฌ ํ”„๋กœ์ ํŠธ๋กœ, ๊ณผํ•™ LLM์˜ ๊ฐ€๋Šฅ์„ฑ์„ ์‹ค์งˆ์ ์œผ๋กœ ์ž…์ฆํ–ˆ๋‹ค. ํŠนํžˆ ์ผ๋ฐ˜ LLM ๋Œ€๋น„ ๊ธฐ์ˆ  ์ง€์‹์—์„œ์˜ ์šฐ์ˆ˜์„ฑ๊ณผ ๋ฏธ๋ฆฌ ํ•™์Šต๋œ ํ”„๋กฌํ”„ํŠธ๋ฅผ ํ†ตํ•œ ์กฐํ•ฉ ๋Šฅ๋ ฅ์€ ์ฃผ๋ชฉํ•  ๋งŒํ•˜๋‚˜, ์ถ”๋ก  ์ ˆ๋Œ€ ์„ฑ๋Šฅ์˜ ํ•œ๊ณ„์™€ ํ• ๋ฃจ์‹œ๋„ค์ด์…˜ ์œ„ํ—˜์ด ์‹ค์ œ ๊ณผํ•™ ์ปค๋ฎค๋‹ˆํ‹ฐ ์ฑ„ํƒ์˜ ๊ฑธ๋ฆผ๋Œ์ด ๋  ์ˆ˜ ์žˆ๋‹ค. ์ถ”ํ›„ ๊ฒ€์ƒ‰ ์ฆ๊ฐ• ๋ฐ ์‹ ๋ขฐ๋„ ๊ฒ€์ฆ ๋ฉ”์ปค๋‹ˆ์ฆ˜๊ณผ์˜ ๊ฒฐํ•ฉ์ด ํ•„์ˆ˜์ ์ด๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Galactica๋Š” ๊ณผํ•™ ํŠนํ™” ๋น…ํŽ˜๋Ÿฌ๋‹ค์ž„ LLM์œผ๋กœ, 829๋ฒˆ ๋…ผ๋ฌธ์˜ SciML ํŒŒ์šด๋ฐ์ด์…˜๋ชจ๋ธ ์‹คํ—˜์˜ ๊ธฐ๋ฐ˜์ด ๋˜๋Š” ์‚ฌ๋ก€์ž…๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Galactica(367)๋Š” ๊ณผํ•™ ์ „๋ฐ˜ ๋„๋ฉ”์ธ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ์˜ ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•˜์—ฌ ChemDFM์˜ ํ›ˆ๋ จ ๋ฐ ํ‰๊ฐ€ ์ฒ ํ•™์— ๊ธฐ์ดˆ๊ฐ€ ๋œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Galactica ๋…ผ๋ฌธ์€ ๊ณผํ•™์  LLM์˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ง€์‹ ์ €์žฅ๊ณผ ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ๊ณตํ•˜์—ฌ Sciknoweval์˜ ๋ฌธ์ œ์˜์‹์— ์ด๋ก ์  ๊ธฐ๋ฐ˜์„ ์ œ์‹œํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๊ณผํ•™ ๋…ผ๋ฌธ์„ ํ•™์Šตํ•œ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ ๊ธฐ๋ฐ˜ ๊ณผํ•™ ์ถ”๋ก  ๋ฐฉ๋ฒ•์˜ ์ด๋ก ์  ๊ธฐ๋ฐ˜ ๋ฐ ๋‹ค์–‘ํ•œ ๋„๋ฉ”์ธ ์ ์šฉ์ ์„ ์ดํ•ดํ•˜๋Š” ๋ฐ ์œ ์šฉํ•˜๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
367 ๋…ผ๋ฌธ์€ ์ƒ๋ช…๊ณผํ•™ ๋ถ„์•ผ LLM ์ง„ํ™”์˜ ์ฃผ์š” ํŠธ๋ Œ๋“œ์™€ ๋ฌธ์ œ์ ์„ ์†Œ๊ฐœํ•˜๋ฉฐ, 720 ๋…ผ๋ฌธ์—์„œ ๋…ผ์˜ํ•˜๋Š” ๋™ํ–ฅ ์กฐ์‚ฌ์— ์ด๋ก ์  ๋ฐฐ๊ฒฝ์ด ๋˜๋Š” ๋…ผ๋ฌธ์ด๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
LLM์„ ํ™œ์šฉํ•œ ๊ณผํ•™์  ์•„์ด๋””์–ด ์ƒ์„ฑ์˜ ์ด๋ก ์ ยท๋ฐฉ๋ฒ•๋ก ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
340 ๋…ผ๋ฌธ์€ LLM์˜ ๋„๋ฉ”์ธ ์ ์‘(ํŠนํ™” ๋„๋ฉ”์ธ ํ”„๋ฆฌํŠธ๋ ˆ์ด๋‹) ๊ธฐ๋ฒ•์„ ์ฒด๊ณ„์ ์œผ๋กœ ์†Œ๊ฐœํ•ด, 367์— ๋“ฑ์žฅํ•˜๋Š” Galactica์™€ ๊ฐ™์€ ํŠนํ™” LLM ๊ฐœ๋ฐœ์˜ ์ด๋ก ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
์ˆ˜ํ•™, ๊ณผํ•™ ๋“ฑ ์ „๋ฌธ ์—ฐ๊ตฌ ์˜์—ญ์—์„œ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ์„ ํ™œ์šฉํ•˜๋Š” ๊ธฐ๋ฐ˜ ๊ธฐ์ˆ ์ด Galactica๋กœ๋ถ€ํ„ฐ ๋ฐœ์ „๋œ ๋งฅ๋ฝ์„ ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
367์€ ๊ณผํ•™ ๋ถ„์•ผ์˜ ๋Œ€ํ˜• ์–ธ์–ด ๋ฐ ์ƒ์„ฑ ๋ชจ๋ธ๋“ค์˜ ์‘์šฉ ๋™ํ–ฅ์„ ๋…ผ์˜ํ•˜์—ฌ 3141 ๊ฐ™์€ ์ƒ์„ฑ ๊ธฐ๋ฐ˜ ์‹ ์•ฝ ์„ค๊ณ„ ๋…ผ๋ฌธ์˜ ํ† ๋Œ€๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Galactica ๋…ผ๋ฌธ์€ ๊ณผํ•™ ์–ธ์–ด๋ชจ๋ธ์˜ ๋Œ€๊ทœ๋ชจ ํ”„๋ฆฌํŠธ๋ ˆ์ด๋‹ ์ „๋žต ๋ฐ ํฌ๋กœ์Šค๋„๋ฉ”์ธ ์ ์šฉ ํ•œ๊ณ„๋ฅผ ๋‹ค๋ฃจ๊ณ  ์žˆ์–ด, ์—๋„ˆ์ง€ ๋ฌผ์งˆ๋กœ ๋„๋ฉ”์ธ ํ™•์žฅ ์‚ฌ๋ก€ ์—ฐ๊ตฌ์— ํ•„์ˆ˜์ ์ž…๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๊ณผํ•™ ๋ถ„์•ผ์—์„œ ๋Œ€ํ˜• ์–ธ์–ด๋ชจ๋ธ(Galactica ๋“ฑ)์˜ ๊ตฌ์กฐ์  ์ƒ๋ฌผ์ •๋ณด ์‘์šฉ๊ณผ ๋ถ„์ž ์ƒ์„ฑ ๋Šฅ๋ ฅ์— ๋Œ€ํ•œ ํฌ๊ด„์  ์‚ฌ๋ก€๋ฅผ ์ œ์‹œํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
367์€ AI ๊ธฐ๋ฐ˜ ์‹ ์•ฝ ๋ฐ ์žฌ๋ฃŒ ์†Œ์žฌ ๋ฐœ๊ฒฌ์˜ ์ด์„ค๋กœ, 3159์˜ ML ๊ธฐ๋ฐ˜ ํ์‡„๋ฃจํ”„ ํƒ์ƒ‰ ๋ฐฉ์‹์„ ๋‹ค์–‘ํ•œ LLM/AI ๊ธฐ๋ฐ˜ ์ž๋™ํ™”์™€ ์—ฐ๊ฒฐํ•ด ๋น„๊ตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
367์˜ ๊ฐˆ๋ฝํ‹ฐ์นด ๋ชจ๋ธ ๋ฐ ๊ณผํ•™ LLM ๋…ผ์˜๋Š” 3144๊ฐ€ ๋‹ค๋ฃจ๋Š” ๋ฐ์ดํ„ฐ-ํ‘œํ˜„-๋ชจ๋ธ ํŒŒ์ดํ”„๋ผ์ธ์—์„œ LLM ์‘์šฉ์˜ ์ด๋ก ์  ๊ธฐ๋ฐ˜์ด ๋ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๊ณผํ•™ ์—ฐ๊ตฌ๋ฅผ ์œ„ํ•œ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ์˜ ๋‹ค๋ฅธ ์„ค๊ณ„ ๋ฐ ํ›ˆ๋ จ ๋ฐฉ๋ฒ•์„ ์ œ์‹œํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๊ณผํ•™ ๋ฌธํ—Œ ์ดํ•ด ๋ฐ ์ฒ˜๋ฆฌ๋ฅผ ์œ„ํ•œ ์–ธ์–ด๋ชจ๋ธ์„ ๋‹ค๋ฃจ๋Š” ๊ด€๋ จ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๊ณผํ•™์  ๋„๋ฉ”์ธ ํŠนํ™” ์–ธ์–ด๋ชจ๋ธ ๊ฐœ๋ฐœ์„ ๋‹ค๋ฃจ๋Š” ์œ ์‚ฌํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Galactica ๊ธฐ๋ฐ˜ ๊ณผํ•™ ๋„๋ฉ”์ธ์šฉ LLM ๋Œ€๊ทœ๋ชจ ์„ค๊ณ„์™€ ๋น„๊ตํ•ด, MapReduce-V2 ์ ‘๋ชฉ์œผ๋กœ ์žฅ๋ฌธ ์š”์•ฝ ์ ํ•ฉ์„ฑ์„ ๋†’์ด๋Š” ๋ฐฉ๋ฒ•๋ก ์„ ๊ตฌ์‚ฌํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๊ณผํ•™ ์ง€์‹ ์ฒ˜๋ฆฌ๋ฅผ ์œ„ํ•œ LLM์˜ ๋‹ค๋ฅธ ์ ‘๊ทผ๋ฒ•์„ ๋‹ค๋ฃจ๋Š” ๊ด€๋ จ ์—ฐ๊ตฌ์ด๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
707 ๋…ผ๋ฌธ์€ ๊ณผํ•™ ๋…ผ๋ฌธ์— ํŠนํ™”๋œ ์‚ฌ์ „ํ•™์Šต ๋ชจ๋ธ๋กœ Galactica์˜ ๋ชฉ์ (๊ณผํ•™์  ์ •๋ณด ์ €์žฅยท์กฐํ•ฉยท์ถ”๋ก )์— ๋Œ€ํ•œ ์‹ค์šฉ์  ํ™•์žฅ ์‚ฌ๋ก€๋ฅผ ์ œ๊ณตํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
๊ณผํ•™ํŠนํ™” LLM (Galactica)์˜ ๊ธฐ๋ฒ•๊ณผ ์„ฑ๋Šฅ์„, ๋‹ค์–‘ํ•œ SciML ํŒŒ์šด๋ฐ์ด์…˜๋ชจ๋ธ๋กœ ํ™•์žฅยท๊ฒ€์ฆํ•˜๋Š” ์‹ค์ฆ ์—ฐ๊ตฌ์ž…๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Scientific Large Language Models: A Survey on Biological & Chemical Sciences ๋…ผ๋ฌธ์€ Galactica ๊ณ„์—ด์˜ ๊ณผํ•™ LLM ๋ชจ๋ธ์— ๋Œ€ํ•œ ๊ด‘๋ฒ”์œ„ํ•œ ์‚ฌ๋ก€์™€ ์˜ํ–ฅ๋ ฅ์„ ๋‹ค๋ฃฌ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Galactica ๋“ฑ ๊ณผํ•™ LLM์„ ํŠน์ • ๊ณผํ•™ ๋ถ„์•ผ์— ์ ์šฉํ•˜๋Š” ํ™•์žฅ ์—ฐ๊ตฌ์ด๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Galactica์™€ ๊ฐ™์€ ๊ณผํ•™ ์ „์šฉ ๋Œ€ํ˜•๋ชจ๋ธ ๊ฐœ๋ฐœ๊ณผ ์ ์šฉ ๋™ํ–ฅ์„ ์ถ”๊ฐ€๋กœ ์ •๋ฆฌํ•˜์—ฌ ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ์˜ ๋ฏธ๋ž˜ ๋ฐฉํ–ฅ์„ฑ์„ ํฌ๊ด„์ ์œผ๋กœ ์ œ์‹œํ•œ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
Galactica ๋…ผ๋ฌธ์€ ๋ณ‘๋ ฌํ™” ๊ธฐ๋ฒ•๊ณผ ์ตœ์ ํ™” ๊ธฐ๋ฒ•์ด ์‹ค์ œ ๊ณผํ•™ LLM์— ์–ด๋–ป๊ฒŒ ์ ์šฉ๋˜๋Š”์ง€ ๋ณด์—ฌ์ค€๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •