Sciglm: Training scientific language models with self-reflective instruction annotation and tuning

์ €์ž: Dan Zhang, Ziniu Hu, Sining Zhoubian, Zhengxiao Du, Kaiyu Yang, Zihan Wang, Yisong Yue, Yuxiao Dong, Jie Tang | ๋‚ ์งœ: 2024 | DOI: arXiv:2401.07950 📄 PDF


Essence

Figure 3: ๋‹ค์–‘ํ•œ LLM์˜ ๊ณผํ•™ ๋ฒค์น˜๋งˆํฌ ํ‰๊ท  ์ •ํ™•๋„

๋‹ค์–‘ํ•œ ํŒŒ๋ผ๋ฏธํ„ฐ ํฌ๊ธฐ์˜ LLM๋“ค์— ๋Œ€ํ•œ SciGLM์˜ ์„ฑ๋Šฅ ๊ฐœ์„  ํšจ๊ณผ

SciGLM์€ ์ž๊ธฐ ์„ฑ์ฐฐ์ (self-reflective) ์ฃผ์„ ์ƒ์„ฑ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ํ†ตํ•ด ๊ณ ํ’ˆ์งˆ์˜ ๊ณผํ•™ ์ง€์‹œ ๋ฐ์ดํ„ฐ๋ฅผ ์ž๋™์œผ๋กœ ํ๋ ˆ์ด์…˜ํ•˜๊ณ , ์ด๋ฅผ ์ด์šฉํ•ด ์—ฌ๋Ÿฌ ์–ธ์–ด ๋ชจ๋ธ์„ ํŒŒ์ธํŠœ๋‹ํ•จ์œผ๋กœ์จ ๋Œ€ํ•™ ์ˆ˜์ค€์˜ ๊ณผํ•™ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ๊ฐ–์ถ˜ ๊ณผํ•™ ์–ธ์–ด ๋ชจ๋ธ์„ ๊ตฌ์ถ•ํ•œ๋‹ค. GPT-3.5์™€ GPT-4 ๊ฐ™์€ ๊ณ ๊ธ‰ LLM๋„ ๊ธฐ๋ณธ์ ์ธ ๊ณผํ•™ ๋ฌธ์ œ์—์„œ 28.52%์˜ ๋‚ฎ์€ ์ •ํ™•๋„๋ฅผ ๋ณด์ด๋Š” ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด, ๋ฌผ๋ฆฌ, ํ™”ํ•™, ์ˆ˜ํ•™, ํ˜•์‹์  ์ฆ๋ช…(Lean)์„ ํฌํ•จํ•˜๋Š” 254,051๊ฐœ์˜ ๊ณ ํ’ˆ์งˆ ๊ณผํ•™ ์ง€์‹œ๋ฌธ์„ ํฌํ•จํ•œ SciInstruct ๋ฐ์ดํ„ฐ์…‹์„ ๊ตฌ์ถ•ํ–ˆ๋‹ค.

Motivation

Achievement

Figure 4: SciInstruct ๊ตฌ์ถ• ํŒŒ์ดํ”„๋ผ์ธ

๋‹ค์–‘ํ•œ ์†Œ์Šค๋กœ๋ถ€ํ„ฐ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘, ์ž๊ธฐ ์„ฑ์ฐฐ์  ์ฃผ์„, ํ•„ํ„ฐ๋ง์„ ๊ฑฐ์ณ ๊ณ ํ’ˆ์งˆ ์ง€์‹œ๋ฌธ ์ƒ์„ฑ

Figure 5: ์ž๊ธฐ ์„ฑ์ฐฐ์  ์ฃผ์„ ์ƒ์„ฑ ํ”„๋ ˆ์ž„์›Œํฌ์˜ ์›Œํฌํ”Œ๋กœ์šฐ

3๋‹จ๊ณ„ ๋ฐ˜๋ณต ๊ณผ์ •์„ ํ†ตํ•œ ๋‹จ๊ณ„๋ณ„ ์ •ํ™•ํ•œ ์ถ”๋ก  ๊ณผ์ • ์ƒ์„ฑ์˜ ์˜ˆ์‹œ

  1. ํฌ๊ด„์  ๊ณผํ•™ ์ง€์‹œ ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ•: ๋ฌผ๋ฆฌํ•™, ํ™”ํ•™, ์ˆ˜ํ•™, ํ˜•์‹์  ์ฆ๋ช…(Lean)์„ ํฌํ•จํ•˜๋Š” 254,051๊ฐœ์˜ ๊ฒ€์ฆ๋œ ๊ณ ํ’ˆ์งˆ ์ง€์‹œ๋ฌธ์œผ๋กœ ๊ตฌ์„ฑ๋œ SciInstruct ๋ฐ์ดํ„ฐ์…‹ ์™„์„ฑ. ๋„๋ฉ”์ธ๋ณ„ ๋น„์ค‘์€ ๋ฌผ๋ฆฌ&ํ™”ํ•™ 48.8%, ์ˆ˜ํ•™ 35.4%, ํ˜•์‹์  ์ฆ๋ช… 15.8%์ด๋ฉฐ, ์งˆ๋ฌธ ์œ ํ˜•์€ ์ฑ„์šฐ๊ธฐํ˜•(33.2%), ์„ ํƒํ˜•(32.0%), ๋ณต์žกํ•œ ํ’€์ดํ˜•(20.1%), ๊ฐ„๋‹จํ•œ ํ’€์ดํ˜•(14.6%)์œผ๋กœ ๋‹ค์–‘ํ™”.
  2. ์„ฑ๋Šฅ ํ–ฅ์ƒ ๊ฒ€์ฆ: ChatGLM3 6B ๋ชจ๋ธ์—์„œ 4.87%, 32B ๋ชจ๋ธ์—์„œ 2.67% ์ •ํ™•๋„ ๊ฐœ์„  ๋‹ฌ์„ฑ. ๋™์ผ ํŒŒ๋ผ๋ฏธํ„ฐ ํฌ๊ธฐ์˜ ์„ ํ–‰ ๋ชจ๋ธ๋“ค(Galactica, MAmmoTH)์„ ๋Šฅ๊ฐ€ํ•˜๋ฉฐ, GPT-4์™€์˜ ๊ฒฉ์ฐจ๋ฅผ ์ถ•์†Œ. ๊ณผํ•™ ๋ฒค์น˜๋งˆํฌ(CEval-Sci, Sci-Eval, SciBench, MATH, SAT-Math)์—์„œ ํ‰๊ท  ์ •ํ™•๋„ ํ–ฅ์ƒ์„ ๋ณด์ž„.
  3. ์ผ๋ฐ˜ ์–ธ์–ด ๋Šฅ๋ ฅ ๋ณด์กด: ์ง€์‹œ ํŠœ๋‹์„ ํ†ตํ•œ ์„ฑ๋Šฅ ํ–ฅ์ƒ์ด ๊ธฐ๋ณธ ๋ชจ๋ธ์˜ ์ผ๋ฐ˜ ์–ธ์–ด ์ดํ•ด ๋ฐ ์ฝ”๋”ฉ ๋Šฅ๋ ฅ์„ ์†์ƒ์‹œํ‚ค์ง€ ์•Š์Œ์„ ๊ฒ€์ฆ. SciGLM์ด ์ธ๊ฐ„-AI ์ƒํ˜ธ์ž‘์šฉ ๋ฐ ๊ณผํ•™ ๋„๋ฉ”์ธ ์ „๋ฌธ ์ง€์‹ ๋ชจ๋‘์— ์ ํ•ฉํ•œ ๊ท ํ˜•์žกํžŒ ๋ชจ๋ธ์ž„์„ ์ž…์ฆ.

How

Figure 2: ์งˆ๋ฌธ ์œ ํ˜• ๋น„์ค‘

๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ๋ฐ ํ๋ ˆ์ด์…˜:

์ž๊ธฐ ์„ฑ์ฐฐ์  ์ฃผ์„ ์ƒ์„ฑ ํ”„๋ ˆ์ž„์›Œํฌ (3๋‹จ๊ณ„ ๋ฐ˜๋ณต):

์˜ค๋ฅ˜ ๋ถ„๋ฅ˜ ๋ฐ ์ž๋™ ํ•„ํ„ฐ๋ง:

๋ชจ๋ธ ํŒŒ์ธํŠœ๋‹:

Originality

Limitation & Further Study

ํ›„์† ์—ฐ๊ตฌ ๋ฐฉํ–ฅ:

Evaluation

์ดํ‰: SciGLM์€ ๊ณผํ•™ ๋„๋ฉ”์ธ LLM ํ›ˆ๋ จ์„ ์œ„ํ•œ ์ž๋™ํ™”๋œ ๊ณ ํ’ˆ์งˆ ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ•์ด๋ผ๋Š” ์‹ค์งˆ์  ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋ฉฐ, ์ž๊ธฐ ์„ฑ์ฐฐ์  ๋น„ํŒ-๊ฐœ์„  ํ”„๋ ˆ์ž„์›Œํฌ๋Š” ๋ฐ์ดํ„ฐ ๋ถ€์กฑ ๋ถ„์•ผ์˜ ํ™•์žฅ์„ฑ ์žˆ๋Š” ์†”๋ฃจ์…˜์„ ์ œ์‹œํ•œ๋‹ค. ๋‹ค๋งŒ ์ ˆ๋Œ€ ์ •ํ™•๋„ ์ˆ˜์ค€์€ ์—ฌ์ „ํžˆ GPT-4์— ๋ฏธ์น˜์ง€ ๋ชปํ•˜๊ณ , ๋„๋ฉ”์ธ ๊ฐ„ ๊ท ํ˜• ๊ฐœ์„ ๊ณผ ๋” ๋ณต์žกํ•œ ๊ณผํ•™ ๋ฌธ์ œ ํฌ

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
720์€ ์ƒ๋ช…๊ณผํ•™๊ณผ ํ™”ํ•™ ์˜์—ญ์—์„œ์˜ ๊ณผํ•™ LLM ์„œ๋ฒ ์ด๋ผ๋Š” ๋ฉ”ํƒ€๋ถ„์„์„ ํ†ตํ•ด 723์˜ ์„ฑ์ฐฐ์  ๋ฐ์ดํ„ฐ ํ๋ ˆ์ด์…˜ ํ”„๋ ˆ์ž„์›Œํฌ ์ด๋ก ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๊ณผํ•™์  ์ˆ˜์‹ ๋ฐœ๊ฒฌ์„ ์œ„ํ•œ LLM ๋ฒค์น˜๋งˆํฌ๋กœ, ์ž๊ธฐ์„ฑ์ฐฐ ํ”„๋กฌํ”„ํŠธ ํ™œ์šฉ์˜ ๊ธฐ์ˆ ์  ๊ธฐ๋ฐ˜์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
320์€ ์ฝ”๋“œ ๊ธฐ๋ฐ˜ LLM์˜ ํ‰๊ฐ€์™€ ์—ญํ• ์— ์ค‘์ ์„ ๋‘๋ฉฐ, 723์—์„œ ์–ธ๊ธ‰ํ•œ ๋‹ค์–‘ํ•œ ๊ธฐ๋ฐ˜ LLM ํ‰๊ฐ€์˜ ํ•œ ๊ฐˆ๋ž˜๋ฅผ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
747 ๋…ผ๋ฌธ์€ LLM์ด ์ž์‹ ์˜ ์ถ”๋ก ๊ณผ์ •์„ ์ž๋™ ๊ฒ€์ฆํ•˜๋Š” Self-Check๋ผ๋Š” ์ ‘๊ทผ์„ ์ทจํ•ด ์ž๊ธฐ ์„ฑ์ฐฐ ๋ฐ ํ‰๊ฐ€ ๋Šฅ๋ ฅ์„ ๊ฐ•ํ™”ํ•˜๋Š” ๋Œ€์•ˆ์  ํ”„๋ ˆ์ž„์ž…๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋Œ€ํ•™ ์ˆ˜์ค€ ๊ณผํ•™๋ฌธ์ œ LLM ํ‰๊ฐ€์šฉ ๋ฒค์น˜๋งˆํฌ๋ฅผ ๊ฐœ๋ฐœํ•˜์—ฌ, ์ง€์‹œ ๊ธฐ๋ฐ˜ LLM ๊ณผํ•™์ถ”๋ก  ์„ฑ๋Šฅ ๋ถ„์„๊ณผ ๋ชฉ์ ์ด ์œ ์‚ฌํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ์˜ ๋‚ด๋ถ€ ํ‘œํ˜„ ํ™œ์šฉ์ด ์•„๋‹Œ ์ž๊ธฐ ๋ฐ˜์„ฑ ๊ธฐ๋ฐ˜ ๊ธฐ๊ณ„ํ•™์Šต(์ƒ๋ฌผํ•™์  ํƒœ์Šคํฌ)์— ์ง‘์ค‘ํ•˜๋Š” ๋Œ€์•ˆ์  ์—ฐ๊ตฌ์ž…๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
LLM ์‹ ๋ขฐ์„ฑ ๋ฐ ๊ณผํ•™์  ์‹ ๋ขฐ๋„ ํ‰๊ฐ€(736)๋Š” Sciglm(723)์˜ ํ•œ๊ณ„ ์ง„๋‹จ๊ณผ ํ‰๊ฐ€ ์ง€ํ‘œ๋ฅผ ์‹ค์งˆ์ ์œผ๋กœ ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
๊ณผํ•™ LLM์„ ํ™œ์šฉํ•œ ์‹ค์งˆ์  ๊ณผํ•™์  ๋ฐœ๊ฒฌ ํŒจ๋Ÿฌ๋‹ค์ž„ ๋ณ€ํ™”์™€ ๋ฏธ๋ž˜ ๋ฐฉํ–ฅ์„ ๊ณ ์ฐฐํ•ฉ๋‹ˆ๋‹ค.
๋ฐ˜๋ก /๋น„ํŒ
834๋ฒˆ ๋…ผ๋ฌธ์€ ๊ณผํ•™ AI์˜ ํ•œ๊ณ„ ๋ฐ ๊ณผ์ œ ์ค‘์‹ฌ์˜ ๋ฆฌ๋ทฐ๋กœ, ๊ณผํ•™ LLM ํ‰๊ฐ€์˜ ์–ด๋ ค์›€๊ณผ Sciglm์ด ์ง€์ ํ•œ ๋Œ€ํ•™ ์ˆ˜์ค€ ์ •ํ™•๋„ ๋ฌธ์ œ์™€ ๋ฐ˜๋Œ€์˜ ๋…ผ์ง€๋ฅผ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •