Sciglm: Training scientific language models with self-reflective instruction annotation and tuning
์ ์: Dan Zhang, Ziniu Hu, Sining Zhoubian, Zhengxiao Du, Kaiyu Yang, Zihan Wang, Yisong Yue, Yuxiao Dong, Jie Tang | ๋ ์ง: 2024 | DOI: arXiv:2401.07950 📄 PDF
Essence
๋ค์ํ ํ๋ผ๋ฏธํฐ ํฌ๊ธฐ์ LLM๋ค์ ๋ํ SciGLM์ ์ฑ๋ฅ ๊ฐ์ ํจ๊ณผ
SciGLM์ ์๊ธฐ ์ฑ์ฐฐ์ (self-reflective) ์ฃผ์ ์์ฑ ํ๋ ์์ํฌ๋ฅผ ํตํด ๊ณ ํ์ง์ ๊ณผํ ์ง์ ๋ฐ์ดํฐ๋ฅผ ์๋์ผ๋ก ํ๋ ์ด์
ํ๊ณ , ์ด๋ฅผ ์ด์ฉํด ์ฌ๋ฌ ์ธ์ด ๋ชจ๋ธ์ ํ์ธํ๋ํจ์ผ๋ก์จ ๋ํ ์์ค์ ๊ณผํ ์ถ๋ก ๋ฅ๋ ฅ์ ๊ฐ์ถ ๊ณผํ ์ธ์ด ๋ชจ๋ธ์ ๊ตฌ์ถํ๋ค. GPT-3.5์ GPT-4 ๊ฐ์ ๊ณ ๊ธ LLM๋ ๊ธฐ๋ณธ์ ์ธ ๊ณผํ ๋ฌธ์ ์์ 28.52%์ ๋ฎ์ ์ ํ๋๋ฅผ ๋ณด์ด๋ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, ๋ฌผ๋ฆฌ, ํํ, ์ํ, ํ์์ ์ฆ๋ช
(Lean)์ ํฌํจํ๋ 254,051๊ฐ์ ๊ณ ํ์ง ๊ณผํ ์ง์๋ฌธ์ ํฌํจํ SciInstruct ๋ฐ์ดํฐ์
์ ๊ตฌ์ถํ๋ค.
Motivation
- Known: LLM๋ค์ด ๊ณผํ ๋ฐ๊ฒฌ ๋ณด์กฐ์ ์ ์ฌ๋ ฅ์ ๋ณด์ด๊ณ ์์ผ๋ฉฐ, ๋จ์ ์ถ๋ก ์์
์์๋ ์ฐ์ํ ์ฑ๋ฅ์ ๋ฌ์ฑํจ.
- Gap: GPT-3.5, GPT-4์ ๊ฐ์ ๊ณ ๊ธ LLM๋ ๋ฌผ๋ฆฌ ์์ ๊ณ์ฐ, ๊ธฐํธ์ ๋ฐฉ์ ์ ๋์ถ, ๊ณ ๊ธ ์์น ๊ณ์ฐ ๋ฑ ๋ํ ์์ค์ ๊ณผํ ๋ฌธ์ ์์ ์ฌ๊ฐํ ์ฑ๋ฅ ๋ถ์กฑ(28.52% ์ ํ๋)์ ๋ณด์. ๊ณผํ ๋ถ์ผ์ ๊ณ ํ์ง ์ง์ ๋ฐ์ดํฐ ๋ถ์กฑ์ผ๋ก ์ธํด LLM์ ๊ณผํ์ ์ถ๋ก ๋ฅ๋ ฅ ํฅ์์ด ์ ํด๋จ.
- Why: ๊ณผํ ์ง์์ ๋์ ์ ๋ฌธ์ฑ์ ์๊ตฌํ๊ณ , ์์ง์ ์ ๋ณด๋ ์ง์ ์ฌ์ฐ๊ถ์ผ๋ก ๋ณดํธ๋์ด ํฉ๋ฒ์ ์ผ๋ก ์ ๊ทผ ๊ฐ๋ฅํ ๋ฐ์ดํฐ๋ ๋๋ถ๋ถ ์ง๋ฌธ-๋ต๋ณ(QA) ์ ํํ์ด๋ฉฐ ๋จ๊ณ๋ณ ์ถ๋ก ๊ณผ์ (chain-of-thought, CoT)์ด ๋ถ์ฌํจ. ์ด๋ฌํ ๋ฐ์ดํฐ๋ก๋ง ํ๋ จํ๋ฉด ๋ชจ๋ธ ์ฑ๋ฅ์ด ์
ํ๋๊ณ ์ผ๋ฐ ์ธ์ด ์ดํด ๋ฅ๋ ฅ๋ ์์๋จ.
- Approach: LLM์ด ์์จ์ ์ผ๋ก ์ถ๋ก ๋จ๊ณ๋ฅผ ์ฃผ์ ์ฒ๋ฆฌํ๊ณ , ์ค๋ฅ๋ฅผ ์๊ฐ ์ง๋จํ๋ฉฐ, ๊ฐ์ ํ๋ ์๊ธฐ ์ฑ์ฐฐ์ ์ฃผ์ ์์ฑ ํ๋ ์์ํฌ๋ฅผ ์ ์. ์ด๋ฅผ ํตํด ์ต์ํ์ ์ธ๊ฐ ๊ฐ์
์ผ๋ก ๊ณ ํ์ง ์ง์ ๋ฐ์ดํฐ๋ฅผ ๋๊ท๋ชจ๋ก ์์ฑํ๊ณ , ์ฌ๋ฌ ์ธ์ด ๋ชจ๋ธ(ChatGLM3 6B/32B, Llama3-8B-Instruct, Mistral-7B)์ ํ์ธํ๋.
Achievement
๋ค์ํ ์์ค๋ก๋ถํฐ ๋ฐ์ดํฐ ์์ง, ์๊ธฐ ์ฑ์ฐฐ์ ์ฃผ์, ํํฐ๋ง์ ๊ฑฐ์ณ ๊ณ ํ์ง ์ง์๋ฌธ ์์ฑ
3๋จ๊ณ ๋ฐ๋ณต ๊ณผ์ ์ ํตํ ๋จ๊ณ๋ณ ์ ํํ ์ถ๋ก ๊ณผ์ ์์ฑ์ ์์
- ํฌ๊ด์ ๊ณผํ ์ง์ ๋ฐ์ดํฐ์
๊ตฌ์ถ: ๋ฌผ๋ฆฌํ, ํํ, ์ํ, ํ์์ ์ฆ๋ช
(Lean)์ ํฌํจํ๋ 254,051๊ฐ์ ๊ฒ์ฆ๋ ๊ณ ํ์ง ์ง์๋ฌธ์ผ๋ก ๊ตฌ์ฑ๋ SciInstruct ๋ฐ์ดํฐ์
์์ฑ. ๋๋ฉ์ธ๋ณ ๋น์ค์ ๋ฌผ๋ฆฌ&ํํ 48.8%, ์ํ 35.4%, ํ์์ ์ฆ๋ช
15.8%์ด๋ฉฐ, ์ง๋ฌธ ์ ํ์ ์ฑ์ฐ๊ธฐํ(33.2%), ์ ํํ(32.0%), ๋ณต์กํ ํ์ดํ(20.1%), ๊ฐ๋จํ ํ์ดํ(14.6%)์ผ๋ก ๋ค์ํ.
- ์ฑ๋ฅ ํฅ์ ๊ฒ์ฆ: ChatGLM3 6B ๋ชจ๋ธ์์ 4.87%, 32B ๋ชจ๋ธ์์ 2.67% ์ ํ๋ ๊ฐ์ ๋ฌ์ฑ. ๋์ผ ํ๋ผ๋ฏธํฐ ํฌ๊ธฐ์ ์ ํ ๋ชจ๋ธ๋ค(Galactica, MAmmoTH)์ ๋ฅ๊ฐํ๋ฉฐ, GPT-4์์ ๊ฒฉ์ฐจ๋ฅผ ์ถ์. ๊ณผํ ๋ฒค์น๋งํฌ(CEval-Sci, Sci-Eval, SciBench, MATH, SAT-Math)์์ ํ๊ท ์ ํ๋ ํฅ์์ ๋ณด์.
- ์ผ๋ฐ ์ธ์ด ๋ฅ๋ ฅ ๋ณด์กด: ์ง์ ํ๋์ ํตํ ์ฑ๋ฅ ํฅ์์ด ๊ธฐ๋ณธ ๋ชจ๋ธ์ ์ผ๋ฐ ์ธ์ด ์ดํด ๋ฐ ์ฝ๋ฉ ๋ฅ๋ ฅ์ ์์์ํค์ง ์์์ ๊ฒ์ฆ. SciGLM์ด ์ธ๊ฐ-AI ์ํธ์์ฉ ๋ฐ ๊ณผํ ๋๋ฉ์ธ ์ ๋ฌธ ์ง์ ๋ชจ๋์ ์ ํฉํ ๊ท ํ์กํ ๋ชจ๋ธ์์ ์
์ฆ.
How
๋ฐ์ดํฐ ์์ง ๋ฐ ํ๋ ์ด์
:
- ๋ฌผ๋ฆฌ, ํํ, ์ํ, ํ์์ ์ฆ๋ช
(Lean) ๋ฑ ๋ค์ํ ๊ณผํ ๋ถ์ผ์ ๊ต๊ณผ์, ๊ต์ก ์๋ฃ, ๋ฌธ์ ์ง์ผ๋ก๋ถํฐ ๊ธฐ๋ณธ QA ๋ฐ์ดํฐ ์์ง
- ๊ธฐ์กด ๊ณต๊ฐ ๋ฐ์ดํฐ์
(Fundamentals of Physics, Physical Chemistry ๋ฑ)์ ๋ถ์กฑํ ๋ถ๋ถ์ ๊ณ ๋ฑ ๊ต์ก ์์ค์ ๋ฌธ์ ๋ก ๋ณด์
์๊ธฐ ์ฑ์ฐฐ์ ์ฃผ์ ์์ฑ ํ๋ ์์ํฌ (3๋จ๊ณ ๋ฐ๋ณต):
- Stage 1 (์ด๊ธฐ ์์ฑ): LLM์ ๊ณผํ ๋ฌธ์ ๋ง ์ ์ํ์ฌ ๋จ๊ณ๋ณ ํ์ด์ ๋ต๋ณ ์์ฑ. 42,497๊ฐ ์ง๋ฌธ ์ค 19,824๊ฐ๊ฐ ์ ๋ต ๋ฌ์ฑ
- Stage 2 (์ค๋ฅ ๋ฐ์): ์ค๋ต์ ๋ฐ์ 22,673๊ฐ ๋ฌธ์ ์ ๋ํด LLM์ ์ค๋ฅ๋ฅผ ๋ฐ์ํ๋๋ก ์ง์. 5,458๊ฐ ์ถ๊ฐ ์ ๋ต ๋ฌ์ฑ
- Stage 3 (๊ฐ์ ๋ ๋ฐ์): ์ฌ์ ํ ์ค๋ต์ธ 17,215๊ฐ ๋ฌธ์ ์ ๋ํด ์ ๋ต์ ์ ๊ณตํ๊ณ ์ค๋ฅ๋ฅผ ๋ถ์ํ๋๋ก ์ฌ์ง์. 7,687๊ฐ ์ถ๊ฐ ์ ๋ต ๋ฌ์ฑ
- ์ต์ข
32,969๊ฐ์ ์ ํํ ์๋ฃจ์
ํ๋
์ค๋ฅ ๋ถ๋ฅ ๋ฐ ์๋ ํํฐ๋ง:
- ์ดํด ์ค๋ฅ(comprehension mistakes), ๊ณ์ฐ ์ค๋ฅ(calculation mistakes), ์๋ชป๋ ์ถ๋ก (false reasoning) ๋ฑ์ผ๋ก ์ค๋ฅ ์ ํํ
- ๋จธ์ ๋ฌ๋ ๊ธฐ๋ฐ ์ง์๋ฌธ ํ์ง ๋ถ๋ฅ๊ธฐ(instruction-quality classifier) ํ๋ จํ์ฌ ์๋ ํํฐ๋ง ์ํ
๋ชจ๋ธ ํ์ธํ๋:
- ChatGLM3 (6B, 32B), Llama3-8B-Instruct, Mistral-7B:MetaMATH ๋ฑ ์ฌ๋ฌ ๊ธฐ๋ณธ ๋ชจ๋ธ์ SciInstruct๋ฅผ ํตํ ์ง์ ํ๋(instruction tuning) ์ ์ฉ
- ๋ค์ํ ๊ณผํ ๋ฐ ์ํ ๋ฒค์น๋งํฌ์์ ํ๊ฐ
Originality
- ํ์ ์ ๋ฐ์ดํฐ ํ๋ ์ด์
๋ฐฉ๋ฒ๋ก : ์ธ๊ฐ ์ฃผ์์ด ์๋ LLM์ ์๊ธฐ ์ฑ์ฐฐ์ ๋นํ-๊ฐ์ (critic-and-revise) ํ๋ก์ธ์ค๋ฅผ ํตํด ๊ณ ํ์ง ์ง์ ๋ฐ์ดํฐ๋ฅผ ์๋ ์์ฑํ๋ ๋ฐฉ์์ ์ฐฝ์์ฑ. ๊ธฐ์กด ๋ฐฉ์์ ๋น์ฉ ๋ฐ ํ์ฅ์ฑ ๋ฌธ์ ๋ฅผ ํ๊ธฐ์ ์ผ๋ก ํด๊ฒฐ.
- ํฌ๊ด์ ๊ณผํ ๋๋ฉ์ธ ํตํฉ: ๋ฌผ๋ฆฌ, ํํ, ์ํ, ํ์์ ์ฆ๋ช
์ ๋ชจ๋ ํฌํจํ๋ ํตํฉ ๊ณผํ ์ง์ ๋ฐ์ดํฐ์
๊ตฌ์ถ. ๋จ์ผ ๋ถ์ผ ๊ณผ์ ํฉ(overfitting)์ ๋ฐฉ์งํ๊ณ ์ผ๋ฐํ๋ ๊ณผํ์ ์ถ๋ก ๋ฅ๋ ฅ ๊ฐ๋ฐ.
- ๋ค๋จ๊ณ ๋ฐ๋ณต์ ๊ฐ์ ํ๋ ์์ํฌ: ๋จ์ํ ์ผํ์ฑ ์์ฑ์ด ์๋ 3๋จ๊ณ ๋ฐ๋ณต ๊ณผ์ ์ ํตํด ์ ์ง์ ์ผ๋ก ์ ํ๋๋ฅผ ํฅ์์ํค๋ ๊ตฌ์กฐ์ ์ฒด๊ณ์ฑ. ์ค๋ฅ ๋ถ์ ๋ฐ ์๋ ํํฐ๋ง์ผ๋ก ๋ฐ์ดํฐ ํ์ง ๋ณด์ฆ.
- ๊ด๋ฒ์ํ ๊ฒ์ฆ ๋ฐ ๊ณต๊ฐ: ์ฌ๋ฌ ๊ธฐ๋ณธ ๋ชจ๋ธ(ChatGLM3, Llama3, Mistral)์ ๊ฑธ์น ์ผ๊ด๋ ์ฑ๋ฅ ํฅ์ ์
์ฆ. ์ฝ๋ ๋ฐ ๋ฐ์ดํฐ์
๊ณต๊ฐ๋ก ํ์ ์ปค๋ฎค๋ํฐ์ ์ฌํ์ฑ๊ณผ ํ์ฅ์ฑ ํ๋ณด.
Limitation & Further Study
- ๊ธฐ๋ณธ ๋ชจ๋ธ์ ์ ์ฝ: ํ์ธํ๋์ ํจ๊ณผ๊ฐ ๊ธฐ๋ณธ ๋ชจ๋ธ์ ์ด๊ธฐ ์ฑ๋ฅ๊ณผ ๋ฅ๋ ฅ์ ํฌ๊ฒ ์์กด. ๋ ์ฐ์ํ ๊ธฐ๋ณธ ๋ชจ๋ธ ์ฌ์ฉ ์ ๊ฐ์ ํญ์ด ์ ํ๋ ๊ฐ๋ฅ์ฑ.
- ์ ํ๋ ์์ค์ ์ ๋์ ํ๊ณ: GPT-4 ๋๋น ์ฌ์ ํ ์ ํ๋ ๊ฒฉ์ฐจ๊ฐ ์กด์ฌํ๋ฉฐ, ๋ณต์กํ ๊ณผํ ์ถ๋ก ๋ฌธ์ ์์ ๊ธฐ๋ ์ด์์ ์ฑ๋ฅ ๋ฌ์ฑ์ ์ ์ฝ.
- ๋๋ฉ์ธ ๊ท ํ์ ํ๊ณ: ๋ฌผ๋ฆฌ&ํํ(48.8%)์ ๋ํ ๊ฐ์ค์น๊ฐ ๋์ ๋ค๋ฅธ ๊ณผํ ๋ถ์ผ(์: ์๋ฌผํ, ์ง๊ตฌ๊ณผํ)์ ์๋์ ๋ถ์กฑ.
- ์๋ ํํฐ๋ง์ ์ ํ๋: ์ง์๋ฌธ ํ์ง ๋ถ๋ฅ๊ธฐ์ ์๋ฒฝ๋๊ฐ 100%๊ฐ ์๋์ด์ ์ผ๋ถ ์ ํ์ง ๋ฐ์ดํฐ๊ฐ ํฌํจ๋ ๊ฐ๋ฅ์ฑ. ํด๋จผ-์ธ-๋-๋ฃจํ(human-in-the-loop) ๊ฒ์ฆ์ ์ถ๊ฐ ํ์์ฑ.
ํ์ ์ฐ๊ตฌ ๋ฐฉํฅ:
- ๋ค๊ตญ์ด ๊ณผํ ์ง์ ๋ฐ์ดํฐ์
ํ์ฅ ๋ฐ ํ์ ๊ฐ(interdisciplinary) ๊ณผํ ์ถ๋ก ๋ฅ๋ ฅ ๊ฐ๋ฐ
- ๋ ๋ณต์กํ ๋ฉํฐ์คํ
๊ณผํ ๋ฌธ์ ๋ฐ ์คํ ์ค๊ณ ๋ฅ๋ ฅ ํฌํจ
- ๊ณผํ ๋ชจ๋ธ๊ณผ ๋๋ฉ์ธ ํนํ ๋๊ตฌ(์ํ ์์ง, ํํ ์๋ฎฌ๋ ์ดํฐ)์ ํตํฉ
Evaluation
์ดํ: SciGLM์ ๊ณผํ ๋๋ฉ์ธ LLM ํ๋ จ์ ์ํ ์๋ํ๋ ๊ณ ํ์ง ๋ฐ์ดํฐ์
๊ตฌ์ถ์ด๋ผ๋ ์ค์ง์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ฉฐ, ์๊ธฐ ์ฑ์ฐฐ์ ๋นํ-๊ฐ์ ํ๋ ์์ํฌ๋ ๋ฐ์ดํฐ ๋ถ์กฑ ๋ถ์ผ์ ํ์ฅ์ฑ ์๋ ์๋ฃจ์
์ ์ ์ํ๋ค. ๋ค๋ง ์ ๋ ์ ํ๋ ์์ค์ ์ฌ์ ํ GPT-4์ ๋ฏธ์น์ง ๋ชปํ๊ณ , ๋๋ฉ์ธ ๊ฐ ๊ท ํ ๊ฐ์ ๊ณผ ๋ ๋ณต์กํ ๊ณผํ ๋ฌธ์ ํฌ
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
720์ ์๋ช
๊ณผํ๊ณผ ํํ ์์ญ์์์ ๊ณผํ LLM ์๋ฒ ์ด๋ผ๋ ๋ฉํ๋ถ์์ ํตํด 723์ ์ฑ์ฐฐ์ ๋ฐ์ดํฐ ํ๋ ์ด์
ํ๋ ์์ํฌ ์ด๋ก ์ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๊ณผํ์ ์์ ๋ฐ๊ฒฌ์ ์ํ LLM ๋ฒค์น๋งํฌ๋ก, ์๊ธฐ์ฑ์ฐฐ ํ๋กฌํํธ ํ์ฉ์ ๊ธฐ์ ์ ๊ธฐ๋ฐ์ ์ ์ํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
320์ ์ฝ๋ ๊ธฐ๋ฐ LLM์ ํ๊ฐ์ ์ญํ ์ ์ค์ ์ ๋๋ฉฐ, 723์์ ์ธ๊ธํ ๋ค์ํ ๊ธฐ๋ฐ LLM ํ๊ฐ์ ํ ๊ฐ๋๋ฅผ ๋ณด์ฌ์ค๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
747 ๋
ผ๋ฌธ์ LLM์ด ์์ ์ ์ถ๋ก ๊ณผ์ ์ ์๋ ๊ฒ์ฆํ๋ Self-Check๋ผ๋ ์ ๊ทผ์ ์ทจํด ์๊ธฐ ์ฑ์ฐฐ ๋ฐ ํ๊ฐ ๋ฅ๋ ฅ์ ๊ฐํํ๋ ๋์์ ํ๋ ์์
๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋ํ ์์ค ๊ณผํ๋ฌธ์ LLM ํ๊ฐ์ฉ ๋ฒค์น๋งํฌ๋ฅผ ๊ฐ๋ฐํ์ฌ, ์ง์ ๊ธฐ๋ฐ LLM ๊ณผํ์ถ๋ก ์ฑ๋ฅ ๋ถ์๊ณผ ๋ชฉ์ ์ด ์ ์ฌํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
ํ์ด๋ฐ์ด์
๋ชจ๋ธ์ ๋ด๋ถ ํํ ํ์ฉ์ด ์๋ ์๊ธฐ ๋ฐ์ฑ ๊ธฐ๋ฐ ๊ธฐ๊ณํ์ต(์๋ฌผํ์ ํ์คํฌ)์ ์ง์คํ๋ ๋์์ ์ฐ๊ตฌ์
๋๋ค.
ํ์ ์ฐ๊ตฌ
LLM ์ ๋ขฐ์ฑ ๋ฐ ๊ณผํ์ ์ ๋ขฐ๋ ํ๊ฐ(736)๋ Sciglm(723)์ ํ๊ณ ์ง๋จ๊ณผ ํ๊ฐ ์งํ๋ฅผ ์ค์ง์ ์ผ๋ก ํ์ฅํฉ๋๋ค.
์์ฉ ์ฌ๋ก
๊ณผํ LLM์ ํ์ฉํ ์ค์ง์ ๊ณผํ์ ๋ฐ๊ฒฌ ํจ๋ฌ๋ค์ ๋ณํ์ ๋ฏธ๋ ๋ฐฉํฅ์ ๊ณ ์ฐฐํฉ๋๋ค.
๋ฐ๋ก /๋นํ
834๋ฒ ๋
ผ๋ฌธ์ ๊ณผํ AI์ ํ๊ณ ๋ฐ ๊ณผ์ ์ค์ฌ์ ๋ฆฌ๋ทฐ๋ก, ๊ณผํ LLM ํ๊ฐ์ ์ด๋ ค์๊ณผ Sciglm์ด ์ง์ ํ ๋ํ ์์ค ์ ํ๋ ๋ฌธ์ ์ ๋ฐ๋์ ๋
ผ์ง๋ฅผ ์ ์ํฉ๋๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์