์ ์: DeepSeek-AI, Aixin Liu, Bei Feng, Bing Xue, Bingxuan Wang, Bowen Wu, Chengda Lu, Chenggang Zhao, Chengqi Deng, Chenyu Zhang, Chong Ruan, Damai Dai, Daya Guo, Dejian Yang, Deli Chen, Dongjie Ji, Erhang Li, Fangyun Lin, Fengze Dai, Fuli Luo | ๋ ์ง: 2024 | DOI: arXiv:2412.19437v2 📄 PDF
Essence
๊ทธ๋ฆผ 1: DeepSeek-V3์ ๋์ข
๋ชจ๋ธ๋ค์ ๋ฒค์น๋งํฌ ์ฑ๋ฅ ๋น๊ต
671B ๋งค๊ฐ๋ณ์๋ฅผ ๊ฐ์ง ํผํฉ ์ ๋ฌธ๊ฐ(Mixture-of-Experts, MoE) ์ธ์ด ๋ชจ๋ธ DeepSeek-V3๋ฅผ ์ ์ํ๋ฉฐ, ํ ํฐ๋น 37B๋ง ํ์ฑํ๋์ด ํจ์จ์ ์ถ๋ก ์ ์คํํ๋ค. ๋ณด์กฐ ์์ค ์๋ ๋ถํ ๊ท ํ ์ ๋ต๊ณผ ๋ค์ค ํ ํฐ ์์ธก(Multi-Token Prediction, MTP) ๋ชฉํ๋ฅผ ๋์
ํ์ฌ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ฉด์๋ 2.788M H800 GPU ์๊ฐ์ด๋ผ๋ ๊ฒฝ์ ์ ํ๋ จ ๋น์ฉ์ผ๋ก ์์ฑํ๋ค.
How
๊ทธ๋ฆผ 3: ๋ค์ค ํ ํฐ ์์ธก(MTP) ๊ตฌํ ๋ฐฉ์
์ํคํ
์ฒ ๊ฐ์ :
- Multi-Head Latent Attention (MLA): ํค-๊ฐ(KV) ์บ์ ํฌ๊ธฐ๋ฅผ ๋ํญ ๊ฐ์์์ผ ์ถ๋ก ํจ์จ ์ฆ๋
- DeepSeekMoE: ํ ํฐ๋น 37B๋ง ํ์ฑํํ์ฌ ๊ณ์ฐ๋ ์ต์ ํ
๋ถํ ๊ท ํ ์ ๋ต:
- ๋ณด์กฐ ์์ค ์ ๊ฑฐ๋ก ๋ชจ๋ธ ์ฑ๋ฅ ์ ํ ๋ฐฉ์ง
- ๋ฐฐ์น ๋จ์ ๋ฐ ์ํ์ค ๋จ์ ๋ถํ ๊ท ํ ๋น๊ต ๋ถ์
- ์ ๋ฌธ๊ฐ(expert) ํนํ ํจํด ์ ์ง
๋ค์ค ํ ํฐ ์์ธก:
- ๋จ์ผ ํ ํฐ์ด ์๋ ๋ค์ N๊ฐ ํ ํฐ ๋์ ์์ธก์ผ๋ก ํ์ต ์ ํธ ๊ฐํ
- ์ถ๋ก ์ ์ถ์ธก์ ๋์ฝ๋ฉ(speculative decoding)์ผ๋ก ํ์ฉ ๊ฐ๋ฅ
FP8 ํผํฉ ์ ๋ฐ๋ ํ๋ จ:
- ์์ํ(quantization) ๋ฐ ๊ณฑ์
๋จ๊ณ์์ ์ ๋ฐ๋ ๊ฐ์
- ์ ์ ๋ฐ ์ ์ฅ ๋ฐ ํต์ ์ผ๋ก ๋ฉ๋ชจ๋ฆฌ ๋ฐ ๋์ญํญ ์ ๊ฐ
- BF16๊ณผ ๋น๊ตํ์ฌ ํ๋ จ ์๋ ๋ฐ ๋ฉ๋ชจ๋ฆฌ ํจ์จ์ฑ ์
์ฆ
ํ๋ จ ํ๋ ์์ํฌ ์ต์ ํ:
- DualPipe: ํ์ดํ๋ผ์ธ ๊ธฐํฌ(pipeline bubble) ์ต์ํ
- ๊ณ์ฐ-ํต์ ์ค์ฒฉ: ๋
ธ๋ ๊ฐ all-to-all ํต์ ์ค๋ฒํค๋ ๊ทผ์ฒ(near-zero) ๋ฌ์ฑ
- InfiniBand ๋ฐ NVLink ๋์ญํญ ์ต์ ํ์ฉ
- ํ
์ธ์ ๋ณ๋ ฌํ(tensor parallelism) ์์ด ํ๋ จ ๊ฐ๋ฅ
์ฌ์ ํ๋ จ:
- 14.8์กฐ ๊ณ ํ์ง ๋ค์ํ ํ ํฐ์ผ๋ก ํ๋ จ
- 32K โ 128K ์ปจํ
์คํธ ๊ธธ์ด 2๋จ๊ณ ํ์ฅ
- ๋ฐ์ดํฐ ๊ตฌ์ฑ ๋ฐ ํ์ดํผํ๋ผ๋ฏธํฐ ์ธ์ฌํ ์ค๊ณ
์ฌํ ํ๋ จ:
- Supervised Fine-Tuning (SFT): ์ง์ ๋ฐ๋ฅด๊ธฐ ๋ฅ๋ ฅ ๊ฐํ
- Reinforcement Learning (RL): ๋ณด์ ๋ชจ๋ธ ๊ธฐ๋ฐ ์ ์ฑ
์ต์ ํ
- Group Relative Policy Optimization (GRPO): ๊ทธ๋ฃน ์๋ ๋ณด์ ํ์ฉ
- DeepSeek-R1 ์ฆ๋ฅ: ์ถ๋ก ๋ฅ๋ ฅ ์ด์ ๋ฐ ์์ฑ ๊ธธ์ด ์ ์ด
Evaluation
์ดํ: DeepSeek-V3๋ ์ํคํ
์ฒ ํ์ (๋ณด์กฐ ์์ค ์ ๊ฑฐ, ๋ค์ค ํ ํฐ ์์ธก), ํ๋ จ ์ต์ ํ(FP8, DualPipe, ๊ณ์ฐ-ํต์ ์ค์ฒฉ), ์ฌํ ํ๋ จ ๊ณ ๋ํ(R1 ์ฆ๋ฅ)๋ฅผ ํตํด ๊ฐ๋ฐฉํ ๋ชจ๋ธ์ ์ฑ๋ฅ ํ๊ณ๋ฅผ ํ๊ธฐ์ ์ผ๋ก ์ํฅ ์กฐ์ ํ๋ฉด์๋ ํ๋ จ ๋น์ฉ์ ๋ํญ ์ ๊ฐํ ํ๊ธฐ์ ๊ธฐ์ฌ๋ฅผ ๋ฌ์ฑํ๋ค. ๋ค๋ง ๋ฐ์ดํฐ ๊ตฌ์ฑ ์ธ๋ถ ์ ๋ณด ๊ณต๊ฐ ๋ถ์ฌ์ ํ๋์จ์ด ํนํ ์ต์ ํ์ ์ด์์ฑ ๋ฌธ์ ๊ฐ ํฅํ ๊ณผ์ ๋ก ๋จ์์๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
Deepseek-v3 ์ญ์ BERT์ ์ฌ์ ํ์ต, ์๊ธฐ์ฃผ์, ๋๊ท๋ชจ ๋ฐ์ดํฐ ์ ๋ต ๋ฑ์ ๋ฐ์ ํ์ด๋ฉฐ, ๋ฐฉ๋ฒ๋ก ์ ์ฐ์์ฑ์ด ํฌ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
REALM๋ ๋ชจ๋๋ฌ ๊ฒ์-์ฆ๊ฐ ์ธ์ด๋ชจ๋ธ์ ์ฌ์ ํ์ต์ ์ ์ฉํ ์ด๊ธฐ ์ฐ๊ตฌ๋ก, Deepseek-v3์ MoE ๋ฐ ์ธ๋ถ๊ธฐ์ต ์ ๋ต๊ณผ ์ํธ๋ณด์์ ์ผ๋ก ๋ณผ ์ ์์ต๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
148์ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ์ ํ๋ จ ๋ฐ ์ํคํ
์ฒ ์ค๊ณ์ ๋ํ ์ด๋ก ์ ยท๋ฐฉ๋ฒ๋ก ์ ๊ธฐ๋ฐ์ ์ ๊ณตํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Crystal Graph Convolutional Neural Network์ ์๋ ๋ฐฉ๋ฒ๋ก ์ ๊ธฐ๋ฐ์ด ๋๋ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
์ฌ์ ํ์ต ์ธ์ด ๋ชจ๋ธ์ ๋ค์ด์คํธ๋ฆผ ํ์คํฌ ์ ์ฉ์ ๊ด๋ จ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
659(REALM)์ ์ธ๋ถ ๊ฒ์์ ํ์ฉํ๋ ๋ฐ๋ฉด, 266(Deepseek-v3)์ ํผํฉ์ ๋ฌธ๊ฐ ๋ํ ์ธ์ด๋ชจ๋ธ๋ก ๋ด์ฌ์ ์ง์ ํ์ฉ์ ์ค์ ์ ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
Gemini๋ ๋ฉํฐ๋ชจ๋ฌ ๋ฐ ๋ํ LLM ์ํคํ
์ฒ์ ๋ค๋ฅธ ๊ตฌํ ์ฌ๋ก๋ก, ํจ์จ์ฑ๊ณผ ๋ฉํฐํ ํฐ ์์ธก ๋ฑ์์ Deepseek-V3์ ๋์กฐ๋ฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
370์ ์ ์ฌํ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ ์ํคํ
์ฒ๋ฅผ ๋ค๋ฃจ๋ฉฐ DeepSeek-V3์ ์ฑ๋ฅ ๋ฐ ํจ์จ์ฑ ์ธก๋ฉด์์ ๋น๊ต๋ ์ ์๋ ๋์์ ์ ๊ทผ๋ฒ์ ์ ์ํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
649๋ MoE ๊ธฐ๋ฐ ์ธ์ด ๋ชจ๋ธ์ ๋ค๋ฅธ ๊ตฌํ ๋ฐฉ์์ ์ ์ํ์ฌ DeepSeek-V3์ ๋์์ ๋น๊ต๊ฐ ๊ฐ๋ฅํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ์ ๊ณต์ ์ฑ ๋ฐ ํธํฅ ๋ฌธ์ ๋ฅผ ๋ค๋ฃจ๋ ๊ด๋ จ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
1074๋ ๋ค์ค ํ ํฐ ์์ธก์ด๋ ํจ์จ์ ์ถ๋ก ์ ์ํ ๋์์ ์ ๊ทผ๋ฒ์ ์ ์ํ์ฌ DeepSeek-V3์ ๋น๊ต ๊ฐ๋ฅํ๋ค.
ํ์ ์ฐ๊ตฌ
266 Deepseek-v3๋ ์ด๋๊ท๋ชจ ์ธ์ด๋ชจ๋ธ์ด ๋ค์ํ ๋ฐ์ดํฐ ํ๊ฒฝ์์ ํจ์จ์ ์ฌ์ ํ์ตยทํ์ฑํ๊ฐ ๊ฐ๋ฅํ๋ค๋ ์ ์ ๊ตฌ์ฒด์ ์ผ๋ก ์
์ฆํ๋ค.
์์ฉ ์ฌ๋ก
SciBERT๋ ๋๊ท๋ชจ ์ฌ์ ํ์ต ์ธ์ด๋ชจ๋ธ์ด ํน์ ๋๋ฉ์ธ์ ์ด๋ป๊ฒ ์ ์ฉ๋๋์ง ๋ณด์ฌ์ฃผ๋ ์ค์ ์์ฉ์ฌ๋ก์
๋๋ค.