Essence
Meta๊ฐ ๋ฐํํ Llama 3๋ 8B, 70B, 405B ํ๋ผ๋ฏธํฐ ๊ท๋ชจ์ ๋๊ท๋ชจ ์ธ์ด๋ชจ๋ธ ๊ณ์ด๋ก, 15T ๋ค๊ตญ์ด ํ ํฐ์ผ๋ก ์ฌ์ ํ์ต๋์์ผ๋ฉฐ 128K ํ ํฐ ์ปจํ
์คํธ ์๋์ฐ๋ฅผ ์ง์ํ๋ ๊ณ ์ฑ๋ฅ ๊ธฐ๋ฐ๋ชจ๋ธ(foundation model)์ด๋ค. GPT-4 ์์ค์ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ฉด์ ๋ค๊ตญ์ด, ์ฝ๋ฉ, ์ถ๋ก , ๋๊ตฌ ์ฌ์ฉ ๋ฅ๋ ฅ์ ๊ธฐ๋ณธ์ ์ผ๋ก ์ง์ํ๋ค.
How
์ฌ์ ํ์ต (Pre-training)
- ๋ฐ์ดํฐ ํ๋ ์ด์
: ์น, ํ์ ์๋ฃ, ์ฝ๋ ๋ฑ ๋ค์ํ ์์ค์์ 15T ํ ํฐ ์์ง
- PII ๋ฐ ์ฑ์ธ ์ฝํ
์ธ ์ ๊ฑฐ ํํฐ๋ง
- ๋ง์ถคํ HTML ํ์๋ก ๋ณด์ผ๋ฌํ๋ ์ดํธ ์ ๊ฑฐ ๋ฐ ์ฝํ
์ธ ์ ํ๋ ํฅ์
- ์ํ/์ฝ๋ ๊ตฌ์กฐ ๋ณด์กด ์ฒ๋ฆฌ
- ๋ชจ๋ธ ์ํคํ
์ฒ: ํ์ค Transformer (๋ฐ์งํ/Dense), ํผํฉ ์ ๋ฌธ๊ฐ ๋ชจ๋ธ(MoE) ๋ฏธ์ฑํ
- ์ค์ผ์ผ๋ง: 405B ํ๋ผ๋ฏธํฐ, 8Kโ128K ํ ํฐ ์๋์ฐ ์ง์ ํ์ต
- 4D ๋ณ๋ ฌ ์ฒ๋ฆฌ: TP(Tensor Parallelism), CP(Context Parallelism), PP(Pipeline Parallelism), DP(Data Parallelism)
์ฌํํ์ต (Post-training)
- ์ง๋ํ์ต ๋ฏธ์ธ์กฐ์ (SFT): ์ง์ ํ๋ ๋ฐ์ดํฐ๋ก 1์ฐจ ์ ๋ ฌ
- ๊ฑฐ๋ถ ์ํ๋ง(RS): ๊ณ ํ์ง ์๋ต ์ ๋ณ
- ์ง์ ์ ํธ๋ ์ต์ ํ(DPO): ์ธ๊ฐ ํผ๋๋ฐฑ ๊ธฐ๋ฐ ์ ๋ ฌ (๊ฐํํ์ต ๋์ ์ฑํ)
๋ฉํฐ๋ชจ๋ฌ ํ์ฅ (๋ฏธ์ถ์)
- ์ด๋ฏธ์ง ์ธ์ฝ๋: ์ด๋ฏธ์ง-ํ
์คํธ ์์ผ๋ก ์ฌ์ ํ์ต
- ์์ฑ ์ธ์ฝ๋: ์์ฒด ๊ฐ๋
ํ์ต(๋ง์คํน ๊ธฐ๋ฐ)
- ์ด๋ํฐ: ํฌ๋ก์ค-์ดํ
์
๋ ์ด์ด๋ก ์๊ฐ/์์ฑ ํํ์ ์ธ์ด๋ชจ๋ธ์ ์ ๋ ฌ
Evaluation
Novelty: 3.5/5 Technical Soundness: 4.5/5 Significance: 4.5/5 Clarity: 4/5 Overall: 4/5
์ดํ: Llama 3๋ ๋ฐ์ดํฐ ํ์ง ๊ฐ์ ๊ณผ ๋๊ท๋ชจ ํฌ์๋ฅผ ํตํด GPT-4 ์์ค์ ์ฑ๋ฅ์ ๋ฌ์ฑํ ์ค์ํ ์คํ์์ค ๊ธฐ๋ฐ๋ชจ๋ธ์ด์ง๋ง, ๋ฉํฐ๋ชจ๋ฌ ํตํฉ์ ๋ฏธํกํจ๊ณผ ๊ธฐ์ ์ ์ธ๋ถ์ฌํญ์ ์ ํ๋ ๊ณต๊ฐ๋ ์์ ํ ์๋ก์ด ๋ฐฉ๋ฒ๋ก ๋ณด๋ค๋ ๊ธฐ์กด ๊ธฐ๋ฒ์ ์ ๊ตํ ์กฐํฉ๊ณผ ๊ท๋ชจํ์ ์ธก๋ฉด์์ ๊ฐ์น๋ฅผ ๊ฐ๋๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
467์ ๋ํ ์ธ์ด๋ชจ๋ธ์ ์ํคํ
์ฒ์ ์ฑ๋ฅ ๋ฒ์๋ฅผ ์ด๋ง๋ผํ์ฌ 801์ Llama 3 ๊ณ์ด ์ถ์์ ์ง์ ์ ์ผ๋ก ์ฐ๋ํด ์ฝ์๋งํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Llama 3์ ๋น๊ต ๊ฐ๋ฅํ GPT-4 ๋ชจ๋ธ์ ๊ธฐ์ ์ธ๋ถ์ฌํญ๊ณผ ์ฑ๋ฅ ํ๊ฐ๋ฅผ ์ ๊ณตํ์ฌ, ์ฑ๋ฅ ๋น๊ต ๋ฐ ์ฐจ๋ณ์ฑ ๋
ผ์์ ๊ธฐ์ด๊ฐ ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Llama 3 ๋ฑ ๊ฒฝ์ ์ ์ํ ์ธ์ด๋ชจ๋ธ์ ์์ด์ ํธ ์ ํฉ์ฑ์ ์ค์ฆ์ ์ผ๋ก ๊ฒํ ํ๋ ๊ธฐ๋ณธ ๋
ผ๋ฌธ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
Code Llama ๋
ผ๋ฌธ์ Llama ๊ณ์ด์ ์ฝ๋ ํนํ ๋ชจ๋ธ๋ก, Llama 3์ ๋ฒ์ฉ์ ํน์ง๊ณผ ๋น๊ตํ๋ฉฐ ์ฝ์ผ๋ฉด LLM ํ์ฅ์ ๋ค์ํ ๋ฐฉํฅ์ ํ์
ํ ์ ์๋ค.
๋ค๋ฅธ ์ ๊ทผ
Gemini ๋
ผ๋ฌธ์ ๋ฉํฐ๋ชจ๋ฌ ๋ฐ ๋ค์ํ ์ถ๋ก ํ์คํฌ์ ๊ฐ์ ์ ๋ณด์ด๋ ๋ํ๋ชจ๋ธ๋ก์, Llama 3์ ๋ชจ๋ธ ์ฑ๋ฅ, ์ฌ์ ํ์ต ๋ฐ์ดํฐ, ์์ฉ๋ฒ์๋ฅผ ๋น๊ตํ๊ธฐ์ ์ข๋ค.
๋ค๋ฅธ ์ ๊ทผ
770๋ฒ ๋
ผ๋ฌธ์ StarCoder2๋ผ๋ ๋์ ๋๊ท๋ชจ ์ธ์ด๋ชจ๋ธ ๊ณ์ด์ ์ค๊ณ์ ์ฑ๋ฅ์ ์ ์ํ์ฌ Llama 3์ ์์น๋ฅผ ๋น๊ตํด ๋ณผ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
The Llama 3 Herd of Models๋ ๋ค์ํ LLM์ ํ์ฉํ ์๋ฆฌ ๋ฌธ์ ํด๊ฒฐ์ ๋ค๋ฃจ๋ฉฐ, ๋ฌผ๋ฆฌ ๋ฌธ์ ํด์ ๊ฐ๋ฅ์ฑ ์ฐ๊ตฌ์ ์ ๊ทผ ๋ฐฉ์์ด ์์ดํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
Llama3 ๊ธฐ๋ฐ ๋ค์ํ LLM ์์ด์ ํธ ๋ชจ๋ธ๊ตฐ์ ์ค์ ์ฌ์ฉ์ ํ์ฉ ๋ฐ์ดํฐ๋ฅผ ๋ถ์ํด Perplexity ์ฌ๋ก์ ๋์กฐํ ์ ์์ต๋๋ค.
ํ์ ์ฐ๊ตฌ
801๋ฒ ๋
ผ๋ฌธ์ Llama 3 ๋ฑ ์๋ก์ด LLM ํจ๋ฐ๋ฆฌ์ ๊ธฐ์ ์ฌ์๊ณผ ์ฑ๋ฅ, GPT-4์์ ๋น๊ต๊น์ง ์์ธํ ๋ค๋ฃจ๋ฉฐ, 387๋ฒ์ ๋ชจ๋ธ ์ฑ๋ฅ ํ๊ฐ๋ฅผ ๋ฏธ๋ํ LLM์ผ๋ก ํ์ฅํ๋ค.
์์ฉ ์ฌ๋ก
PIORS ๋
ผ๋ฌธ์ LLM์ ๊ธฐ๋ฐ์ผ๋ก ํ ํ์ ๋ง์ถคํ ์ธ๋์ ์ ์์คํ
์ ๊ตฌํํ์ฌ, Llama 3์ ๊ฐ์ ๊ณ ์ฑ๋ฅ LLM์ ์ค์ ํ์ฉ ์ฌ๋ก๋ก ์ฝ์ด๋ณผ ์ ์์ต๋๋ค.
์์ฉ ์ฌ๋ก
The Llama 3 Herd of Models ๋
ผ๋ฌธ์ ์ค์ ๋๊ท๋ชจ LMM ๋น๊ต ์คํ์ ํตํด ์ธ๊ฐ ํผ๋๋ฐฑ-์ค์ฌ ์ํธ์์ฉ์ ์ค์ ์ ํจ์ฉ์ ๊ฒ์ฆํฉ๋๋ค.
๋ฐ๋ก /๋นํ
801 ๋
ผ๋ฌธ์ ๋ค์ํ LLM ๊ธฐ๋ฐ ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ์ ์ฑ๋ฅ ๋ฐ ํ๊ณ์ ์ ๋ ํญ๋๊ฒ ๋น๊ตยทํ๊ฐํฉ๋๋ค.