From GPU Engineering to Scientific Discovery: Parallelism Techniques for Large Language Models
์ ์: Emmanuel A Olanrewaju | ๋ ์ง: 2026.03 | DOI: 10.26434/chemrxiv.15001091/v1 📄 PDF
Essence
FIG. 3: Loss Convergence across different DP techniques.
์ด ๋
ผ๋ฌธ์ ๋๊ท๋ชจ ์ธ์ด๋ชจ๋ธ์ ํจ์จ์ ์ธ ํ๋ จ๊ณผ ๋ฐฐํฌ๋ฅผ ์ํ ๋ณ๋ ฌํ ๊ธฐ๋ฒ๋ค์ ์ข
ํฉ์ ์ผ๋ก ์กฐ์ฌํ ์ค๋ฌธ ๋
ผ๋ฌธ์ด๋ค. Data parallelism, tensor parallelism, sequence parallelism, context parallelism, pipeline parallelism, expert parallelism ๋ฑ ์ฌ์ฏ ๊ฐ์ง ์ฃผ์ ๋ณ๋ ฌํ ์ ๋ต์ ์ฒด๊ณ์ ์ผ๋ก ๊ฒํ ํ๋ฉฐ, GPU ์์ง๋์ด๋ง๊ณผ ๊ณผํ์ ๋ฐ๊ฒฌ ๊ฐ์ ์ฐ๊ฒฐ์ฑ์ ๊ฐ์กฐํ๋ค.
Motivation
- Known: LLM์ ๊ณ์ฐ ๋ณต์ก์ฑ ์ฆ๊ฐ๋ก ์ธํ ๋ฉ๋ชจ๋ฆฌ์ ์ฒ๋ฆฌ ๋ฅ๋ ฅ์ ๋ณ๋ชฉ ํ์์ ์ ์๋ ค์ ธ ์์ผ๋ฉฐ, tensor parallelism, pipeline parallelism, data parallelism ๊ฐ์ ๊ธฐ๋ณธ์ ์ธ ๋ณ๋ ฌํ ๊ธฐ๋ฒ๋ค์ด ์ด๋ฏธ ๋ฌธํ์ ์๊ฐ๋์ด ์๋ค.
- Gap: ๋ฐ์ท๋ ๋ณธ๋ฌธ์์๋ data parallelism๊ณผ ZeRO optimizer์ ๋ํ ์์ธํ ์คํ ๊ฒฐ๊ณผ๋ง ์ ์๋์ด ์์ผ๋ฉฐ, ๋ค๋ฅธ ๋ณ๋ ฌํ ๊ธฐ๋ฒ๋ค(sequence parallelism, context parallelism, pipeline parallelism, expert parallelism)์ ๋ํ ์คํ์ ํ๊ฐ์ ๋น๊ต ๋ถ์์ด ๋ถ์ฌํ ์ํ์ด๋ค.
- Why: ๊ณผํ ์์ฉ ๋ถ์ผ์์ LLM์ ํ์ฉ์ด ์ฆ๊ฐํ๊ณ ์๋ ์ํฉ์์, ์ค์ ํ๋ จ๊ณผ ๋ฐฐํฌ์ ํ์ํ ๋ณ๋ ฌํ ๊ธฐ๋ฒ๋ค์ ์ฑ๋ฅ ํน์ฑ๊ณผ ์ ํ ๊ธฐ์ค์ ์ ์ํจ์ผ๋ก์จ ์ค๋ฌด์ ๊ฐ์ด๋๋ฅผ ์ ๊ณตํ๋ ๊ฒ์ด ์ค์ํ๋ค.
- Approach: ๋
ผ๋ฌธ์ NVIDIA H100 GPU๋ฅผ ํ์ฉํ ์คํ์ ์ํํ์ฌ ์๋ก ๋ค๋ฅธ ๋ณ๋ ฌํ ๊ธฐ๋ฒ์ ์ฑ๋ฅ์ ๋น๊ตํ๊ณ , ๊ฐ ๊ธฐ๋ฒ์ ์ฅ๋จ์ ์ ์ ๋์ ์ผ๋ก ํ๊ฐํ๋ค. Data parallelism๊ณผ ZeRO optimizer์ ๊ฒฝ์ฐ epoch ์๊ฐ, scaling efficiency, ์๋ ด์ฑ, throughput ๋ฑ์ ์งํ๋ก ์ฑ๋ฅ์ ์ธก์ ํ๊ณ , ๊ฒฐ์ ํ๋ ์์ํฌ(decision framework)๋ฅผ ์ ์ํ๋ค.
Achievement
FIG. 3: Loss Convergence across different DP techniques.
Data Parallelism ๋ฒค์น๋งํน: DP Naive, DP Interleaved, PyTorch DDP ๊ตฌ์ฑ์ ๋ํ ์์ธํ ์ฑ๋ฅ ๋น๊ต๋ฅผ ํตํด ๊ณ์ฐ-ํต์ ์ค๋ฒ๋ฉ์ ํจ๊ณผ๋ฅผ ์ค์ฆ. ZeRO Optimizer ๋ถ์: ZeRO-1, ZeRO-2, ZeRO-3์ ๋ฉ๋ชจ๋ฆฌ-์ฒ๋ฆฌ๋ ํธ๋ ์ด๋์คํ๋ฅผ ์ ๋ํํ๊ณ , ZeRO-3์ด ๋ฉ๋ชจ๋ฆฌ ํจ์จ์ฑ์ ๊ฐ์ ํ๋ ๋ฐ๋ฉด ํต์ ์ค๋ฒํค๋ ์ฆ๊ฐ๋ฅผ ์ด๋ํจ์ ๋ณด์ฌ์ค. ์์ฌ๊ฒฐ์ ํ๋ ์์ํฌ: ๋ชจ๋ธ ํฌ๊ธฐ์ ๋ฉ๋ชจ๋ฆฌ ์ ์ฝ์ ๋ฐ๋ผ ์ ์ ํ ZeRO ์ ๋ต์ ์ ํํ๋ ์ค์ฉ์ ์ธ ๊ฐ์ด๋ ์ ์.
How
FIG. 5: DeepSpeed ZeRO-2 and ZeRO-3 Comparison.
์คํ ์ค๊ณ: Single GPU Baseline, DP Naive, DP Interleaved, PyTorch DDP ๊ตฌ์ฑ์ ๋์ผ ํ๊ฒฝ์์ ๋น๊ต ์คํ. ๋ฉํธ๋ฆญ ์ธก์ : ํ๊ท epoch ์๊ฐ, scaling efficiency (speedup), loss ์๋ ด ๊ณก์ , throughput์ ๊ฐ ๊ธฐ๋ฒ๋ณ๋ก ์ถ์ . ZeRO ๋ถ์: Pythia-6.9B ๋ชจ๋ธ๋ก 500 ํ๋ จ ๋จ๊ณ ๋์ ZeRO-2์ ZeRO-3์ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋๊ณผ throughput ๋น๊ต.
Originality
์กฐ์ฌ ๋์ ๊ธฐ๋ฒ๋ค์ ์ฒด๊ณ์ฑ: ์ฌ์ฏ ๊ฐ์ง ์ฃผ์ ๋ณ๋ ฌํ ๊ธฐ๋ฒ์ ๋จ์ผ ํ๋ ์์ํฌ ๋ด์์ ๋ค๋ฃจ๋ ์ . ๊ณผํ ์์ฉ ์ค์ฌ์ ๊ด์ : GPU ์์ง๋์ด๋ง๊ณผ ๊ณผํ์ ๋ฐ๊ฒฌ ๊ฐ์ ์ฐ๊ฒฐ์ ๋ช
์์ ์ผ๋ก ๊ฐ์กฐ. ์ค๋ฌด์ ์์ฌ๊ฒฐ์ ๊ฐ์ด๋: ๋จ์ํ ๊ธฐ์ ์ค๋ช
์ ๋์ด ๊ตฌ์ฒด์ ์ธ ์ ํ ๊ธฐ์ค์ ์ ์ํ๋ ค๋ ์๋.
Limitation & Further Study
๋ถ์์ ํ ์คํ ์ปค๋ฒ๋ฆฌ์ง: ๋ฐ์ท๋ ๋ถ๋ถ์์ sequence parallelism, context parallelism, pipeline parallelism, expert parallelism์ ๋ํ ์คํ ๊ฒฐ๊ณผ๊ฐ ์ ์๋์ง ์์ ๋
ผ๋ฌธ์ ํฌ๊ด์ฑ์ ํ๊ฐํ๊ธฐ ์ด๋ ค์. ์ ํ๋ ๋ชจ๋ธ ๋ฒ์: ์ฃผ๋ก Pythia-6.9B๋ก ์คํ์ด ์ ํ๋์ด ์์ผ๋ฉฐ, ๋ ํฐ ๊ท๋ชจ์ ๋ชจ๋ธ(์์ญ์ต~์กฐ ํ๋ผ๋ฏธํฐ)์ ๋ํ ๊ฒ์ฆ ๋ถ์ฌ. ์ค์ ๊ณผํ ์์ฉ ์ผ์ด์ค ๋ถ์ฌ: ์ด๋ก ์ ์ค๋ช
๊ณผ ๋ฒค์น๋งํน์ ์ ์๋์ง๋ง, ๊ตฌ์ฒด์ ์ธ ํํ, ์๋ฌผํ, ์ฌ๋ฃ๊ณผํ ์์ฉ์์์ ์ฑ๋ฅ ์ฌ๋ก ๋ถ์์ด ์์. GPU ํ๋์จ์ด ์ ์ฝ: NVIDIA H100๋ง ์ฌ์ฉํ์ฌ ๋ค๋ฅธ GPU ํ๋ซํผ์์์ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ์ด ๋ถ๋ช
ํํจ.
Evaluation
Novelty: 2/5 Technical Soundness: 3/5 Significance: 3/5 Clarity: 4/5 Overall: 3/5
์ดํ: ์ด ๋
ผ๋ฌธ์ LLM ๋ณ๋ ฌํ ๊ธฐ๋ฒ๋ค์ ์ฒด๊ณ์ ์ผ๋ก ์ ๋ฆฌํ ์ ์ฉํ ์ค๋ฌธ ๋
ผ๋ฌธ์ด์ง๋ง, ๋ฐ์ท๋ ๋ถ๋ถ์์๋ data parallelism๊ณผ ZeRO optimizer์๋ง ์์ธํ ์คํ์ด ์ ์๋์ด ์๊ณ , ๋๋จธ์ง ๊ธฐ๋ฒ๋ค์ ๋ํ ์ค์ฆ์ ํ๊ฐ๊ฐ ๋๋ฝ๋์ด ์๋ค. ๊ณผํ ์์ฉ์ด๋ผ๋ ์ฃผ์ ์์์ ๋ช
ํํ๋ ์ค์ ์ฌ๋ก ๋ถ์์ ๋ถ์กฑ๊ณผ ์ ํ๋ ์คํ ๋ฒ์๊ฐ ์ ์ฝ์์์ด๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
003์ AI ๊ธฐ๋ฐ ๊ณผํ ์ฐ๊ตฌ์์ ๊ต์ฐจ ๋๋ฉ์ธ ์ค์ผ์คํธ๋ ์ด์
์ ์ฑ
์๋ฆฝ ๋ฐ ์ ์ด ํ์ต ์ฌ๋ก๋ฅผ ์ข
ํฉ์ ์ผ๋ก ๊ฒํ ํด, 354์ ๋ณ๋ ฌ ์ฒ๋ฆฌ์ ์ ๋ชฉํด ์ฝ์ ๋งํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
005 ๋
ผ๋ฌธ์ ์ฅ๋ฌธ ๋งฅ๋ฝ ๋ชจ๋ธ๋ง ์๋ฒ ์ด๋ก, 354 ๋
ผ๋ฌธ์ด ๋ถ์ํ GPU ๋ณ๋ ฌํ ๋ฑ์ด ๋๊ท๋ชจ ์ฅ๋ฌธ ์ฒ๋ฆฌ๋ฅผ ์ํ ํต์ฌ ๊ธฐ์ ์์ ์ด๋ก ์ ์ผ๋ก ๋ท๋ฐ์นจํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๋ฅ๋ฌ๋ ํธ๋์คํฌ๋จธ ์ฌ์ ํ์ต ๊ธฐ๋ฒ(BERT)์ GPU ๋ณ๋ ฌํ ๋
ผ์ ๋ฐ LLM ํ๋ จ ํจ์จ ๋ถ์์ ๊ธฐ์ด๊ฐ ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
GPU, ๋ณ๋ ฌ ์ฒ๋ฆฌ ๋ฑ ๊ณ์ฐ ๋ฌผ๋ฆฌ/์์ ๋์ญํ ์๋ฎฌ๋ ์ด์
์์ AI ํ์ฉ์ ๊ธฐ์ ์ ํ ๋๊ฐ ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
695๋ ์์ฌ ๋ฐ๊ฒฌ์ ์ํ ๋๊ท๋ชจ ๋ฅ๋ฌ๋ ํ์ต ํ์ฅ ์ด์๋ฅผ ๋ค๋ฃจ๊ณ , 354๋ LLM์ ๋ณ๋ ฌ ๋ถ์ฐ ํ์ต/๋ฐฐํฌ์ ์ค์ฉ ๊ฐ์ด๋๋ฅผ ์ ๊ณตํด ์๋ก ํ์ฅ์ฑ์ ๋น๊ตํ ์ ์๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM ๊ธฐ๋ฐ ์งํ ์ต์ ํ์ GPU ๋ณ๋ ฌํ ๊ธฐ๋ฐ ๋๊ท๋ชจ LLM ํ๋ จ ๋ชจ๋ AI ์ฐ๊ตฌ ๊ฐ์ํ์ ๋ฐฉ๋ฒ๋ก ์ ๋์์ ์ ์ํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋จธํฐ๋ฆฌ์ผ์ค ๋์ค์ปค๋ฒ๋ฆฌ์์ ๋๊ท๋ชจ ๋ชจ๋ธ ํจ์จ์ ํ์ต์ ๋ค๋ฃจ๋ โFoundation models for materials discoveryโ ๋
ผ๋ฌธ๊ณผ GPU ๋ณ๋ ฌํ ๊ธฐ์ ์ ์ ์ฉ ๋ฐฉ๋ฒ์ ๋น๊ตํ ์ ์๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋ณธ ๋
ผ๋ฌธ์ฒ๋ผ LLM ๋ชจ๋ธ์ ๋๊ท๋ชจ ํ์ต ํจ์จํ๋ฅผ ๋ค๋ฃจ์ง๋ง, single-cell ๋ถ์์ด๋ผ๋ ์ค์ ๊ณผํ ๋ฌธ์ ์์ ์์ฉ ์ฌ๋ก๋ฅผ ์ ์ํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
346 ๋
ผ๋ฌธ์ ํ์ด๋ฐ์ด์
๋ชจ๋ธ์ ํ์ฉํ ๋ฐ์ดํฐ ํจ์จ์ ์กํฐ๋ธ ๋ฌ๋์ ๋ค๋ฃจ๊ณ ์์ด, 354๊ฐ ์ ์ํ ๋๊ท๋ชจ LLM ํ๋ จ ๋ณ๋ ฌํ์ ๋ค๋ฅธ ์ ๊ทผ๋ฒ์ ์ ์ํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
Gemini 1.5์ ์ฅ๋ ํ ํฐ ์๋์ฐ ๋ฐ ๋ฉํฐ๋ชจ๋ฌ ์ดํด ๋ฅ๋ ฅ์ ๋๊ท๋ชจ LLM์ ํจ์จ์ ํ์ตยท์ถ๋ก ์์ฉ ์ฌ๋ก๋ก ์ง์ ์ด์ด์ง๋๋ค.
ํ์ ์ฐ๊ตฌ
๋๊ท๋ชจ ๋ฌผ๋ฆฌํ ํนํ AI ๋ชจ๋ธ ํ๋ จ ๋ฐ ํ์
๊ตฌ์กฐ์์ GPU ๊ธฐ๋ฐ ๋ณ๋ ฌํ ์ต์ ํ ์ ๋ต์ ์ค์ ์ ์์ฉ ์ฌ๋ก๋ฅผ ์ ๊ณตํฉ๋๋ค.
์์ฉ ์ฌ๋ก
Galactica ๋
ผ๋ฌธ์ ๋ณ๋ ฌํ ๊ธฐ๋ฒ๊ณผ ์ต์ ํ ๊ธฐ๋ฒ์ด ์ค์ ๊ณผํ LLM์ ์ด๋ป๊ฒ ์ ์ฉ๋๋์ง ๋ณด์ฌ์ค๋ค.
์์ฉ ์ฌ๋ก
PDE ๊ณ์ด ์๋ฎฌ๋ ์ด์
์๋ํ์์ ๋ณ๋ ฌํ์ LLM ํตํฉ ์ ์ฉ ์ฌ๋ก๋ก ๋ณ๋ ฌํ ์ด๋ก ์ด ์ค์ ์ฐ๊ตฌ ์๋ํ ํ์ดํ๋ผ์ธ์ผ๋ก ์ด์ด์ง๋๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์