From GPU Engineering to Scientific Discovery: Parallelism Techniques for Large Language Models

์ €์ž: Emmanuel A Olanrewaju | ๋‚ ์งœ: 2026.03 | DOI: 10.26434/chemrxiv.15001091/v1 📄 PDF


Essence

Figure 3

FIG. 3: Loss Convergence across different DP techniques.

์ด ๋…ผ๋ฌธ์€ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ์˜ ํšจ์œจ์ ์ธ ํ›ˆ๋ จ๊ณผ ๋ฐฐํฌ๋ฅผ ์œ„ํ•œ ๋ณ‘๋ ฌํ™” ๊ธฐ๋ฒ•๋“ค์„ ์ข…ํ•ฉ์ ์œผ๋กœ ์กฐ์‚ฌํ•œ ์„ค๋ฌธ ๋…ผ๋ฌธ์ด๋‹ค. Data parallelism, tensor parallelism, sequence parallelism, context parallelism, pipeline parallelism, expert parallelism ๋“ฑ ์—ฌ์„ฏ ๊ฐ€์ง€ ์ฃผ์š” ๋ณ‘๋ ฌํ™” ์ „๋žต์„ ์ฒด๊ณ„์ ์œผ๋กœ ๊ฒ€ํ† ํ•˜๋ฉฐ, GPU ์—”์ง€๋‹ˆ์–ด๋ง๊ณผ ๊ณผํ•™์  ๋ฐœ๊ฒฌ ๊ฐ„์˜ ์—ฐ๊ฒฐ์„ฑ์„ ๊ฐ•์กฐํ•œ๋‹ค.

Motivation

Achievement

Figure 3

FIG. 3: Loss Convergence across different DP techniques.

Data Parallelism ๋ฒค์น˜๋งˆํ‚น: DP Naive, DP Interleaved, PyTorch DDP ๊ตฌ์„ฑ์— ๋Œ€ํ•œ ์ƒ์„ธํ•œ ์„ฑ๋Šฅ ๋น„๊ต๋ฅผ ํ†ตํ•ด ๊ณ„์‚ฐ-ํ†ต์‹  ์˜ค๋ฒ„๋žฉ์˜ ํšจ๊ณผ๋ฅผ ์‹ค์ฆ. ZeRO Optimizer ๋ถ„์„: ZeRO-1, ZeRO-2, ZeRO-3์˜ ๋ฉ”๋ชจ๋ฆฌ-์ฒ˜๋ฆฌ๋Ÿ‰ ํŠธ๋ ˆ์ด๋“œ์˜คํ”„๋ฅผ ์ •๋Ÿ‰ํ™”ํ•˜๊ณ , ZeRO-3์ด ๋ฉ”๋ชจ๋ฆฌ ํšจ์œจ์„ฑ์„ ๊ฐœ์„ ํ•˜๋Š” ๋ฐ˜๋ฉด ํ†ต์‹  ์˜ค๋ฒ„ํ—ค๋“œ ์ฆ๊ฐ€๋ฅผ ์ดˆ๋ž˜ํ•จ์„ ๋ณด์—ฌ์คŒ. ์˜์‚ฌ๊ฒฐ์ • ํ”„๋ ˆ์ž„์›Œํฌ: ๋ชจ๋ธ ํฌ๊ธฐ์™€ ๋ฉ”๋ชจ๋ฆฌ ์ œ์•ฝ์— ๋”ฐ๋ผ ์ ์ ˆํ•œ ZeRO ์ „๋žต์„ ์„ ํƒํ•˜๋Š” ์‹ค์šฉ์ ์ธ ๊ฐ€์ด๋“œ ์ œ์‹œ.

How

Figure 5

FIG. 5: DeepSpeed ZeRO-2 and ZeRO-3 Comparison.

์‹คํ—˜ ์„ค๊ณ„: Single GPU Baseline, DP Naive, DP Interleaved, PyTorch DDP ๊ตฌ์„ฑ์„ ๋™์ผ ํ™˜๊ฒฝ์—์„œ ๋น„๊ต ์‹คํ–‰. ๋ฉ”ํŠธ๋ฆญ ์ธก์ •: ํ‰๊ท  epoch ์‹œ๊ฐ„, scaling efficiency (speedup), loss ์ˆ˜๋ ด ๊ณก์„ , throughput์„ ๊ฐ ๊ธฐ๋ฒ•๋ณ„๋กœ ์ถ”์ . ZeRO ๋ถ„์„: Pythia-6.9B ๋ชจ๋ธ๋กœ 500 ํ›ˆ๋ จ ๋‹จ๊ณ„ ๋™์•ˆ ZeRO-2์™€ ZeRO-3์˜ ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰๊ณผ throughput ๋น„๊ต.

Originality

์กฐ์‚ฌ ๋Œ€์ƒ ๊ธฐ๋ฒ•๋“ค์˜ ์ฒด๊ณ„์„ฑ: ์—ฌ์„ฏ ๊ฐ€์ง€ ์ฃผ์š” ๋ณ‘๋ ฌํ™” ๊ธฐ๋ฒ•์„ ๋‹จ์ผ ํ”„๋ ˆ์ž„์›Œํฌ ๋‚ด์—์„œ ๋‹ค๋ฃจ๋Š” ์ . ๊ณผํ•™ ์‘์šฉ ์ค‘์‹ฌ์˜ ๊ด€์ : GPU ์—”์ง€๋‹ˆ์–ด๋ง๊ณผ ๊ณผํ•™์  ๋ฐœ๊ฒฌ ๊ฐ„์˜ ์—ฐ๊ฒฐ์„ ๋ช…์‹œ์ ์œผ๋กœ ๊ฐ•์กฐ. ์‹ค๋ฌด์  ์˜์‚ฌ๊ฒฐ์ • ๊ฐ€์ด๋“œ: ๋‹จ์ˆœํ•œ ๊ธฐ์ˆ  ์„ค๋ช…์„ ๋„˜์–ด ๊ตฌ์ฒด์ ์ธ ์„ ํƒ ๊ธฐ์ค€์„ ์ œ์‹œํ•˜๋ ค๋Š” ์‹œ๋„.

Limitation & Further Study

๋ถˆ์™„์ „ํ•œ ์‹คํ—˜ ์ปค๋ฒ„๋ฆฌ์ง€: ๋ฐœ์ทŒ๋œ ๋ถ€๋ถ„์—์„œ sequence parallelism, context parallelism, pipeline parallelism, expert parallelism์— ๋Œ€ํ•œ ์‹คํ—˜ ๊ฒฐ๊ณผ๊ฐ€ ์ œ์‹œ๋˜์ง€ ์•Š์•„ ๋…ผ๋ฌธ์˜ ํฌ๊ด„์„ฑ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์–ด๋ ค์›€. ์ œํ•œ๋œ ๋ชจ๋ธ ๋ฒ”์œ„: ์ฃผ๋กœ Pythia-6.9B๋กœ ์‹คํ—˜์ด ์ œํ•œ๋˜์–ด ์žˆ์œผ๋ฉฐ, ๋” ํฐ ๊ทœ๋ชจ์˜ ๋ชจ๋ธ(์ˆ˜์‹ญ์–ต~์กฐ ํŒŒ๋ผ๋ฏธํ„ฐ)์— ๋Œ€ํ•œ ๊ฒ€์ฆ ๋ถ€์žฌ. ์‹ค์ œ ๊ณผํ•™ ์‘์šฉ ์ผ€์ด์Šค ๋ถ€์žฌ: ์ด๋ก ์  ์„ค๋ช…๊ณผ ๋ฒค์น˜๋งˆํ‚น์€ ์ œ์‹œ๋˜์ง€๋งŒ, ๊ตฌ์ฒด์ ์ธ ํ™”ํ•™, ์ƒ๋ฌผํ•™, ์žฌ๋ฃŒ๊ณผํ•™ ์‘์šฉ์—์„œ์˜ ์„ฑ๋Šฅ ์‚ฌ๋ก€ ๋ถ„์„์ด ์—†์Œ. GPU ํ•˜๋“œ์›จ์–ด ์ œ์•ฝ: NVIDIA H100๋งŒ ์‚ฌ์šฉํ•˜์—ฌ ๋‹ค๋ฅธ GPU ํ”Œ๋žซํผ์—์„œ์˜ ์ผ๋ฐ˜ํ™” ๊ฐ€๋Šฅ์„ฑ์ด ๋ถˆ๋ช…ํ™•ํ•จ.

Evaluation

Novelty: 2/5 Technical Soundness: 3/5 Significance: 3/5 Clarity: 4/5 Overall: 3/5

์ดํ‰: ์ด ๋…ผ๋ฌธ์€ LLM ๋ณ‘๋ ฌํ™” ๊ธฐ๋ฒ•๋“ค์„ ์ฒด๊ณ„์ ์œผ๋กœ ์ •๋ฆฌํ•œ ์œ ์šฉํ•œ ์„ค๋ฌธ ๋…ผ๋ฌธ์ด์ง€๋งŒ, ๋ฐœ์ทŒ๋œ ๋ถ€๋ถ„์—์„œ๋Š” data parallelism๊ณผ ZeRO optimizer์—๋งŒ ์ƒ์„ธํ•œ ์‹คํ—˜์ด ์ œ์‹œ๋˜์–ด ์žˆ๊ณ , ๋‚˜๋จธ์ง€ ๊ธฐ๋ฒ•๋“ค์— ๋Œ€ํ•œ ์‹ค์ฆ์  ํ‰๊ฐ€๊ฐ€ ๋ˆ„๋ฝ๋˜์–ด ์žˆ๋‹ค. ๊ณผํ•™ ์‘์šฉ์ด๋ผ๋Š” ์ฃผ์ œ์˜์‹์€ ๋ช…ํ™•ํ•˜๋‚˜ ์‹ค์ œ ์‚ฌ๋ก€ ๋ถ„์„์˜ ๋ถ€์กฑ๊ณผ ์ œํ•œ๋œ ์‹คํ—˜ ๋ฒ”์œ„๊ฐ€ ์ œ์•ฝ์š”์†Œ์ด๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
003์€ AI ๊ธฐ๋ฐ˜ ๊ณผํ•™ ์—ฐ๊ตฌ์—์„œ ๊ต์ฐจ ๋„๋ฉ”์ธ ์˜ค์ผ€์ŠคํŠธ๋ ˆ์ด์…˜ ์ •์ฑ… ์ˆ˜๋ฆฝ ๋ฐ ์ „์ด ํ•™์Šต ์‚ฌ๋ก€๋ฅผ ์ข…ํ•ฉ์ ์œผ๋กœ ๊ฒ€ํ† ํ•ด, 354์˜ ๋ณ‘๋ ฌ ์ฒ˜๋ฆฌ์™€ ์ ‘๋ชฉํ•ด ์ฝ์„ ๋งŒํ•˜๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
005 ๋…ผ๋ฌธ์€ ์žฅ๋ฌธ ๋งฅ๋ฝ ๋ชจ๋ธ๋ง ์„œ๋ฒ ์ด๋กœ, 354 ๋…ผ๋ฌธ์ด ๋ถ„์„ํ•œ GPU ๋ณ‘๋ ฌํ™” ๋“ฑ์ด ๋Œ€๊ทœ๋ชจ ์žฅ๋ฌธ ์ฒ˜๋ฆฌ๋ฅผ ์œ„ํ•œ ํ•ต์‹ฌ ๊ธฐ์ˆ ์ž„์„ ์ด๋ก ์ ์œผ๋กœ ๋’ท๋ฐ›์นจํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๋”ฅ๋Ÿฌ๋‹ ํŠธ๋žœ์Šคํฌ๋จธ ์‚ฌ์ „ ํ•™์Šต ๊ธฐ๋ฒ•(BERT)์€ GPU ๋ณ‘๋ ฌํ™” ๋…ผ์˜ ๋ฐ LLM ํ›ˆ๋ จ ํšจ์œจ ๋ถ„์„์˜ ๊ธฐ์ดˆ๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
GPU, ๋ณ‘๋ ฌ ์ฒ˜๋ฆฌ ๋“ฑ ๊ณ„์‚ฐ ๋ฌผ๋ฆฌ/์–‘์ž ๋™์—ญํ•™ ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ AI ํ™œ์šฉ์˜ ๊ธฐ์ˆ ์  ํ† ๋Œ€๊ฐ€ ๋œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
695๋Š” ์†Œ์žฌ ๋ฐœ๊ฒฌ์„ ์œ„ํ•œ ๋Œ€๊ทœ๋ชจ ๋”ฅ๋Ÿฌ๋‹ ํ•™์Šต ํ™•์žฅ ์ด์Šˆ๋ฅผ ๋‹ค๋ฃจ๊ณ , 354๋Š” LLM์˜ ๋ณ‘๋ ฌ ๋ถ„์‚ฐ ํ•™์Šต/๋ฐฐํฌ์˜ ์‹ค์šฉ ๊ฐ€์ด๋“œ๋ฅผ ์ œ๊ณตํ•ด ์„œ๋กœ ํ™•์žฅ์„ฑ์„ ๋น„๊ตํ•  ์ˆ˜ ์žˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM ๊ธฐ๋ฐ˜ ์ง„ํ™” ์ตœ์ ํ™”์™€ GPU ๋ณ‘๋ ฌํ™” ๊ธฐ๋ฐ˜ ๋Œ€๊ทœ๋ชจ LLM ํ›ˆ๋ จ ๋ชจ๋‘ AI ์—ฐ๊ตฌ ๊ฐ€์†ํ™”์˜ ๋ฐฉ๋ฒ•๋ก ์  ๋Œ€์•ˆ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋จธํ‹ฐ๋ฆฌ์–ผ์Šค ๋””์Šค์ปค๋ฒ„๋ฆฌ์—์„œ ๋Œ€๊ทœ๋ชจ ๋ชจ๋ธ ํšจ์œจ์  ํ•™์Šต์„ ๋‹ค๋ฃจ๋Š” โ€˜Foundation models for materials discoveryโ€™ ๋…ผ๋ฌธ๊ณผ GPU ๋ณ‘๋ ฌํ™” ๊ธฐ์ˆ ์˜ ์ ์šฉ ๋ฐฉ๋ฒ•์„ ๋น„๊ตํ•  ์ˆ˜ ์žˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋ณธ ๋…ผ๋ฌธ์ฒ˜๋Ÿผ LLM ๋ชจ๋ธ์˜ ๋Œ€๊ทœ๋ชจ ํ•™์Šต ํšจ์œจํ™”๋ฅผ ๋‹ค๋ฃจ์ง€๋งŒ, single-cell ๋ถ„์„์ด๋ผ๋Š” ์‹ค์ œ ๊ณผํ•™ ๋ฌธ์ œ์—์˜ ์‘์šฉ ์‚ฌ๋ก€๋ฅผ ์ œ์‹œํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
346 ๋…ผ๋ฌธ์€ ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ์„ ํ™œ์šฉํ•œ ๋ฐ์ดํ„ฐ ํšจ์œจ์  ์•กํ‹ฐ๋ธŒ ๋Ÿฌ๋‹์„ ๋‹ค๋ฃจ๊ณ  ์žˆ์–ด, 354๊ฐ€ ์ œ์‹œํ•œ ๋Œ€๊ทœ๋ชจ LLM ํ›ˆ๋ จ ๋ณ‘๋ ฌํ™”์™€ ๋‹ค๋ฅธ ์ ‘๊ทผ๋ฒ•์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Gemini 1.5์˜ ์žฅ๋Œ€ ํ† ํฐ ์œˆ๋„์šฐ ๋ฐ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ดํ•ด ๋Šฅ๋ ฅ์€ ๋Œ€๊ทœ๋ชจ LLM์˜ ํšจ์œจ์  ํ•™์Šตยท์ถ”๋ก  ์‘์šฉ ์‚ฌ๋ก€๋กœ ์ง์ ‘ ์ด์–ด์ง‘๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
๋Œ€๊ทœ๋ชจ ๋ฌผ๋ฆฌํ•™ ํŠนํ™” AI ๋ชจ๋ธ ํ›ˆ๋ จ ๋ฐ ํ˜‘์—… ๊ตฌ์กฐ์—์„œ GPU ๊ธฐ๋ฐ˜ ๋ณ‘๋ ฌํ™” ์ตœ์ ํ™” ์ „๋žต์˜ ์‹ค์ œ์  ์‘์šฉ ์‚ฌ๋ก€๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
Galactica ๋…ผ๋ฌธ์€ ๋ณ‘๋ ฌํ™” ๊ธฐ๋ฒ•๊ณผ ์ตœ์ ํ™” ๊ธฐ๋ฒ•์ด ์‹ค์ œ ๊ณผํ•™ LLM์— ์–ด๋–ป๊ฒŒ ์ ์šฉ๋˜๋Š”์ง€ ๋ณด์—ฌ์ค€๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
PDE ๊ณ„์—ด ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ์ž๋™ํ™”์—์„œ ๋ณ‘๋ ฌํ™”์™€ LLM ํ†ตํ•ฉ ์ ์šฉ ์‚ฌ๋ก€๋กœ ๋ณ‘๋ ฌํ™” ์ด๋ก ์ด ์‹ค์ œ ์—ฐ๊ตฌ ์ž๋™ํ™” ํŒŒ์ดํ”„๋ผ์ธ์œผ๋กœ ์ด์–ด์ง‘๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •