Scalable Cross-Facility Federated Learning for Scientific Foundation Models on Multiple Supercomputers

์ €์ž: Yijiang Li, Zilinghan Li, Kyle Chard, Ian Foster, Todd Munson, Ravi Madduri, Kibaek Kim | ๋‚ ์งœ: 2026-03-20 | DOI: ๋ฏธ์ œ๊ณต 📄 PDF


Essence

๋ณธ ๋…ผ๋ฌธ์€ ํ”„๋ผ์ด๋ฒ„์‹œ ์ œ์•ฝ, ๋ฐ์ดํ„ฐ ์ฃผ๊ถŒ, ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ์œผ๋กœ ์ธํ•ด ์ค‘์•™ํ™”ํ•  ์ˆ˜ ์—†๋Š” ๊ณผํ•™ ๋ฐ์ดํ„ฐ๋ฅผ ๋‹ค์ค‘ ์Šˆํผ์ปดํ“จํ„ฐ ํ™˜๊ฒฝ์—์„œ ์—ฐํ•ฉํ•™์Šต(Federated Learning, FL)์œผ๋กœ ํ›ˆ๋ จํ•˜๋Š” ํ™•์žฅ ๊ฐ€๋Šฅํ•œ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์‹œํ•˜๋ฉฐ, DOE ๋ฆฌ๋”์‹ญ๊ธ‰ ์Šˆํผ์ปดํ“จํ„ฐ 4๋Œ€์—์„œ์˜ ์‹ค์ฆ์„ ํ†ตํ•ด ํฌ๋กœ์Šค-์‹œ์„ค FL์˜ ์‹ค์šฉ์„ฑ์„ ์ž…์ฆํ•œ๋‹ค.

Motivation

Achievement

Figure 1

Figure 1: ๊ณ ์ • ๋งˆ์ดํฌ๋กœ๋ฐฐ์น˜ ํฌ๊ธฐ๋‹น ์ฒ˜๋ฆฌ๋Ÿ‰ ์Šค์ผ€์ผ๋ง. ์™ผ์ชฝ ํŒจ๋„์€ ์ฒ˜๋ฆฌ๋Ÿ‰(์ดˆ๋‹น ์ƒ˜ํ”Œ)์„ ๋ณด์—ฌ์ฃผ๋ฉฐ, Aurora๋Š” 64๊ฐœ ๋…ธ๋“œ์—์„œ 2,100 ์ƒ˜ํ”Œ/์ดˆ์„, Perlmutter 80GB์™€ Frontier๋Š” ๊ฐ๊ฐ 1,200๊ณผ 1,000 ์ƒ˜ํ”Œ/์ดˆ์„ ๋‹ฌ์„ฑํ•œ๋‹ค.

  1. ํฌ๋กœ์Šค-HPC ์‹œ์„ค FL ํ”„๋ ˆ์ž„์›Œํฌ ์„ค๊ณ„ ๋ฐ ๊ตฌํ˜„: ์ด์งˆ์  HPC ์‹œ์„ค ๊ฐ„ ํ›ˆ๋ จ์„ ์กฐ์œจํ•˜๊ณ , ๋‹ค์–‘ํ•œ ๋ชจ๋ธ, ๋ฐ์ดํ„ฐ์…‹, ๊ณผํ•™ ์ž‘์—…์„ ์ง€์›ํ•˜๋ฉฐ, ํ†ต์‹ , ์Šค์ผ€์ค„๋ง, ๊ณ„์‚ฐ ์ธก๋ฉด์˜ HPC ํŠน์œ  ๋„์ „์„ ํ•ด๊ฒฐํ•˜๋Š” ์ผ๋ฐ˜ํ™” ๊ฐ€๋Šฅํ•œ ํ”„๋ ˆ์ž„์›Œํฌ ์ œ์‹œ.
  2. ์„ฑ๋Šฅ ํŠน์„ฑํ™”: GPU ๋ฉ”๋ชจ๋ฆฌ ์šฉ๋Ÿ‰์— ์˜ํ•ด ์ฃผ๋„๋˜๋Š” ๊ทน๋‹จ์  ์ฒ˜๋ฆฌ๋Ÿ‰ ์ด์งˆ์„ฑ์„ ๋ฐœ๊ฒฌโ€”Perlmutter 40GB๋Š” ZeRO-3์„ ์‚ฌ์šฉํ•˜์—ฌ 250 ์ƒ˜ํ”Œ/์ดˆ์ด์ง€๋งŒ, Perlmutter 80GB๋Š” ZeRO-1์„ ์‚ฌ์šฉํ•˜์—ฌ 1,200 ์ƒ˜ํ”Œ/์ดˆ๋ฅผ ๋‹ฌ์„ฑ(4๋ฐฐ ์ฐจ์ด). ํ†ต์‹  ๋น„์šฉ๊ณผ ํ์ž‰ ์—ญํ•™ ํŠน์„ฑํ™”๋ฅผ ํ†ตํ•ด ๊ธฐ์กด FL ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ๋ถ€์ ์ ˆํ•จ์„ ๋“œ๋Ÿฌ๋ƒ„.
  3. ์•Œ๊ณ ๋ฆฌ์ฆ˜ ํ‰๊ฐ€: ์˜ˆ์•ฝ(co-scheduled) ํ™˜๊ฒฝ์—์„œ๋Š” FedAvg, ํ˜„์‹ค์  ํ์ž‰ ์กฐ๊ฑด์—์„œ๋Š” FedAvg, FedAsync, FedBuff, FedCompass๋ฅผ ํ‰๊ฐ€ํ•˜์—ฌ, ์ด์งˆ์  ์Šค์ผ€์ค„๋Ÿฌ์™€ ๋ฉ”๋ชจ๋ฆฌ ์ œ์•ฝ์ด ์•Œ๊ณ ๋ฆฌ์ฆ˜ ์„ฑ๋Šฅ์— ๋ฏธ์น˜๋Š” ์˜ํ–ฅ ๋ถ„์„.
  4. ๊ณผํ•™์  ๊ฒ€์ฆ: SMolInstruct ํ™”ํ•™ ๋ช…๋ น ํŠœ๋‹ ๋ฐ์ดํ„ฐ์…‹(3.3M ์ƒ˜ํ”Œ)์—์„œ Llama2-7B๋ฅผ ์—ฐํ•ฉ ๋ฏธ์„ธ์กฐ์ •ํ•˜์—ฌ ํฌ๋กœ์Šค-HPC ์‹œ์„ค FL์ด ๋Œ€๊ทœ๋ชจ ๊ณผํ•™ ๋ชจ๋ธ ๊ฐœ๋ฐœ์„ ์ง€์›ํ•จ์„ ์ž…์ฆ.

How

Figure 2

Figure 2: ์˜ˆ์•ฝ๋œ ํ™˜๊ฒฝ์—์„œ ๋ชจ๋“  4๊ฐœ ์Šˆํผ์ปดํ“จํ„ฐ์— ๊ฑธ์นœ FedAvg์˜ ํ›ˆ๋ จ ์—ญํ•™

Figure 3

Figure 3: 2๊ฐœ ๋…ธ๋“œ๋ฅผ ์‚ฌ์šฉํ•œ ํ˜„์‹ค์  ํ์ž‰ ์กฐ๊ฑด ํ•˜์—์„œ 4๊ฐ€์ง€ FL ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ํ…Œ์ŠคํŠธ ์†์‹ค ์ง„ํ–‰

Originality

Limitation & Further Study

Evaluation

Novelty: 4/5 Technical Soundness: 4.5/5 Significance: 4/5 Clarity: 4.5/5 Overall: 4.5/5

์ดํ‰: ๋ณธ ๋…ผ๋ฌธ์€ ๊ณผํ•™ ์‘์šฉ์„ ์œ„ํ•œ ํฌ๋กœ์Šค-์‹œ์„ค ์—ฐํ•ฉํ•™์Šต์˜ ์‹ค์šฉ์„ฑ์„ ๋ฆฌ๋”์‹ญ๊ธ‰ HPC ํ™˜๊ฒฝ์—์„œ ์ฒ˜์Œ์œผ๋กœ ํฌ๊ด„์ ์œผ๋กœ ์ž…์ฆํ•˜์˜€์œผ๋ฉฐ, GPU ๋ฉ”๋ชจ๋ฆฌ-ํ†ต์‹  ํŠธ๋ ˆ์ด๋“œ์˜คํ”„์™€ ์Šค์ผ€์ค„๋Ÿฌ ์ด์งˆ์„ฑ์ด๋ผ๋Š” ๊ตฌ์ฒด์  ๋ณ‘๋ชฉ์„ ๋“œ๋Ÿฌ๋‚ด์–ด ํ–ฅํ›„ HPC-aware FL ์•Œ๊ณ ๋ฆฌ์ฆ˜ ์„ค๊ณ„์— ์ค‘์š”ํ•œ ๊ธฐ์ดˆ๋ฅผ ์ œ๊ณตํ•œ๋‹ค. ๋‹ค๋งŒ ๋Œ€๊ทœ๋ชจ ํ˜„์‹ค์  ์กฐ๊ฑด ํ‰๊ฐ€์™€ ํ”„๋ผ์ด๋ฒ„์‹œ ๋ณด์žฅ ๊ฒ€์ฆ ๊ฐ•ํ™”๊ฐ€ ํ•„์š”ํ•˜๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
694์˜ ๋Œ€๊ทœ๋ชจ ๊ณผํ•™ ๋ฐ์ดํ„ฐ ์—ฐํ•ฉํ•™์Šต ์ „๋žต์€ 105์—์„œ ์ œ์‹œํ•˜๋Š” AI for Science ๊ฐœ๋…์˜ ์‹ค์ œ ๊ตฌํ˜„ ์˜ˆ์‹œ์ด๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
์—ฐ๊ตฌ ์•„์ด๋””์–ด์˜ ์ž๋™ ์ƒ์„ฑ ๋ฐ ๊ฒ€์ฆ ๊ฒฐํ•จ์— ๋Œ€ํ•ด ํ‰๊ฐ€ํ•˜๋Š” 031 ๋…ผ๋ฌธ์ด 694์˜ ๊ณผํ•™์  ์ž๋™ํ™” ์‹œ์Šคํ…œ ํ•œ๊ณ„๋ฅผ ์ง€์ ํ•˜๋Š” ์ด๋ก ์  ๊ทผ๊ฑฐ๋ฅผ ์ œ๊ณตํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๊ณผํ•™ ์—ฐ๊ตฌ ๋ฐ์ดํ„ฐ์˜ ๊ฒฌ๊ณ ํ•œ ์—ฐํ•ฉํ•™์Šต์— ์ง‘์ค‘ํ•œ ๋ฐฉ๋ฒ•์œผ๋กœ, ์ œํ•œ๋œ ๋ฐ์ดํ„ฐ ํ™˜๊ฒฝ์—์„œ์˜ ๋ชจ๋ธ๋ง ๋Œ€์•ˆ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
321 ๋…ผ๋ฌธ์€ ๋‹ค์–‘ํ•œ ๊ณผํ•™ ๋„๋ฉ”์ธ์—์„œ AI Scientist์˜ ์‹ค์ œ ์—ฐ๊ตฌ ๊ตฌํ˜„ ์„ฑ๋Šฅ์˜ ํ•œ๊ณ„๋ฅผ ๋‹ค๋ฃจ๊ธฐ์—, 694์˜ ์ˆ˜ํผ์ปด ํ™˜๊ฒฝ ๊ฒ€์ฆ ๋งฅ๋ฝ์—์„œ ์œ ์˜๋ฏธํ•œ ๋น„๊ต๊ฐ€ ๊ฐ€๋Šฅํ•˜๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋‹ค๋ฅธ ํ™•์žฅ ๊ฐ€๋Šฅํ•œ ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ ๊ธฐ๋ฐ˜ ๋ถ„์ž ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ์ ‘๊ทผ๋ฒ•์„ ์ œ์•ˆํ•˜์—ฌ, ๋‹ค์‹œ์„ค ์‹คํ—˜ ํ™˜๊ฒฝ์—์„œ์˜ ์—ฐํ•ฉํ•™์Šต ์ ์šฉ๊ณผ ๋น„๊ตํ•  ๊ฐ€์น˜๋ฅผ ๊ฐ€์ง‘๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
AI์™€ ์ธ๊ฐ„ ํ˜‘๋™ ๊ธฐ๋ฐ˜ ์‹ ์•ฝ/๊ณผํ•™ ๋ฐœ๊ฒฌ ํ”Œ๋žซํผ์—์„œ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ ๋ถ„์‚ฐ ๋ฐ ํ”„๋ผ์ด๋ฒ„์‹œ ๋ฌธ์ œ๋ฅผ ๋‹ค๋ฃจ์–ด ์—ฐํ•ฉํ•™์Šต๊ณผ ๋น„๊ตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
694๋Š” ๋ถ„์ž๋™์—ญํ•™ ์‹œ๋ฎฌ๋ ˆ์ด์…˜์˜ ๋ถ„์‚ฐ ๋ฐ ์—ฐํ•ฉํ•™์Šต ๋ฐฉ๋ฒ•์„ ์‹ค์šฉ์ ์œผ๋กœ ๋‹ค๋ฃจ์–ด, 3268์˜ ์ „์ดํ•™์Šต ๊ธฐ๋ฐ˜ ์–‘์žํ™”ํ•™ ์‹œ๋ฎฌ๋ ˆ์ด์…˜๊ณผ ๋น„๊ต์— ์ ํ•ฉํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
694๋ฒˆ ๋…ผ๋ฌธ์€ ์—ฐํ•ฉํ•™์Šต ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ํ™œ์šฉํ•œ ๋ถ„์ž ํŠน์„ฑ ์˜ˆ์ธก์„ ๋‹ค๋ค„, ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ ๊ตฌ์ถ• ๋ฐ ๊ณ ํšจ์œจ ํŠน์„ฑ ์˜ˆ์ธก์ด๋ผ๋Š” ์œ ์‚ฌ ๋ชฉํ‘œ๋ฅผ ๋‹ค๋ฅธ ๋ฐฉ์‹์œผ๋กœ ์ ‘๊ทผํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋ถ„์ž๋™์—ญํ•™ ๋ฐ ์—ฐํ•ฉํ•™์Šต์„ ํ†ตํ•œ ํ™•์žฅ์„ฑ ์žˆ๋Š” ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ์ ‘๊ทผ๋ฒ•์œผ๋กœ, ๋Œ€๊ทœ๋ชจ ์ž์›์—์„œ์˜ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ์ตœ์ ํ™” ์‚ฌ๋ก€๋ฅผ ์ œ๊ณตํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
694๋Š” ๋Œ€๊ทœ๋ชจ ๋ถ„์ž๋™์—ญํ•™ ์‹œ๋ฎฌ๋ ˆ์ด์…˜์˜ ๋ถ„์‚ฐ์ฒ˜๋ฆฌ ๋ฐ federated learning ์ ์šฉ์„ ์ œ์•ˆํ•˜์—ฌ, 095์˜ ๋ถ„์„ ํŒŒ์ดํ”„๋ผ์ธ์„ ๋Œ€๊ทœ๋ชจ ํ™˜๊ฒฝ์œผ๋กœ ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
694 ๋…ผ๋ฌธ์€ ๊ณผํ•™์šฉ ํฌ์Šคํ•„๋“œ ์—ฐํ•ฉํ•™์Šต์— ์ดˆ์ ์„ ๋งž์ถ”์–ด, 3038์˜ ๋ฒ”์šฉ ํฌํ…์…œ ๋ฒค์น˜๋งˆํฌ๋ฅผ ์‹ค์ œ ํ˜‘์—… ํ™˜๊ฒฝ์—์„œ ํ™•์žฅ ์ ์šฉํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ๋ณด์—ฌ์ค€๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
ํ•™์Šต ๋ฐ์ดํ„ฐ๊ฐ€ ๋ถ€์กฑํ•œ ์ƒํ™ฉ์—์„œ ์—ฐํ•ฉํ•™์Šต ๋“ฑ ๋‹ค์–‘ํ•œ ๋ฐฉ์‹์œผ๋กœ ์„ธํฌ ๋ฐ์ดํ„ฐ ๋ถ„์„์„ ํšจ์œจํ™”ํ•˜๋Š” ์—ฐ๊ตฌ๋กœ, 3238์˜ ๋ฐ์ดํ„ฐ ํšจ์œจ์  ์„ธํฌ ์ฃผ๊ธฐ ๋ถ„๋ฅ˜ ๋ฐฉ๋ฒ•๋ก ์„ ํ™•์žฅํ•œ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
DataJoint 2.0์€ ๊ณผํ•™ ์›Œํฌํ”Œ๋กœ์šฐ ๋ฐ์ดํ„ฐ์˜ provenance์™€ ์ถ”์  ๊ด€๋ฆฌ์— ์ดˆ์ ์„ ๋‘ฌ, ํฌ๋กœ์Šค-์‹œ์„ค FL์—์„œ ๋ฐ์ดํ„ฐ ๊ด€๋ฆฌ ๋ฌธ์ œ ํ•ด๊ฒฐ ์‚ฌ๋ก€๋กœ ์ฐธ๊ณ ํ•  ๋งŒํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
Scalable Cross-Facility Federated Learning for Scientific Fo ๋…ผ๋ฌธ์€ ๋Œ€๊ทœ๋ชจ ์žฌ๋ฃŒ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๋ฐ ๊ฒ€์ƒ‰ ์ฒ˜๋ฆฌ์˜ ์—ฐํ•ฉํ•™์Šต ์ ์šฉ์„ ๋‹ค๋ฃธ์œผ๋กœ์จ MatSciAgent์˜ ๋‹ค์ค‘์ž‘์—… ์ž๋™ํ™” ๋งฅ๋ฝ์—์„œ ์‹ค์ œ์  ์‘์šฉ ์‚ฌ๋ก€๋ฅผ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
๋ฐ˜๋ก /๋น„ํŒ
๋ถ„์‚ฐ๋œ ๋ฐ์ดํ„ฐ ํŠน์„ฑ, ์‹ ๋ขฐ์„ฑ ๋ฌธ์ œ ๋“ฑ ํ˜„์‹ค์  ์ œ์•ฝ ํ•˜์—์„œ ๊ณผํ•™ ์—ฐ๊ตฌ ์ž๋™ํ™”๋ฅผ LLM ๊ธฐ๋ฐ˜ ๊ฐ€์„ค ์ƒ์„ฑ ๋งฅ๋ฝ์—์„œ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •