์ ์: Daljeet Singh Gahle, Matteo Barbarino | ๋ ์ง: 2026-04-02 | URL: https://arxiv.org/abs/2604.01797 📄 PDF
Figure 1. Shows the high level architecture of the Fusion Data Lake: from the various data
๋ณธ ๋ ผ๋ฌธ์ IAEA AI for Fusion ์ด๋์ ํฐ๋ธ์ ํต์ฌ ์ธํ๋ผ์ธ Fusion Data Lake ํ๋ก์ ํธ๋ฅผ ๋ณด๊ณ ํ๋ฉฐ, ๊ตญ์ ๋ฐ์ดํฐ ์นดํ๋ก๊ทธยท๋ฐ์ดํฐ ํ๋๋ ์ด์ ยท์ค์ ์คํ ๋ฆฌ์ง๋ผ๋ 3๋ ์ถ์ผ๋ก ๊ตฌ์ฑ๋ ๊ธ๋ก๋ฒ ์ตํฉ ๋ฐ์ดํฐ ํ๋ซํผ์ ์ํคํ ์ฒ์ ๊ตฌํ ํํฉ์ ์ ์ํ๋ค. FAIR ๋ฐ์ดํฐ ์์น ์ค์ ๋ฐ surrogate modelยทdigital twin ์ํฌํ๋ก ์ง์์ ๋ชฉํ๋ก ํ๋ค.
Figure 1. Shows the high level architecture of the Fusion Data Lake: from the various data
ํ๋ซํผ ์ํคํ ์ฒ ์ค๊ณ ๋ฐ ๊ตฌํ: ๊ตญ์ ๋ฐ์ดํฐ ์นดํ๋ก๊ทธ, ํ๋๋ ์ด์ , ์ค์ ์คํ ๋ฆฌ์ง 3๋ ์ถ์ ํตํฉ ํ๋ซํผ ์์ฑ. ๋ค์ค ๊ธฐ๊ด ๋ฐ์ดํฐ ํตํฉ: MAST(์๊ตญ), LHD(์ผ๋ณธ), Alcator C-Mod(๋ฏธ๊ตญ), HL-2A(์ค๊ตญ) 4๊ฐ ์ฃผ์ ํ ์นด๋ง/์คํ ๋ผ๋ ์ดํฐ ์นดํ๋ก๊ทธ๋ฅผ ๋จ์ผ FDL ๋ฐ์ดํฐ ๋ชจ๋ธ ํ์ ์๋ ด. ๋ฉํ๋ฐ์ดํฐ ํ์คํ: Minimal Metadata Model ์ ์ ๋ฐ ITER IMAS Data Dictionary์ ์ ๋ ฌ. ๋ฐ์ดํฐ ๊ฑฐ๋ฒ๋์ค ์ฒด๊ณ: Terms of Service ๋ฐ 4๋จ๊ณ ์ ๊ทผ-๊ฐ์ธ์ ๋ณด ๋ณดํธ ์์ค(Public, Internal, Restricted, Closed) ๊ท์ ์๋ฆฝ. AI/ML ์ํฌํ๋ก ๊ธฐ๋ฐ ์ ๊ณต: Human-friendly ์น ์ธํฐํ์ด์ค์ programmable API ์ ๊ณต์ผ๋ก surrogate modelยทdigital twin ํตํฉ ์ง์.
Figure 1. Shows the high level architecture of the Fusion Data Lake: from the various data
โข Snowflake ํด๋ผ์ฐ๋ ํ๋ซํผ ๊ธฐ๋ฐ์ ETL ํ์ดํ๋ผ์ธ ๋ฐ medallion ๊ตฌ์กฐ ๋ฐ์ดํฐ ์ ์ฅ์ ๊ตฌ์ถ\nโข ๋ฉํ๋ฐ์ดํฐ ๊ธฐ๋ฐ ์์ง(metadata-driven ingestion) ํ์ดํ๋ผ์ธ์ผ๋ก ์ค์ ํ์ผ ๋ฐฉ์์ ์ฌ์ฌ์ฉ ๊ฐ๋ฅํ ๋ณํ ๋ก์ง ๊ฐ๋ฐ\nโข MAST Data Catalog REST API ํ์ฉํ ํ๋๋ ์ด์ ๋๊ธฐํ ๋ฉ์ปค๋์ฆ(Phase I)\nโข Azure Blob Storage ๋ฐ MDS Plus ๋ฑ ๋ค์ํ data source ์ฐ๊ณ ํจํด ๊ฐ๋ฐ(Phase II)\nโข NUCLEUS ๊ณ์ ๊ธฐ๋ฐ์ ๊ณ์ธต์ ์ ๊ทผ ์ ์ด(Public/Internal/Restricted/Closed) ์์คํ ๊ตฌํ\nโข ITER IMAS Data Dictionary ์ ๋ ฌ์ ํตํ ์จํจ๋ก์ง ๊ฐ๋ฐ
โข IAEA์ ์ค๋ฆฝ์ ๊ตญ์ ๊ธฐ๊ตฌ ์์น๋ฅผ ํ์ฉํ ๊ธ๋ก๋ฒ ๋ฐ์ดํฐ ํ๋๋ ์ด์ ๋ชจ๋ธ ์ ์ โ ๊ธฐ์กด ๋จ์ผ ๊ธฐ๊ด ์ค์ฌ ๋ฐ์ดํฐ ์์คํ ๊ณผ ๋ฌ๋ฆฌ ๊ตญ์ ํ๋ ฅ ์ฒด๊ณ ๊ธฐ๋ฐ์ ํ์ค์ํ ๊ตฌ์กฐ\nโข FAIR ์์น ์ค์์ ITER IMAS ํ์คํ๋ฅผ ๊ฒฐํฉํ ๋ฉํ๋ฐ์ดํฐ ์ ๋ต โ ๋๋ฉ์ธ ํนํ ์จํจ๋ก์ง์ ๊ธฐ์ ์ธํ๋ผ์ ํตํฉ\nโข 3๋จ๊ณ PoC ๊ธฐ๋ฐ์ ์ ์ง์ ํ์ฅ ๋ชจ๋ธ โ ๊ฒ์ฆ๋ ์ํคํ ์ฒ๋ฅผ ํตํ ์ํ ๊ด๋ฆฌ์ ๊ธฐ๊ด๋ณ ์์ฉ์ฑ ์ ๊ณ
โข ํ์ฌ Phase II ์๋ฃ ์ํ๋ก ์์ง pre-release ๋จ๊ณ์ด๋ฉฐ, Phase III ์ํ ์ค์ด๋ฏ๋ก ๋ณธ๊ฒฉ์ ์ธ ์ด์ ๊ฒฝํ๊ณผ ๋๊ท๋ชจ ์ฌ์ฉ์ ๊ธฐ๋ฐ์์์ ์ฑ๋ฅ ๋ฐ์ดํฐ ๋ถ์ฌ\nโข Minimal Metadata Model ์์ธํ ์์ค์ด ์ด๊ธฐ ๋จ๊ณ์ด๋ฉฐ, ITER IMAS์์ ์ ๋ ฌ ์์ ์ด ์งํ ์ค์ด์ด์ ์ต์ข ์จํจ๋ก์ง ํ์ ๋ฏธํก\nโข ๋ฐ์ดํฐ ๊ฑฐ๋ฒ๋์ค ์ ๋ต์ด 'provisional'์ผ๋ก ๋ช ์๋์ด ์์ผ๋ฉฐ, ๊ถํ ๋งคํธ๋ฆญ์ค(view/download/edit) ๊ฐ๋ฐ์ด ์ถํ ๊ณผ์ \nโข ๋ ผ๋ฌธ์์ ๊ธฐ์ ์ธ๋ถ์ฌํญ(์: ํ๋๋ ์ด์ ๋๊ธฐํ ์ง์ฐ, ์บ์ ์ ๋ต, ํ์ฅ์ฑ ํ๊ณ์ ) ๋ฐ ์ฑ๋ฅ ๋ฒค์น๋งํฌ ๋ถ์กฑ\nโข ๋ณด์, ๋ฐ์ดํฐ ํ๋ผ์ด๋ฒ์, ์ฌํด๋ณต๊ตฌ(DR) ๋ฑ ์ด์ ์์ ์ฑ ๊ด๋ จ ๊ธฐ์ ์ ์ฌํ ๋ ผ์ ๋ฏธํก
์ดํ: IAEA Fusion Data Lake ํ๋ก์ ํธ๋ ๊ตญ์ ์ตํฉ ์๋์ง ๊ณต๋์ฒด์ AI/ML ์ญ๋ ๊ฐํ๋ฅผ ์ํ ์ ๋ต์ ์ธํ๋ผ๋ก, FAIR ์์น๊ณผ ๋ฐ์ดํฐ ํ๋๋ ์ด์ ๋ชจ๋ธ์ ์ ์ ํ ๊ฒฐํฉํ ์ค์ฉ์ ๊ตฌํ์ ์ ์ํ๋ค. Phase II ์๋ฃ ๋ฐ Phase III ์งํ ์ค์ธ ์ํฉ์์ MASTยทLHDยทAlcator C-ModยทHL-2A 4๊ฐ ์ฃผ์ ์ฅ์น์ ๋ค์ค ๋ฐ์ดํฐ ํตํฉ ์ฑ๊ณต์ ๊ธ๋ก๋ฒ ํ๋ ฅ ์ฒด๊ณ์ ๊ธฐ์ ์ ์คํ์ฑ์ ์ ์ฆํ๋ ์๋ฏธ์๋ ์ฑ๊ณผ์ด๋ค. ๋ค๋ง ๋ณธ ๋ ผ๋ฌธ์ ์ธํ๋ผ ํํฉ ๋ณด๊ณ ์ ์ค์ ์ ๋๊ณ ์์ด (1) ์ค์ ์ด์ ํ๊ฒฝ์์์ ์ฑ๋ฅ, (2) ๋จธ์ ๋ฌ๋ ์ํฌํ๋ก ํตํฉ์ ๊ตฌ์ฒด์ ์ฌ๋ก, (3) ๋ฐ์ดํฐ ์ง ๋ณด์ฆ(Data Quality Assurance) ๋ฉ์ปค๋์ฆ ๋ฑ ๊ตฌํ ์ธ๋ถ์ฌํญ์ด ๋ถ์กฑํ๋ฉฐ, (4) ๊ฑฐ๋ฒ๋์ค ์ ๋ต์ด ์์ง provisional ๋จ๊ณ์ด๋ฏ๋ก ์ ์ฑ ๊ตฌํ์ ๊ตฌ์ฒด์ฑ์ด ์ ํ์ ์ด๋ค. ๊ทธ๋ผ์๋ ๋ถ๊ตฌํ๊ณ pre-release ๋จ๊ณ์์ 3๊ฐ๊ตญ ์ด์์ ๋ค๊ธฐ๊ด ๋ฐ์ดํฐ ์๋ ด๊ณผ ํ์คํ๋ ๋ฉํ๋ฐ์ดํฐ ๋ชจ๋ธ ์ ์๋ ์ค์ง์ ์ง์ ์ด๋ฉฐ, ๊ตญ์ ๋น ๋ฐ์ดํฐ ์ธํ๋ผ ๊ตฌ์ถ์ ์ ๋ก๋ก ๋์ ๊ฐ์น๋ฅผ ์ง๋๋ค.