MatClaw: An Autonomous Code-First LLM Agent for End-to-End Materials Exploration
์ ์: | ๋ ์ง: 2026-04-03 | URL: https://arxiv.org/abs/2604.02688 📄 PDF
Essence
Figure 1 illustrates the overall architecture. MatClaw adopts the code-as-action paradigm [Wang
MatClaw๋ ๊ธฐ์กด LLM ์์ด์ ํธ์ ํ์ดํ๋ผ์ธ ๋ฐ์ธ๋ฉ๊ณผ ๋๊ตฌ ํจ์ ์์กด์ฑ์ ๊ทน๋ณตํ๊ธฐ ์ํด, Python ์ฝ๋๋ฅผ ์ง์ ์์ฑยท์คํํ์ฌ ๋๋ฉ์ธ ๋ผ์ด๋ธ๋ฌ๋ฆฌ(pymatgen, atomate2, DeePMD-kit ๋ฑ)๋ฅผ ์์ ๋กญ๊ฒ ์กฐํฉํ๊ณ ์๊ฒฉ HPC ํด๋ฌ์คํฐ์์ ๋ค์ค ์ฝ๋ ์ํฌํ๋ก๋ฅผ ์ค์ผ์คํธ๋ ์ด์
ํ๋ code-first LLM ์์ด์ ํธ์ด๋ค.
Motivation
- Known: ๊ธฐ์กด computational materials science ์์ด์ ํธ๋ค์ ํน์ ์๋ฎฌ๋ ์ด์
์ฝ๋์ ๋ฌถ์ธ ํ์ดํ๋ผ์ธ ๊ตฌ์กฐ์ ํ์ฅ์ฑ ๋ฌธ์ ๋ฅผ ๊ฐ๋ ์๋ ์์ฑ ๋๊ตฌ ํจ์์ ์์กดํ๊ณ ์์ผ๋ฉฐ, code-as-action ํจ๋ฌ๋ค์์ tool-call ๊ธฐ๋ฐ ์์ด์ ํธ๋ณด๋ค 20% ๋์ ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํ ๊ฒ์ผ๋ก ์๋ ค์ ธ ์๋ค.
- Gap: ๊ธฐ์กด ์์ด์ ํธ๋ค์ ํ์ดํ๋ผ์ธ ๋ฐ์ธ๋ฉ์ผ๋ก ์ธํด ๋ค์ํ ์ฝ๋์ ์กฐํฉ ์ํฌํ๋ก์ ์ ์ ๋ถ๊ฐ๋ฅํ๊ณ , ๋๊ตฌ ํจ์ ์์กด์ฑ์ผ๋ก ์๋ก์ด ๋๋ฉ์ธ ํ์ฅ์ ๋์ ๊ฐ๋ฐ ๋น์ฉ์ด ๋ค๋ฉฐ, ์ฅ๊ธฐ ์ํฌํ๋ก์์ ๋ฌธ๋งฅ ์์ค๋ก ์ธํ ์คํ ์ผ๊ด์ฑ ์ ์ง ๋ฌธ์ ๊ฐ ์๋ค.
- Why: ๋ฉํฐ์ฝ๋ ์ํฌํ๋ก ์ค์ผ์คํธ๋ ์ด์
๊ณผ ์๋ํ๋ materials discovery๋ domain expertise์ ์๋ํ๋ฅผ ์ค์ด๊ณ ์ฐ๊ตฌ ํจ์จ์ ํฌ๊ฒ ํฅ์์ํฌ ์ ์์ผ๋, ๊ธฐ์กด ์์ด์ ํธ๋ค์ ํ์ฅ์ฑ๊ณผ ์ฅ๊ธฐ ์ํฌํ๋ก ์ ์ง ๋ฌธ์ ๊ฐ ์ด๋ฅผ ์ ์ฝํ๊ณ ์๋ค.
- Approach: code-as-action ํจ๋ฌ๋ค์์ผ๋ก Python ์ฝ๋ ์ง์ ์์ฑยท์คํ, 4๊ณ์ธต ๋ฉ๋ชจ๋ฆฌ ๊ตฌ์กฐ(conversation history, experience log, database query layer, hierarchical message truncation)๋ก ๋ฌธ๋งฅ ์์ค ๋ฐฉ์ง, RAG with structure-aware code chunking์ผ๋ก API ์ ํ๋ ํฅ์, phase-plan-code-summary ๊ตฌ์กฐํ๋ ์๋ต ํ์์ผ๋ก ํ ํฐ ์์ฑ ์ต์ ํ.
Achievement
Figure 5: Chunking method comparison on pymatgen code QA (300 questions, Gemini 3.0 Flash,
API ์ ํ๋ ๊ฐ์ : RAG๋ฅผ ํตํด ๋จ๊ณ๋น ์ฝ 99% API-call ์ ํ๋ ๋ฌ์ฑ. 3๊ฐ์ end-to-end ๋ฐ๋ชจ: ferroelectric CuInP2S6์ ๋ํ machine-learning force field training (active learning), Curie temperature ์์ธก, heuristic parameter-space search ์์ฐ. ๊ฐ์ด๋ ์์จ์ฑ ๋ชจ๋ธ: literature self-learning๊ณผ expert-specified constraints๋ฅผ ํตํด tacit domain knowledge ๋ถ์ฌ ๊ทน๋ณต. ์คํ์์ค ๊ณต๊ฐ: ๋ชจ๋ ์ฝ๋์ ๋ฒค์น๋งํฌ ๊ณต๊ฐ.
How
Figure 1 illustrates the overall architecture. MatClaw adopts the code-as-action paradigm [Wang
- Python ์ฝ๋ ์ง์ ์์ฑยท์คํ์ผ๋ก ๋๊ตฌ ํจ์ ์์ด ๋ค์ํ ๋ผ์ด๋ธ๋ฌ๋ฆฌ ์กฐํฉ. - 4๊ณ์ธต ๋ฉ๋ชจ๋ฆฌ: retrievable conversation history๋ก ์ด์ ํ๋ผ๋ฏธํฐ/๊ฒฝ๋ก ํ์, experience log๋ก ์คํจ ๊ตํ ์ถ์ , database query layer๋ก ๊ณ์ฐ ๊ฒฐ๊ณผ ์ง์ ์ ๊ทผ, hierarchical message truncation์ผ๋ก ๋ฌธ๋งฅ ์์ถ. - RAG pipeline: structure-aware chunking์ผ๋ก ๋๋ฉ์ธ ์์ค ์ฝ๋ ๊ฒ์ ์ ํ๋ ํฅ์. - phase-plan-code-summary ๊ตฌ์กฐ๋ก autoregressive ์์ฑ ์ต์ ํ. - CuInP2S6 ์ผ์ด์ค์์ VASP, DeePMD-kit, ๊ธฐํ ๋๋ฉ์ธ ๋ผ์ด๋ธ๋ฌ๋ฆฌ ํตํฉ ์ค์ผ์คํธ๋ ์ด์
.
Originality
- Code-first paradigm์ computational materials science์ ๋ณต์กํ ๋ค์ค ์ฝ๋ ์ํฌํ๋ก์ ์ฒ์ ์ ์ฉ. - 4๊ณ์ธต ๋ฉ๋ชจ๋ฆฌ ๊ตฌ์กฐ(conversation history + experience log + database + hierarchical truncation)๋ ๊ธฐ์กด ์์ด์ ํธ์ context window ๊ด๋ฆฌ ๋ฐฉ์๊ณผ ์ฐจ๋ณํ๋ ์ค๊ณ. - Single-agent unified state ์ ์ง๋ก multi-agent ๋์์ธ์ ์กฐ์ ์ค๋ฒํค๋ ํํผ. - Phase-plan-code-summary์ ๋ช
์์ ๊ตฌ์กฐํ๋ autoregressive ์์ฑ์ ์์ ์์กด์ฑ์ ์ต์ ํํ ์ ๊ท ์ ๊ทผ.
Limitation & Further Study
Tacit domain knowledge์ ๋ถ์ฌ: ์ ์ ํ simulation timescale, equilibration protocol, sampling strategy ๋ฑ ์ฐ๊ตฌ ๊ฒฝํ์ ํตํด ์ถ์ ๋๋ ์ง์ ๊ฒฐํ. ๊ฐ์ด๋ ํ์์ฑ: ์์ ์์จ์ ์ด๋ ต๊ณ literature self-learning๊ณผ expert-specified constraints๊ฐ ํ์. ํ๊ฐ ๋ฒ์ ์ ํ: CuInP2S6 ๋จ์ผ ์ฌ๋ฃ์ ๋ํ 3๊ฐ ์ผ์ด์ค ์์ฐ์ผ๋ก ๋ค์ํ materials ๋ฐ ์ํฌํ๋ก ๋ฒ์ ํ๋ ํ์. ์๋ฌ ํ๋ณต ๋ฉ์ปค๋์ฆ ์์ธ ๋ฏธํก: ์คํจ ์ฒ๋ฆฌ ๋ฐ ์๋ ์ฌ์๋ ์ ๋ต์ ๋ํ ๊ตฌ์ฒด์ ์ค๋ช
๋ถ์กฑ. Hallucination ํต์ : LLM์ ์ฝ๋ ์์ฑ ์ค๋ฅ๋ ํ๊ฐ์ด complex workflow์์ ๋ฏธ์น๋ ์ํฅ ํ๊ฐ ํ์.
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: MatClaw๋ computational materials science์ ์๋ํ์ ๋งค์ฐ ์ค์ง์ ์ธ ๊ธฐ์ฌ๋ฅผ ํ๋ code-first LLM ์์ด์ ํธ์ด๋ค. ํ์ดํ๋ผ์ธ ๋ฐ์ธ๋ฉ๊ณผ ๋๊ตฌ ํจ์ ์์กด์ฑ์ด๋ผ๋ ๊ธฐ์กด ์์ด์ ํธ์ ๊ทผ๋ณธ์ ์ ์ฝ์ ๊ทน๋ณตํ๊ณ , 4๊ณ์ธต ๋ฉ๋ชจ๋ฆฌ์ RAG๋ฅผ ํตํด ์ฅ๊ธฐ ์ํฌํ๋ก ์คํ์ ์ผ๊ด์ฑ์ ์๋นํ ๊ฐ์ ํ๋ค. ๋ค๋ง tacit domain knowledge ๋ถ์ฌ๋ก ์์ ์์จํ๋ ์์ง ๋ฏธํกํ๋ฉฐ, ํ๊ฐ๊ฐ ๋จ์ผ ์ฌ๋ฃ์ ๊ตญํ๋์ด ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ ๊ฒ์ฆ์ด ํ์ํ๋ค. ์ ์ฒด์ ์ผ๋ก ๋ฐฉํฅ์ฑ๊ณผ ๊ธฐ์ ํตํฉ์ ์ฐ์ํ๋, ๊ด๋ฒ์ํ ์ค์ ์์ฉ ๊ฒ์ฆ์ ์ํด ๋ณด์์ด ํ์ํ ๋จ๊ณ์ด๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
230์ Code llama ํ๋ก์ ํธ๋ LLM ๊ธฐ๋ฐ ์ฝ๋ ์์ฑยท์คํ์ ๋ํ์ ๋ฐฉ๋ฒ๋ก ์ผ๋ก, 3160์ ์ฝ๋ํผ์คํธ LLM ์์ด์ ํธ๊ฐ ์งํฅํ๋ ๊ธฐ์ ์ ๋ฐฐ๊ฒฝ์
๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
325 ๋
ผ๋ฌธ์ ์ฝ๋ ์์ฑ ๋ฐ ์คํ์ด LLM ๊ธฐ๋ฐ ์์ด์ ํธ์ ์ฑ๋ฅ์ ๋ฏธ์น๋ ์ํฅ๊ณผ ์ค๊ณ ์ ๋ต์ ์์ธํ ๋ถ์ํ๋ฏ๋ก MatClaw(3160)์ ๊ธฐ์ ์ ๋ฐฐ๊ฒฝ์ ์ ๊ณตํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
589๋ ๋๋ฉ์ธ ํนํ LLM๊ณผ retrieval ๊ธฐ๋ฐ materials workflow ์๋ํ๋ฅผ ์งํฅํ์ฌ, 3160์ code-first agentic ์ ๊ทผ๊ณผ ๊ทผ๋ณธ์ ์ธ ์ฐจ๋ณ์ ์ด ์์ต๋๋ค.
ํ์ ์ฐ๊ตฌ
407 ๋
ผ๋ฌธ์ MatClaw(3160)์ ์ ์ฌํ๊ฒ ์ฌ๋ฃ ๋ถ์ผ์์ LLM ๊ธฐ๋ฐ ๊ณผํ ์์ด์ ํธ ์์คํ
์ ๊ตฌ์ถํ๊ณ ์์ด, ์ค์ฉ์ ๊ตฌํ ์ ๋ต์ ์ถ๊ฐ์ ์ธ์ฌ์ดํธ๋ฅผ ์ ๊ณตํฉ๋๋ค.
์์ฉ ์ฌ๋ก
340์ ๋๋ฉ์ธ๋ณ ์ฝ๋ ๊ธฐ๋ฐ ์๋ํ ์ฐ๊ตฌ๋ 3160์ด ์ ์ํ๋ ์คํ์ ์ค์ผ์คํธ๋ ์ด์
์ ์ค์ ์ ์ฉ ์ฌ๋ก๋ฅผ ์ ๊ณตํ ์ ์์ต๋๋ค.
๋ฐ๋ก /๋นํ
322๋ AGI agent ์์คํ
ํ๊ฐ์์ ์ํฌํ๋ก์ฐ ์ ๋ขฐ์ฑ๊ณผ ์๋ํ ํ๊ณ๋ฅผ ๋นํ์ ์ผ๋ก ๋ค๋ฃจ๋ฉฐ, 3160์ code orchestration ๋ฐฉ์๊ณผ ํ๊ณ๋ฅผ ์ ๊ฒํ ์ ์์ต๋๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์