์ ์: Patrick Tser Jern Kon, Jiachen Liu, Qi Ding, Yiming Qiu, Zhenning Yang, Yibo Huang, Jayanth Srinivasa, Myungjin Lee, Mosharaf Chowdhury, Ang Chen | ๋ ์ง: 2025 | DOI: N/A 📄 PDF
Essence
Figure 1. Curie overview.
๋ณธ ๋
ผ๋ฌธ์ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM) ๊ธฐ๋ฐ AI ์์ด์ ํธ๋ฅผ ํ์ฉํ์ฌ ์๋ฐํ๊ณ ์๋ํ๋ ๊ณผํ ์คํ ์ํ์ ๊ฐ๋ฅํ๊ฒ ํ๋ ํ๋ ์์ํฌ Curie๋ฅผ ์ ์ํ๋ค. ์ ๋ขฐ์ฑ(reliability), ๋ฐฉ๋ฒ๋ก ์ ํต์ (methodical control), ํด์๊ฐ๋ฅ์ฑ(interpretability)์ ๊ฐ์ถ ์ธ ๊ฐ์ง ํต์ฌ ๋ชจ๋์ ํตํด ์คํ ๊ณผ์ ์ ์๋ฐํจ์ ๋ด์ฌํํ๊ณ , ๊ธฐ์กด ๋ฒ ์ด์ค๋ผ์ธ ๋๋น 3.4๋ฐฐ ํฅ์๋ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ค.
How
Figure 3. Curie workflow with an example task in LLM reasoning. Architect๋ ๊ณ ์์ค ๊ณํ ์ค๊ณ์ ๋ฐ๊ฒฌ ์ฌํญ ๋ฐ์์ ๋ด๋นํ๊ณ , Technician์ ๊ณํ์ ๋ฐ๋ฅธ ์คํ ๊ตฌํ ๋ฐ ์คํ์ ๋ด๋นํ๋ค.
- ์ํคํ
ํธ ์์ด์ ํธ(Architect Agent): ๊ณ ์์ค ์คํ ๊ณํ ์๋ฆฝ (๊ฐ์ค ์ ์, ๋ณ์ ์๋ณ), ๋ฐ๊ฒฌ ์ฌํญ์ ๋ํ ๋ฐ์(reflection) ์ํ
- ๊ธฐ์ ์ ์์ด์ ํธ(Technician Agents): ์ํคํ
ํธ์ ๊ณํ์ ๋ฐ๋ผ ํต์ ๋ ์คํ ํ๊ฒฝ ๊ตฌ์ฑ ๋ฐ ์คํ, ์ธ๋ถ ์์
์ํ
Figure 4. Intra-ARM setup validation high-level workflow.
- Intra-Agent Rigor Module (Intra-ARM): ๊ฐ ์์ด์ ํธ์ ์ ๋ขฐ์ฑ ๊ฐํ
- ์คํ ๊ณํ์ด ๋ชฉํ์ ์ผ์นํ๋์ง ๊ฒ์ฆ
- ์คํ ํ๊ฒฝ ์ค์ ์ฌํ์ฑ ํ๋ณด
- ๋ณ์ ์๋ณ, ์ค๊ณ, ์ฝ๋ ๊ฒ์ฆ์ ์๋ฐ์ฑ ๋ณด์ฅ
- ์ค๊ฐ ๋จ๊ณ ๊ฒ์ฆ์ ํตํ ์ค๋ฅ ๊ฒฉ๋ฆฌ ๋ฐ ์กฐ๊ธฐ ์์ ๊ฐ๋ฅ
- Inter-Agent Rigor Module (Inter-ARM): ์์ด์ ํธ ๊ฐ ๋ฐฉ๋ฒ๋ก ์ ํต์
- ์ ์ด ํ๋ฆ ์ ์ฑ
(control flow policies)์ ํตํ ์ ํํ ์์
์ ์ด
- ํจ์จ์ ์์
์ค์ผ์ค๋ง ๋ฐ ์์ ๊ด๋ฆฌ
- ์๋ก์ด ๊ณํ์ ์ธ๋ถํ๋ ํํฐ์
์ผ๋ก ๋ถํ ํ์ฌ ๋ฏธ์ธํ ์คํ ์ ์ด
- Experiment Knowledge Module: ํด์๊ฐ๋ฅ์ฑ ๋ฐ ์ถ์ ์ฑ ํ๋ณด
- ๋ฉํ๋ฐ์ดํฐ ๊ธฐ๋ฐ ๊ตฌ์กฐํ๋ ๋ฌธ์ํ
- ์คํ ์งํ ์ํฉ ์ฒด๊ณ์ ์ถ์
- ์ฌํ์ฑ ๋ฐ ํ์
์ด์ง
Figure 5. Errors detected by two of Intra-ARM's many validators.
- ๋ค์ธต ๊ฒ์ฆ ์ฒด๊ณ: ์ค์ ๊ฒ์ฆ(setup validator), ์คํ ๊ฒ์ฆ(execution validator) ๋ฑ ์ฌ๋ฌ ๊ฒ์ฆ๊ธฐ๋ฅผ ํตํ LLM ํ๊ฐ ๋ฐฉ์ง
Evaluation
Novelty: 4.5/5 Technical Soundness: 4/5 Significance: 4.5/5 Clarity: 4/5 Overall: 4.3/5
์ดํ: Curie๋ LLM ๊ธฐ๋ฐ ๊ณผํ ์คํ ์๋ํ์์ ์ฒด๊ณ์ ์๋ฐ์ฑ ๊ฐ์ ๋ผ๋ ์ค์ํ ๊ณต๋ฐฑ์ ์ต์ด๋ก ํด๊ฒฐํ๋ฉฐ, ์ธ ๊ฐ์ง ๋ชจ๋์ ํตํฉ ์ค๊ณ์ ํ์ค ๊ธฐ๋ฐ ๋ฒค์น๋งํฌ ๊ตฌ์ฑ์ผ๋ก ์๋นํ ๊ธฐ์ ์ ๊ธฐ์ฌ๋ฅผ ์ ์ํ๋ค. ๋ค๋ง ๋๋ฉ์ธ ํ์ฅ์ฑ๊ณผ ์ธ๊ฐ-AI ํ์
๋ฉ์ปค๋์ฆ ๊ณ ๋ํ๊ฐ ์ค์ ๊ณผํ ์ฐ๊ตฌ ์ ์ฉ์ ์ด์ ๊ฐ ๋ ๊ฒ์ผ๋ก ๋ณด์ธ๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
716 ๋
ผ๋ฌธ์ ์๋ ๊ณผํ ์ฐ๊ตฌ ์์ด์ ํธ์ ์ํ๋ฅ๋ ฅ ํ๊ฐ์ ์ด์ ์ ๋ง์ถ์ด, 248์ ์คํ ์๋ํ ์์ด์ ํธ์ ํ๊ฐ ๋ฐ ๊ฒ์ฆ ๋ชฉ์ ๊ณผ ๊ธด๋ฐํ ์ฐ๊ฒฐ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
822๋ AI ์์ด์ ํธ์ ์ ๋ขฐ์ฑ๊ณผ ํ๊ฐ ์ฒด๊ณ์ ์ด๋ก ์ ๋
ผ์๋ฅผ ์ ๊ณต, 248์์์ '์๋ฐ์ฑ, ์ฌํ์ฑ' ๋ชฉํ์ ๋ง๋ฟ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
377 ๋
ผ๋ฌธ์ 248 ๋
ผ๋ฌธ์ฒ๋ผ LLM ๊ธฐ๋ฐ ๊ณผํ ์คํ ์๋ํ์ ํ๊ฐ์ ์๋์ ์ ํ๊ธฐ์ ๋ํ ๊ธฐ๋ฐ์ ๋
ผ์ง๋ฅผ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
์์ด์ ํฑ ํ๋ฅด์๋ ๋๋ ์ ์ํ ์ค๋ช
์์คํ
์ ์ด๋ก ์ ๊ธฐ๋ฐ์ ์ ๊ณตํ๋ ์ ํ ์ฐ๊ตฌ์ด๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
248์์ ์ ์ํ๋ AI ๊ธฐ๋ฐ ์คํ ์๋ํ ์ฒด๊ณ๊ฐ 3263์ ํ๋กํ ์ฝ ์ธ์ด/LLM ๊ธฐ๋ฐ ์์จ์๋ฌผํ ๊ตฌํ ๊ธฐ์ด๋ฅผ ์ด๋ฃน๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
795 ๋
ผ๋ฌธ์ 248์ ๊ณผํ ์คํ ์๋ํ ์๋ฐ์ฑ ํ๊ฐ์์ ํ๋ฐ ๋ ๋์๊ฐ ์ฐ๊ตฌ ์๋ํ ์ ์ฒด ํ์ดํ๋ผ์ธ์ LLM agent๋ฅผ ์ ์ฉํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋ฐ์ดํฐ ๊ธฐ๋ฐ ๊ณผํ ๋ฐ๊ฒฌ์์ LLM ์์ด์ ํธ์ ๋ถ์ ๋ฅ๋ ฅ์ ํ๊ฐํ๋ ์ ์ฌํ ๋ฒค์น๋งํฌ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
์๋ํ๋ ์คํ ๋ฐ ๊ฐ์ค ๊ฒ์ฆ ์์คํ
๊ณผ ๋น๊ตํ์ฌ ๋ ์ ๊ทผ๋ฒ์ ์ฐจ์ด์ ๊ณผ ๋ณด์์ ์ ํ์
ํ ์ ์์ต๋๋ค.
ํ์ ์ฐ๊ตฌ
Genesis ๋
ผ๋ฌธ์ ์์คํ
์๋ฌผํ ์ฐ๊ตฌ์ ์๋ํ ๋ชจ๋์ ์ค๊ณ๋ก, Curie์ ์คํ ์๋ํ ์์ด์ ํธ ๊ตฌํ์ ์ ์ฉ ๋ฐ ํ์ฅ ์์๊ฐ ๋๋ค.
ํ์ ์ฐ๊ตฌ
248๋ฒ ๋
ผ๋ฌธ์ LLM ์์ด์ ํธ๋ฅผ ์ด์ฉํด ์๋ํ ์คํ ์ํ์ ํ๊ฐํ๋ ์ฒด๊ณ์ ๋ฒค์น๋งํฌ๋ฅผ ์ ์ํ์ฌ, 716๋ฒ ScienceAgentBench๊ฐ ์งํฅํ๋ ์ธ์ด ์์ด์ ํธ์ ์ค์ ์ญ๋ ํ๊ฐ ๋ฐฉํฅ์ ์ค์ง์ ์ฌ๋ก๋ฅผ ์ ๊ณตํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
Curie ํ๋ ์์ํฌ์ ์๋ํ ๊ณผํ ์คํ ๊ฐ๋
์ ํ์ฅํ๊ฑฐ๋ ๋ณด์ํ๋ ์ฐ๊ตฌ์ด๋ค.