์ ์: Xu Yang, Xiao Yang, Shikai Fang, Bowen Xian, Yuante Li, Jian Wang, Minrui Xu, Haoran Pan, Xinpeng Hong, Weiqing Liu, Yelong Shen, Weizhu Chen, Jiang Bian | ๋ ์ง: 2025-05-20 | DOI: 10.48550/arXiv.2505.14738 📄 PDF
Essence
R&D-Agent ํ๋ ์์ํฌ: ์ฐ๊ตฌ์(Researcher) ์์ด์ ํธ์ ๊ฐ๋ฐ์(Developer) ์์ด์ ํธ๊ฐ ํ๋ ฅํ์ฌ ๋ค์ค ํ์ ๊ฒฝ๋ก๋ฅผ ๋ณ๋ ฌ๋ก ์คํํ๊ณ ์ํธ ๊ฐํํ๋ ๊ตฌ์กฐ
๋ณธ ๋
ผ๋ฌธ์ LLM ๊ธฐ๋ฐ์ ์ด์ค ์์ด์ ํธ ํ๋ ์์ํฌ์ธ R&D-Agent๋ฅผ ์ ์ํ์ฌ, ๋ฐ์ดํฐ ๊ณผํ ์๋ฃจ์
๊ฐ๋ฐ์ ์๋ํํ๊ณ ์ ๋ฌธ๊ฐ ์์ค์ ์ฑ๋ฅ์ ๊ทผ์ ํ๋๋ก ์ค๊ณํ๋ค. ์ฐ๊ตฌ์ ์์ด์ ํธ๋ ์ฑ๋ฅ ํผ๋๋ฐฑ์ ๋ฐํ์ผ๋ก ์์ด๋์ด๋ฅผ ์์ฑํ๊ณ , ๊ฐ๋ฐ์ ์์ด์ ํธ๋ ์ค๋ฅ ํผ๋๋ฐฑ์ ๋ฐํ์ผ๋ก ์ฝ๋๋ฅผ ๊ฐ์ ํ๋ ํ๋ ฅ์ ํ์ ๊ณผ์ ์ ํตํด ๊ธฐ์กด ์๋ํ ์๋ฃจ์
์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๋ค.
Evaluation
์ดํ: R&D-Agent๋ LLM ๊ธฐ๋ฐ ๋ฐ์ดํฐ ๊ณผํ ์๋ํ์ ์ค์ํ ์ง์ ์ ์ด๋ฃจ์์ผ๋ฉฐ, ์ด์ค ์์ด์ ํธ ์ค๊ณ์ ๋ค์ค ์ถ์ ๋ณํฉ์ด๋ผ๋ ์ฐฝ์ ์ ๊ฐ๋
์ ํตํด ๊ธฐ์กด ์๋ฃจ์
์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๋ ค๋ ์๋๊ฐ ๋์ด ํ๊ฐ๋๋ค. ๋ค๋ง, ๊ณ์ฐ ๋น์ฉ ๋ถ์, ์ค๋ฌด ์ ์ฉ ์ฌ๋ก, ํต์ฌ ๋ฉ์ปค๋์ฆ์ ์ธ๋ถ ๊ธฐ์ ์ค๋ช
์ด ๋ณด๊ฐ๋๋ฉด ๋
ผ๋ฌธ์ ์ค์ฉ์ฑ๊ณผ ์์ฑ๋๊ฐ ๋์ฑ ํฅ์๋ ๊ฒ์ผ๋ก ์์๋๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
๋ค์ค ์์ด์ ํธ LLM ํ์ฉ ํ๋ ์์ํฌ์ ๋ํฅ๊ณผ ๊ตฌ์กฐ์ ๊ฐ๋
์ ๋ํ ์๋ฒ ์ด ๋
ผ๋ฌธ์
๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๊ณผํ ์ฐ๊ตฌ ์๋ํ ๋ชฉ์ ์ LLM ์์ด์ ํธ ์๋ฒ ์ด๋ก ๋ณธ ๋
ผ๋ฌธ์ ๋ฐฉ๋ฒ๋ก ์ ๊ธฐ๋ฐ์ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
294๋ฒ ๋
ผ๋ฌธ์ ๊ณผํ ๋ฐ์ดํฐ ๋ถ์ ๋ฅ๋ ฅ ์ฐจ์ด ๋ฐ ์๋ํ์ ํ๊ณ ๋ถ์์ ๋ด์, 650๋ฒ์ด ์ ์ํ ํ๋ ฅ์ ์๋ฃจ์
์ ํ์์ฑ๊ณผ ํจ๊ณผ๋ฅผ ์ดํดํ๋ ๋ฐ ๋ฐฐ๊ฒฝ์ด ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๊ณผํ ์๋ํ์ ๊ธฐํ์ ๋์ ๊ณผ์ ์ ๋ํ ์ด๋ก ์ ยท๋ฐฉ๋ฒ๋ก ์ ๋ฐฐ๊ฒฝ์ ์ ๊ณตํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
CFD ๋ถ์ผ์์ LLM ๊ธฐ๋ฐ ๋ค์ค ์์ด์ ํธ ์๋ํ ํ๋ ์์ํฌ๋ฅผ ์ ์ํด, ์๋ํ ์์ด์ ํธ ๊ตฌ์กฐ์ ๋๋ค๋ฅธ ์ฌ๋ก๋ฅผ ์ ์ํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋ฐ์ดํฐ ํด์ ๋ฐ ์ ๋ฌธ๊ฐ ์์ค ์๋ํ ์๋ฃจ์
๊ฐ๋ฐ์์ LLM ์์ด์ ํธ๊ฐ ์ด๋ป๊ฒ ํ์ฉ๋๋์ง์ ๋ํ ๋ค๋ฅธ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋ฐ์ดํฐ ์ฃผ๋ํ ๊ณผํ ๋ฐ๊ฒฌ ์๋ํ๋ฅผ ์ํ ์ ์ฌํ ์ ๊ทผ ๋ฐฉ์์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
259๋ฒ์ ๋ฐ์ดํฐ ๋ถ์ ์๋ํ๋ฅผ LLM ๋จ์ผ ์์ด์ ํธ ๊ธฐ๋ฐ์ผ๋ก ์ ๊ทผํ์ฌ, 650๋ฒ์ ์ด์ค ์์ด์ ํธ ํ๋ ฅ ํ๋ ์์ํฌ์ ์ค๊ณ ๋ฐฉ์ ์ฐจ์ด๋ฅผ ์ ์ ์๋ค.
ํ์ ์ฐ๊ตฌ
R&D-Agent ๋
ผ๋ฌธ์ ์ค์ ์ฐ์
ํ AI ์๋ฃจ์
๊ฐ๋ฐ์ ์ด์ ์ ๋ง์ถ ์์ด์ ํธ ๋ฒค์น๋งํน์ ๋ค๋ฃจ๋ฉฐ, MLE-bench ์ดํ์ ์ค์ฉ์ ํ์ฅ์ฑ์ ๋ณด์ฌ์ค๋ค.
ํ์ ์ฐ๊ตฌ
Towards an AI co-scientist ๋
ผ๋ฌธ์ ์ธ๊ฐ ์ ๋ฌธ๊ฐ์ ์คํ๋ AI ์์ด์ ํธ์ R&D ํ์ฉ ๊ฐ๋ฅ์ฑ์ ๋ํด ํตํฉ์ ์๊ฐ์ ์ ๊ณตํ์ฌ 650์ ์์คํ
์ ์ฑ๊ณผ๋ฅผ ๋ํ์ค๋๋ค.
์์ฉ ์ฌ๋ก
LLM ๊ธฐ๋ฐ ๋๊ตฌ ์ค๊ณ ์๋ํ ํ๋ ์์ํฌ๊ฐ ์ค์ ๊ณผํ ์๋ฃจ์
๋น๋์ ํ์ฉ๋๋ ์ฌ๋ก๋ฅผ ๋ณผ ์ ์์ต๋๋ค.