์ ์: Patrick Tser Jern Kon, Jiachen Liu, Xinyi Zhu, Qiuyi Ding, Jingjia Peng, Jiarong Xing, Yibo Huang, Yiming Qiu, Jayanth Srinivasa, Myungjin Lee, Mosharaf Chowdhury, Matei Zaharia, Ang Chen | ๋ ์ง: 2025 | DOI: arXiv:2505.24785 📄 PDF
Essence
EXP-Bench๋ AI ์์ด์ ํธ๊ฐ ๋๋ฃ ์ฌ์ฌ ๋
ผ๋ฌธ์์ ์ถ์ถํ ์์ ํ ์ฐ๊ตฌ ์คํ์ ์ํํ ์ ์๋์ง๋ฅผ ํ๊ฐํ๋ ๋ฒค์น๋งํฌ๋ก, ์ฐ๊ตฌ ์ง๋ฌธ์ผ๋ก๋ถํฐ ๊ฐ์ค ์๋ฆฝ, ์คํ ์ค๊ณ, ๊ตฌํ, ์คํ, ๊ฒฐ๋ก ๋์ถ๊น์ง์ ์ ์ฒด ๊ณผ์ ์ ํ๊ฐํ๋ค.
AI๊ฐ ์์ ํ ์ข
๋ฃ-๋-์ข
๋ฃ(end-to-end) ์ฐ๊ตฌ ์คํ์ ์ํํ ์ ์๋ ๋ฅ๋ ฅ์ ์ฒด๊ณ์ ์ผ๋ก ํ๊ฐํ๊ธฐ ์ํด EXP-Bench ๋ฒค์น๋งํฌ๋ฅผ ์ ์ํ๋ฉฐ, NeurIPS/ICLR ๋
ผ๋ฌธ 461๊ฐ ์์
์์ ํ์ฌ AI ์์ด์ ํธ๋ค์ด 0.5%์ ์์ ์คํ ์ฑ๊ณต๋ฅ ์ ๊ทธ์น๊ณ ์์์ ๋ณด์๋ค.
Achievement
ICLR 2024 MogaNet ๋
ผ๋ฌธ์์ ์ถ์ถํ ๋จ์ผ ์ฐ๊ตฌ ์์
์ ์์๋ก, ์ฐ๊ตฌ ์ง๋ฌธ, ๊ณ ์์ค ๋ฐฉ๋ฒ ์ค๋ช
, ์คํํฐ ์ฝ๋๋ฅผ ์ ๊ณต๋ฐ๋ ํํ๋ฅผ ๋ณด์ฌ์ค๋ค.
EXP-Bench ๋ฐ์ดํฐ์
์ Deep Learning, Reinforcement Learning, Computer Vision, Generative Models ๋ฑ ๋ค์ํ ML ์ฐ๊ตฌ ๋ถ์ผ์์ ๊ท ํ์กํ ์์
๋ค๋ก ๊ตฌ์ฑ๋์ด ์์ผ๋ฉฐ, NeurIPS(53%)์ ICLR(47%)์์ ์ถ์ถ๋์๋ค.
- ํฌ๊ด์ ๋ฒค์น๋งํฌ ๊ตฌ์ฑ: NeurIPS/ICLR 2024์ 51๊ฐ ๋
ผ๋ฌธ์์ 461๊ฐ์ ์ฐ๊ตฌ ์์
(12,737๊ฐ ์ธ๋ถํ๋ ๋ถ๋ถ ์์
)์ ์ถ์ถํ์ฌ, ์ปดํจํฐ ๋น์ , NLP, ๊ฐํํ์ต ๋ฑ ๋ค์ํ AI ํ์๋ถ์ผ๋ฅผ ํฌํจํ ๋ฒค์น๋งํฌ ๊ตฌ์ถ
- ํ์ฅ ๊ฐ๋ฅํ ๋ฐ์๋ํ ํ์ดํ๋ผ์ธ: ์์ค ์ ํ/ํํฐ๋ง โ ์คํ ์ ์ฐจ ์ถ์ถ โ ๊ตฌํ ์ถ์ถ์ 3๋จ๊ณ๋ก ๋
ผ๋ฌธ๊ณผ ์ฝ๋๋ฒ ์ด์ค์์ ์ฐ์ฌ๋ ์ธ๋ถ์ ๋ณด๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ์ถ์ถํ๋ฉฐ, ์คํ ๊ธฐ๋ฐ ๊ฒ์ฆ์ผ๋ก ๊ธฐ๋ฅ์ฑ์ ๋ณด์ฅ
- ์ฌ์ธต ํ๊ฐ ๋ถ์: ์ค๊ณ(design), ๊ตฌํ(implementation), ์คํ(execution), ๊ฒฐ๋ก (conclusion)์ 4๊ฐ ํต์ฌ ๋จ๊ณ ํ๊ฐ๋ฅผ ํตํด OpenHands์ IterativeAgent ๋ฑ ์ต์ ์์ด์ ํธ์ ํ๊ณ๋ฅผ ์ ๋ํ:
- ์ค๊ณ ์ ํ๋: 20-35%
- ์คํ ๊ฐ๋ฅํ ์์ ์คํ: 0.5%
- ์ค๊ณ ๋ณ์ ์ค๋ถ๋ฅ: 16.1%
- ํ์ ๊ตฌํ ์์ ๋๋ฝ: 39.7%
- ํ๊ฒฝ/์์กด์ฑ ์ค์ค์ : 29.4%
Evaluation
์ดํ: EXP-Bench๋ AI ์์ด์ ํธ์ ์ข
๋ฃ-๋-์ข
๋ฃ ์ฐ๊ตฌ ์คํ ์ํ ๋ฅ๋ ฅ์ ์ฒ์์ผ๋ก ์ฒด๊ณ์ ์ผ๋ก ํ๊ฐํ๋ ์ค์ํ ๋ฒค์น๋งํฌ์ด๋ฉฐ, ๋ฐ์๋ํ ํ์ดํ๋ผ์ธ์ ํตํด ๋๊ท๋ชจ ๊ณ ์ถฉ์ค๋ ๋ฐ์ดํฐ์
์ ๊ตฌ์ถํ ์ ์ด ์ฃผ๋ชฉํ ๋งํ๋ค. ๋ค๋ง ํ์ดํ๋ผ์ธ์ ์๋ํ ์ ๋์ ๋ค์ค ์ ํจ ํด๋ฒ ์ธ์ ๋ฉ์ปค๋์ฆ ๊ฐ์ ์ด ํฅํ ๊ณผ์ ์ด๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
๊ณผํ ์ฐ๊ตฌ์์ AI ๋๊ตฌ ์ฌ์ฉ์ ์ธ์๋ก ์ ๋ฌธ์ ์ ๋ํ ์ด๋ก ์ ๊ธฐ๋ฐ์ ์ ๊ณตํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Towards a Science of AI Agent Reliability ๋
ผ๋ฌธ์ AI ์์ด์ ํธ ์ฐ๊ตฌ ์คํ ์ ๋ขฐ์ฑ ํ๊ฐ์ ์ด๋ก ์ /์ ๋์ ๋
ผ์๋ฅผ ์ ๊ณตํด, EXP-Bench์ ๋๊ธฐ์ ๋ถ์ ์๊ฐ์ ๊ธฐ๋ฐ์ด ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Exp-bench๋ AI ์ฐ๊ตฌ ์คํ ์๋ํ ์ธก๋ฉด์์ ResearchGym๊ณผ ๊ฐ์ ๋ชฉํ๋ฅผ ๊ฐ์ง ๊ธฐ์ด ์ฐ๊ตฌ๋ก ์ฐ๊ฒฐ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
The AI Scientist ๋
ผ๋ฌธ์ ์ข
๋ฃํ ๊ณผํ ์คํ ์๋ํ์ ์ฑ๊ณต ์ฌ๋ก์ ํ๊ณ๋ฅผ ์ค์ฆ์ ์ผ๋ก ๋ณด์ฌ์ฃผ์ด, Exp-bench ๋ฐ์ดํฐ์ ์ฑ๋ฅ ์ฐจ์ด๋ฅผ ๋ช
๋ฃํ ๋ณด์ฌ์ค๋ค.
๋ค๋ฅธ ์ ๊ทผ
๊ณผํ์ ๋ฐ์ดํฐ ๋ถ์ ์๋ํ๋ฅผ ์ํ LLM ์์ด์ ํธ์ ๋ค์ค ๋ถ์ ๊ฒฝ๋ก๋ฅผ ํ๊ตฌํ๋ ๊ด๋ จ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
Exp-bench ๋
ผ๋ฌธ์ AI ์ฐ๊ตฌ ์คํ์ ํนํ๋ ๋ฒค์น๋งํฌ๋ก ์ค์ LLM ์ฑ๋ฅ ํ๊ฐ์ ๋ค์ํ ์ ๊ทผ์ ๋ณด์ฌ์ค๋ค.
๋ค๋ฅธ ์ ๊ทผ
MLGym ๋
ผ๋ฌธ์ AI ์ฐ๊ตฌ ์คํ ์๋ํ ๋ฐ ์์ด์ ํธ์ ํจ์ฉ์ฑ ๋ฒค์น๋งํน์ ์ค์ ์ผ๋ก ํ์ฌ, Exp-bench์ ์ ํ์ ์ธ ์์ ์๋ํ์จ๊ณผ ๋น๊ตํ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋จ์ผ์ธํฌ ์ ์ฌ์ฒด ๋ถ์์ ์ํ AI ๊ธฐ๋ฐ ๋ฐฉ๋ฒ๋ก ์ ๊ด๋ จ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
AI์ ๊ณผํ ์ฐ๊ตฌ์ ๊ด๊ณ๋ฅผ ๋ค๋ฅธ ์๊ฐ์์ ๋ถ์ํ๋ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
326๋ฒ ๋
ผ๋ฌธ์ AI ์ฐ๊ตฌ์์
์ ์๋ํ ๊ฐ๋ฅ์ฑ์ ์คํ์ ๊ด์ ์์ ๊ฒ์ฆํ๋ฏ๋ก 145๋ฒ์ ๋
ผ๋ฌธ ๊ณ๋ณด ๊ธฐ๋ฐ ์๋ ์ฌํ ์์คํ
๊ณผ ์ฌ์ธต์ ์ผ๋ก ๋์กฐํด๋ณผ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
AI์ ์ฌํ์ ์ํฅ ๋ฐ ๋ฏธ๋ ๋ฐฉํฅ์ ๊ดํ ๋ค๋ฅธ ๊ด์ ์ ์ ์ํ๋ ์ฐ๊ตฌ์ด๋ค.
ํ์ ์ฐ๊ตฌ
MLR-Bench ๋
ผ๋ฌธ์ ๊ฐ๋ฐฉํ ๋จธ์ ๋ฌ๋ ํ๊ฒฝ์์ AI ์์ด์ ํธ์ ์ฐ๊ตฌ ์คํ ๋ฅ๋ ฅ ํ๊ฐ๋ฅผ ํตํด, EXP-Bench์ ์ข
ํฉ์ ์คํ ๋ฒค์น๋งํฌ๋ฅผ ํ์ค์ ์ผ๋ก ํ์ฅํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
Exp-bench๋ AI๊ฐ ์์ ์ข
๋ฃํ ์ฐ๊ตฌ ์คํ์ ์ํํ ์ ์๋์ง๋ฅผ ํ๊ฐํ๋ฏ๋ก, SciReplicate-Bench์ ์๊ณ ๋ฆฌ์ฆ ์ฌํํ๊ฐ๋ฅผ ํ์ฅํ ์ฌ๋ก์ด๋ค.
ํ์ ์ฐ๊ตฌ
Exp-bench๋ AI ์์ด์ ํธ์ ๊ณผํ ์คํ ์ ์ฒด ์๋ํ ์๋์ ํ๊ณ๋ฅผ ํ๊ฐํ์ฌ, AI-Researcher๊ฐ ์ ์ํ ๋ฒค์น๋งํฌ์ ์๋์ง ํจ๊ณผ๋ฅผ ์ค๋ค.
ํ์ ์ฐ๊ตฌ
Towards end-to-end automation of AI research ๋
ผ๋ฌธ์ ์ค์ง์ ์ธ AI ์ฐ๊ตฌ ์์ ์๋ํ ๊ตฌ์กฐ์ ๊ตฌํ ์ฌ๋ก๋ฅผ ๋ณด์ฌ์ฃผ๋ฉฐ, Exp-bench์ ํ๊ฐ ๊ฒฐ๊ณผ๋ฅผ ํ์คํํ๋ ๋ฐฉํฅ์ ์ ์ํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
Exp-bench ๋
ผ๋ฌธ์ AI๊ฐ ๊ณผํ์ ์คํ์ ์๋ํํ ์ ์๋์ง ๋ฒค์น๋งํฌ๋ฅผ ์ ์ํ์ฌ Workflow reproducibility ์ธก๋ฉด์ ์ค์ ์๋ ์คํ๊ณผ ์ฐ๊ณํด ๋ณผ ์ ์์ต๋๋ค.
์์ฉ ์ฌ๋ก
Automated Extraction of Mechanical Constitutive Models ๋
ผ๋ฌธ์ LLM์ด ์๋ ์คํ ์ค๊ณยท์คํ์ ์ด๋ป๊ฒ ์์ฉ๋๋์ง ์ค์ ์ ์ฉ์ฌ๋ก๋ก Exp-bench์ ์ฐ๊ฒฐ๋๋ค.
๋ฐ๋ก /๋นํ
AI ๊ธฐ๋ฐ ์คํ ์ค๊ณ ๋ฐ ์๋ํ ํ๋ ์์ํฌ์ ์ค์ ์คํ ์ํ ๋ฅ๋ ฅ๊ณผ ํ๊ณ๋ฅผ ๋น๊ต ๋ถ์ํ ์ ์๋๋ก ํด์ค๋๋ค.