Exp-bench: Can ai conduct ai research experiments? arXiv preprint arXiv:2505.24785, 2025.

์ €์ž: Patrick Tser Jern Kon, Jiachen Liu, Xinyi Zhu, Qiuyi Ding, Jingjia Peng, Jiarong Xing, Yibo Huang, Yiming Qiu, Jayanth Srinivasa, Myungjin Lee, Mosharaf Chowdhury, Matei Zaharia, Ang Chen | ๋‚ ์งœ: 2025 | DOI: arXiv:2505.24785 📄 PDF


Essence

Figure 1

EXP-Bench๋Š” AI ์—์ด์ „ํŠธ๊ฐ€ ๋™๋ฃŒ ์‹ฌ์‚ฌ ๋…ผ๋ฌธ์—์„œ ์ถ”์ถœํ•œ ์™„์ „ํ•œ ์—ฐ๊ตฌ ์‹คํ—˜์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋Š”์ง€๋ฅผ ํ‰๊ฐ€ํ•˜๋Š” ๋ฒค์น˜๋งˆํฌ๋กœ, ์—ฐ๊ตฌ ์งˆ๋ฌธ์œผ๋กœ๋ถ€ํ„ฐ ๊ฐ€์„ค ์ˆ˜๋ฆฝ, ์‹คํ—˜ ์„ค๊ณ„, ๊ตฌํ˜„, ์‹คํ–‰, ๊ฒฐ๋ก  ๋„์ถœ๊นŒ์ง€์˜ ์ „์ฒด ๊ณผ์ •์„ ํ‰๊ฐ€ํ•œ๋‹ค.

AI๊ฐ€ ์™„์ „ํ•œ ์ข…๋ฃŒ-๋Œ€-์ข…๋ฃŒ(end-to-end) ์—ฐ๊ตฌ ์‹คํ—˜์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋Š” ๋Šฅ๋ ฅ์„ ์ฒด๊ณ„์ ์œผ๋กœ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•ด EXP-Bench ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ์‹œํ•˜๋ฉฐ, NeurIPS/ICLR ๋…ผ๋ฌธ 461๊ฐœ ์ž‘์—…์—์„œ ํ˜„์žฌ AI ์—์ด์ „ํŠธ๋“ค์ด 0.5%์˜ ์™„์ „ ์‹คํ—˜ ์„ฑ๊ณต๋ฅ ์— ๊ทธ์น˜๊ณ  ์žˆ์Œ์„ ๋ณด์˜€๋‹ค.

Motivation

Achievement

Figure 2

ICLR 2024 MogaNet ๋…ผ๋ฌธ์—์„œ ์ถ”์ถœํ•œ ๋‹จ์ผ ์—ฐ๊ตฌ ์ž‘์—…์˜ ์˜ˆ์‹œ๋กœ, ์—ฐ๊ตฌ ์งˆ๋ฌธ, ๊ณ ์ˆ˜์ค€ ๋ฐฉ๋ฒ• ์„ค๋ช…, ์Šคํƒ€ํ„ฐ ์ฝ”๋“œ๋ฅผ ์ œ๊ณต๋ฐ›๋Š” ํ˜•ํƒœ๋ฅผ ๋ณด์—ฌ์ค€๋‹ค.

Figure 3

EXP-Bench ๋ฐ์ดํ„ฐ์…‹์€ Deep Learning, Reinforcement Learning, Computer Vision, Generative Models ๋“ฑ ๋‹ค์–‘ํ•œ ML ์—ฐ๊ตฌ ๋ถ„์•ผ์—์„œ ๊ท ํ˜•์žกํžŒ ์ž‘์—…๋“ค๋กœ ๊ตฌ์„ฑ๋˜์–ด ์žˆ์œผ๋ฉฐ, NeurIPS(53%)์™€ ICLR(47%)์—์„œ ์ถ”์ถœ๋˜์—ˆ๋‹ค.

  1. ํฌ๊ด„์  ๋ฒค์น˜๋งˆํฌ ๊ตฌ์„ฑ: NeurIPS/ICLR 2024์˜ 51๊ฐœ ๋…ผ๋ฌธ์—์„œ 461๊ฐœ์˜ ์—ฐ๊ตฌ ์ž‘์—…(12,737๊ฐœ ์„ธ๋ถ„ํ™”๋œ ๋ถ€๋ถ„ ์ž‘์—…)์„ ์ถ”์ถœํ•˜์—ฌ, ์ปดํ“จํ„ฐ ๋น„์ „, NLP, ๊ฐ•ํ™”ํ•™์Šต ๋“ฑ ๋‹ค์–‘ํ•œ AI ํ•˜์œ„๋ถ„์•ผ๋ฅผ ํฌํ•จํ•œ ๋ฒค์น˜๋งˆํฌ ๊ตฌ์ถ•
  2. ํ™•์žฅ ๊ฐ€๋Šฅํ•œ ๋ฐ˜์ž๋™ํ™” ํŒŒ์ดํ”„๋ผ์ธ: ์†Œ์Šค ์„ ํƒ/ํ•„ํ„ฐ๋ง โ†’ ์‹คํ—˜ ์ ˆ์ฐจ ์ถ”์ถœ โ†’ ๊ตฌํ˜„ ์ถ”์ถœ์˜ 3๋‹จ๊ณ„๋กœ ๋…ผ๋ฌธ๊ณผ ์ฝ”๋“œ๋ฒ ์ด์Šค์—์„œ ์‚ฐ์žฌ๋œ ์„ธ๋ถ€์ •๋ณด๋ฅผ ์ฒด๊ณ„์ ์œผ๋กœ ์ถ”์ถœํ•˜๋ฉฐ, ์‹คํ–‰ ๊ธฐ๋ฐ˜ ๊ฒ€์ฆ์œผ๋กœ ๊ธฐ๋Šฅ์„ฑ์„ ๋ณด์žฅ
  3. ์‹ฌ์ธต ํ‰๊ฐ€ ๋ถ„์„: ์„ค๊ณ„(design), ๊ตฌํ˜„(implementation), ์‹คํ–‰(execution), ๊ฒฐ๋ก (conclusion)์˜ 4๊ฐœ ํ•ต์‹ฌ ๋‹จ๊ณ„ ํ‰๊ฐ€๋ฅผ ํ†ตํ•ด OpenHands์™€ IterativeAgent ๋“ฑ ์ตœ์‹  ์—์ด์ „ํŠธ์˜ ํ•œ๊ณ„๋ฅผ ์ •๋Ÿ‰ํ™”:
    • ์„ค๊ณ„ ์ •ํ™•๋„: 20-35%
    • ์‹คํ–‰ ๊ฐ€๋Šฅํ•œ ์™„์ „ ์‹คํ—˜: 0.5%
    • ์„ค๊ณ„ ๋ณ€์ˆ˜ ์˜ค๋ถ„๋ฅ˜: 16.1%
    • ํ•„์ˆ˜ ๊ตฌํ˜„ ์š”์†Œ ๋ˆ„๋ฝ: 39.7%
    • ํ™˜๊ฒฝ/์˜์กด์„ฑ ์˜ค์„ค์ •: 29.4%

How

Figure 4

EXP-Bench ๋ฐ˜์ž๋™ํ™” ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ• ํŒŒ์ดํ”„๋ผ์ธ์˜ 3๋‹จ๊ณ„ ํ”„๋กœ์„ธ์Šค

Dataset Specification:

๋ฐ˜์ž๋™ํ™” ๊ตฌ์ถ• ํŒŒ์ดํ”„๋ผ์ธ:

ํ‰๊ฐ€ ๋ฉ”ํŠธ๋ฆญ:

Originality

Limitation & Further Study

Evaluation

์ดํ‰: EXP-Bench๋Š” AI ์—์ด์ „ํŠธ์˜ ์ข…๋ฃŒ-๋Œ€-์ข…๋ฃŒ ์—ฐ๊ตฌ ์‹คํ—˜ ์ˆ˜ํ–‰ ๋Šฅ๋ ฅ์„ ์ฒ˜์Œ์œผ๋กœ ์ฒด๊ณ„์ ์œผ๋กœ ํ‰๊ฐ€ํ•˜๋Š” ์ค‘์š”ํ•œ ๋ฒค์น˜๋งˆํฌ์ด๋ฉฐ, ๋ฐ˜์ž๋™ํ™” ํŒŒ์ดํ”„๋ผ์ธ์„ ํ†ตํ•ด ๋Œ€๊ทœ๋ชจ ๊ณ ์ถฉ์‹ค๋„ ๋ฐ์ดํ„ฐ์…‹์„ ๊ตฌ์ถ•ํ•œ ์ ์ด ์ฃผ๋ชฉํ•  ๋งŒํ•˜๋‹ค. ๋‹ค๋งŒ ํŒŒ์ดํ”„๋ผ์ธ์˜ ์ž๋™ํ™” ์ •๋„์™€ ๋‹ค์ค‘ ์œ ํšจ ํ•ด๋ฒ• ์ธ์ • ๋ฉ”์ปค๋‹ˆ์ฆ˜ ๊ฐœ์„ ์ด ํ–ฅํ›„ ๊ณผ์ œ์ด๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๊ณผํ•™ ์—ฐ๊ตฌ์—์„œ AI ๋„๊ตฌ ์‚ฌ์šฉ์˜ ์ธ์‹๋ก ์  ๋ฌธ์ œ์— ๋Œ€ํ•œ ์ด๋ก ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Towards a Science of AI Agent Reliability ๋…ผ๋ฌธ์€ AI ์—์ด์ „ํŠธ ์—ฐ๊ตฌ ์‹คํ—˜ ์‹ ๋ขฐ์„ฑ ํ‰๊ฐ€์˜ ์ด๋ก ์ /์ œ๋„์  ๋…ผ์˜๋ฅผ ์ œ๊ณตํ•ด, EXP-Bench์˜ ๋™๊ธฐ์™€ ๋ถ„์„ ์‹œ๊ฐ์˜ ๊ธฐ๋ฐ˜์ด ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Exp-bench๋Š” AI ์—ฐ๊ตฌ ์‹คํ—˜ ์ž๋™ํ™” ์ธก๋ฉด์—์„œ ResearchGym๊ณผ ๊ฐ™์€ ๋ชฉํ‘œ๋ฅผ ๊ฐ€์ง„ ๊ธฐ์ดˆ ์—ฐ๊ตฌ๋กœ ์—ฐ๊ฒฐ๋œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
The AI Scientist ๋…ผ๋ฌธ์€ ์ข…๋ฃŒํ˜• ๊ณผํ•™ ์‹คํ—˜ ์ž๋™ํ™”์˜ ์„ฑ๊ณต ์‚ฌ๋ก€์™€ ํ•œ๊ณ„๋ฅผ ์‹ค์ฆ์ ์œผ๋กœ ๋ณด์—ฌ์ฃผ์–ด, Exp-bench ๋ฐ์ดํ„ฐ์™€ ์„ฑ๋Šฅ ์ฐจ์ด๋ฅผ ๋ช…๋ฃŒํžˆ ๋ณด์—ฌ์ค€๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๊ณผํ•™์  ๋ฐ์ดํ„ฐ ๋ถ„์„ ์ž๋™ํ™”๋ฅผ ์œ„ํ•œ LLM ์—์ด์ „ํŠธ์˜ ๋‹ค์ค‘ ๋ถ„์„ ๊ฒฝ๋กœ๋ฅผ ํƒ๊ตฌํ•˜๋Š” ๊ด€๋ จ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Exp-bench ๋…ผ๋ฌธ์€ AI ์—ฐ๊ตฌ ์‹คํ—˜์— ํŠนํ™”๋œ ๋ฒค์น˜๋งˆํฌ๋กœ ์‹ค์ œ LLM ์„ฑ๋Šฅ ํ‰๊ฐ€์˜ ๋‹ค์–‘ํ•œ ์ ‘๊ทผ์„ ๋ณด์—ฌ์ค€๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
MLGym ๋…ผ๋ฌธ์€ AI ์—ฐ๊ตฌ ์‹คํ—˜ ์ž๋™ํ™” ๋ฐ ์—์ด์ „ํŠธ์˜ ํšจ์šฉ์„ฑ ๋ฒค์น˜๋งˆํ‚น์„ ์ค‘์ ์œผ๋กœ ํ•˜์—ฌ, Exp-bench์˜ ์ œํ•œ์ ์ธ ์™„์ „ ์ž๋™ํ™”์œจ๊ณผ ๋น„๊ตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋‹จ์ผ์„ธํฌ ์ „์‚ฌ์ฒด ๋ถ„์„์„ ์œ„ํ•œ AI ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•๋ก ์˜ ๊ด€๋ จ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
AI์™€ ๊ณผํ•™ ์—ฐ๊ตฌ์˜ ๊ด€๊ณ„๋ฅผ ๋‹ค๋ฅธ ์‹œ๊ฐ์—์„œ ๋ถ„์„ํ•˜๋Š” ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
326๋ฒˆ ๋…ผ๋ฌธ์€ AI ์—ฐ๊ตฌ์ž‘์—…์˜ ์ž๋™ํ™” ๊ฐ€๋Šฅ์„ฑ์„ ์‹คํ—˜์  ๊ด€์ ์—์„œ ๊ฒ€์ฆํ•˜๋ฏ€๋กœ 145๋ฒˆ์˜ ๋…ผ๋ฌธ ๊ณ„๋ณด ๊ธฐ๋ฐ˜ ์ž๋™ ์žฌํ˜„ ์‹œ์Šคํ…œ๊ณผ ์‹ฌ์ธต์ ์œผ๋กœ ๋Œ€์กฐํ•ด๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
AI์˜ ์‚ฌํšŒ์  ์˜ํ–ฅ ๋ฐ ๋ฏธ๋ž˜ ๋ฐฉํ–ฅ์— ๊ด€ํ•œ ๋‹ค๋ฅธ ๊ด€์ ์„ ์ œ์‹œํ•˜๋Š” ์—ฐ๊ตฌ์ด๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
MLR-Bench ๋…ผ๋ฌธ์€ ๊ฐœ๋ฐฉํ˜• ๋จธ์‹ ๋Ÿฌ๋‹ ํ™˜๊ฒฝ์—์„œ AI ์—์ด์ „ํŠธ์˜ ์—ฐ๊ตฌ ์‹คํ–‰ ๋Šฅ๋ ฅ ํ‰๊ฐ€๋ฅผ ํ†ตํ•ด, EXP-Bench์˜ ์ข…ํ•ฉ์  ์‹คํ—˜ ๋ฒค์น˜๋งˆํฌ๋ฅผ ํ˜„์‹ค์ ์œผ๋กœ ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Exp-bench๋Š” AI๊ฐ€ ์™„์ „ ์ข…๋ฃŒํ˜• ์—ฐ๊ตฌ ์‹คํ—˜์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋Š”์ง€๋ฅผ ํ‰๊ฐ€ํ•˜๋ฏ€๋กœ, SciReplicate-Bench์˜ ์•Œ๊ณ ๋ฆฌ์ฆ˜ ์žฌํ˜„ํ‰๊ฐ€๋ฅผ ํ™•์žฅํ•œ ์‚ฌ๋ก€์ด๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Exp-bench๋Š” AI ์—์ด์ „ํŠธ์˜ ๊ณผํ•™ ์‹คํ—˜ ์ „์ฒด ์ž๋™ํ™” ์‹œ๋„์™€ ํ•œ๊ณ„๋ฅผ ํ‰๊ฐ€ํ•˜์—ฌ, AI-Researcher๊ฐ€ ์ œ์‹œํ•œ ๋ฒค์น˜๋งˆํฌ์™€ ์‹œ๋„ˆ์ง€ ํšจ๊ณผ๋ฅผ ์ค€๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Towards end-to-end automation of AI research ๋…ผ๋ฌธ์€ ์‹ค์งˆ์ ์ธ AI ์—ฐ๊ตฌ ์™„์ „ ์ž๋™ํ™” ๊ตฌ์กฐ์™€ ๊ตฌํ˜„ ์‚ฌ๋ก€๋ฅผ ๋ณด์—ฌ์ฃผ๋ฉฐ, Exp-bench์˜ ํ‰๊ฐ€ ๊ฒฐ๊ณผ๋ฅผ ํ˜„์‹คํ™”ํ•˜๋Š” ๋ฐฉํ–ฅ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Exp-bench ๋…ผ๋ฌธ์€ AI๊ฐ€ ๊ณผํ•™์  ์‹คํ—˜์„ ์ž๋™ํ™”ํ•  ์ˆ˜ ์žˆ๋Š”์ง€ ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ์‹œํ•˜์—ฌ Workflow reproducibility ์ธก๋ฉด์„ ์‹ค์ œ ์ž๋™ ์‹คํ—˜๊ณผ ์—ฐ๊ณ„ํ•ด ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
Automated Extraction of Mechanical Constitutive Models ๋…ผ๋ฌธ์€ LLM์ด ์ž๋™ ์‹คํ—˜ ์„ค๊ณ„ยท์‹คํ–‰์— ์–ด๋–ป๊ฒŒ ์‘์šฉ๋˜๋Š”์ง€ ์‹ค์ œ ์ ์šฉ์‚ฌ๋ก€๋กœ Exp-bench์™€ ์—ฐ๊ฒฐ๋œ๋‹ค.
๋ฐ˜๋ก /๋น„ํŒ
AI ๊ธฐ๋ฐ˜ ์‹คํ—˜ ์„ค๊ณ„ ๋ฐ ์ž๋™ํ™” ํ”„๋ ˆ์ž„์›Œํฌ์˜ ์‹ค์ œ ์‹คํ—˜ ์ˆ˜ํ–‰ ๋Šฅ๋ ฅ๊ณผ ํ•œ๊ณ„๋ฅผ ๋น„๊ต ๋ถ„์„ํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•ด์ค๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •