MLE-bench: Evaluating machine learning agents on machine learning engineering

์ €์ž: Jun Shern Chan, Neil Chowdhury, Oliver Jaffe, James Aung, Dane Sherburn, Evan Mays, Giulio Starace, Kevin Liu, Leon Maksin, Tejal Patwardhan, Lilian Weng, Aleksander Mฤ…dry | ๋‚ ์งœ: 2024 | ์ถœํŒ: ICLR 2025 📄 PDF


Essence

Figure 1

MLE-bench: AI ์—์ด์ „ํŠธ๋ฅผ ์œ„ํ•œ ์˜คํ”„๋ผ์ธ Kaggle ๊ฒฝ์Ÿ ํ™˜๊ฒฝ. ๊ฐ ๊ฒฝ์Ÿ์€ ์„ค๋ช…, ๋ฐ์ดํ„ฐ์…‹, ๋“ฑ๊ธ‰ ์ฝ”๋“œ ๋ฐ ๋ฆฌ๋”๋ณด๋“œ๋กœ ๊ตฌ์„ฑ๋จ

๋ณธ ๋…ผ๋ฌธ์€ AI ์—์ด์ „ํŠธ์˜ ๋จธ์‹ ๋Ÿฌ๋‹ ์—”์ง€๋‹ˆ์–ด๋ง(MLE) ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•ด Kaggle์˜ 75๊ฐœ ๊ฒฝ์Ÿ ๋ฌธ์ œ๋กœ ๊ตฌ์„ฑ๋œ ๋ฒค์น˜๋งˆํฌ MLE-bench๋ฅผ ์†Œ๊ฐœํ•œ๋‹ค. ์ตœ๊ณ  ์„ฑ๋Šฅ ๋ชจ๋ธ(o1-preview with AIDE ์Šค์บํด๋”ฉ)์ด 16.9%์˜ ๊ฒฝ์Ÿ์—์„œ Kaggle ๋™๋ฉ”๋‹ฌ ์ด์ƒ ์ˆ˜์ค€์„ ๋‹ฌ์„ฑํ–ˆ์œผ๋ฉฐ, ์ž์› ์Šค์ผ€์ผ๋ง๊ณผ ์‚ฌ์ „ํ•™์Šต ๋ฐ์ดํ„ฐ ์˜ค์—ผ์˜ ์˜ํ–ฅ์„ ๊ด‘๋ฒ”์œ„ํ•˜๊ฒŒ ๋ถ„์„ํ–ˆ๋‹ค.

Motivation

Achievement

Figure 2

3๊ฐœ์˜ ์ƒ์ดํ•œ ์—์ด์ „ํŠธ ํ”„๋ ˆ์ž„์›Œํฌ(MLAB, OpenHands, AIDE)์—์„œ ์‹ค์ œ ๊ฒฝ์Ÿ ์‹œ๋„์˜ ๊ถค์ . ์‹ค์ œ R&D์™€ ๊ฐ™์ด ์‹œํ–‰์ฐฉ์˜ค๋ฅผ ํ†ตํ•œ ๋ฐ˜๋ณต์  ํ•ด๊ฒฐ ํ•„์š”

  1. ์ข…ํ•ฉ์  ๋ฒค์น˜๋งˆํฌ ๊ตฌ์ถ•: 5,673๊ฐœ Kaggle ๊ฒฝ์Ÿ์—์„œ ๊ธฐ์ค€์— ๋งž๊ฒŒ 75๊ฐœ ๊ฒฝ์Ÿ์„ ์„ ๋ณ„(์ € ๋ณต์žก๋„ 30%, ์ค‘ ๋ณต์žก๋„ 50%, ๊ณ  ๋ณต์žก๋„ 20%)ํ•˜๊ณ , ๊ฐ ๊ฒฝ์Ÿ์— ๋Œ€ํ•ด ์„ค๋ช…, ๋ฐ์ดํ„ฐ์…‹, ๋“ฑ๊ธ‰ ์ฝ”๋“œ, ๋ฆฌ๋”๋ณด๋“œ ์Šค๋ƒ…์ƒท ์ œ๊ณต
  2. ์—์ด์ „ํŠธ ์„ฑ๋Šฅ ํ‰๊ฐ€ ๊ฒฐ๊ณผ:
    • o1-preview + AIDE: pass@1์—์„œ 16.9% ๋™๋ฉ”๋‹ฌ ๋‹ฌ์„ฑ๋ฅ 
    • pass@8 ์‹œ๋„ ์‹œ 34.1%๋กœ ์„ฑ๋Šฅ 2๋ฐฐ ํ–ฅ์ƒ
    • GPT-4o: 24์‹œ๊ฐ„์— 8.7%, 100์‹œ๊ฐ„์— 11.8%
    • ์—์ด์ „ํŠธ๋Š” ํ‘œ์ค€ ์ ‘๊ทผ๋ฒ•์œผ๋กœ ํ•ด๊ฒฐ ๊ฐ€๋Šฅํ•œ ๊ฒฝ์Ÿ์—์„œ๋Š” ์šฐ์ˆ˜ํ•˜๋‚˜, ๋””๋ฒ„๊น…๊ณผ ์˜ค๋ฅ˜ ๋ณต๊ตฌ์— ์–ด๋ ค์›€
  3. ์ž์› ์Šค์ผ€์ผ๋ง ๋ถ„์„: ๋Ÿฐํƒ€์ž„, ํ•˜๋“œ์›จ์–ด ์ž์›, pass@k ์‹œ๋„ ํšŸ์ˆ˜ ์ฆ๊ฐ€์— ๋”ฐ๋ฅธ ์„ฑ๋Šฅ ์ฒœ์žฅ ๋ถ„์„์œผ๋กœ ํ˜„์žฌ ์—์ด์ „ํŠธ์˜ ํ•œ๊ณ„ ๋ช…ํ™•ํ™”
  4. ๋ฐ์ดํ„ฐ ์˜ค์—ผ ๋ฐ ๋ถ€์ •ํ–‰์œ„ ํƒ์ง€: ์‚ฌ์ „ํ•™์Šต ๋ฐ์ดํ„ฐ ์˜ค์—ผ๊ณผ ์„ฑ๋Šฅ ๊ฐ„์˜ ๊ด€๊ณ„ ๋ถ„์„ ๋ฐ ํ‘œ์ ˆ ํƒ์ง€(Dolos), ๊ทœ์น™ ์œ„๋ฐ˜ ํƒ์ง€(GPT-4o ๊ธฐ๋ฐ˜) ๋„๊ตฌ ์ œ๊ณต

How

Figure 3

ํ—ˆ์šฉ๋œ ์‹œ๋„ ํšŸ์ˆ˜ ์ฆ๊ฐ€์— ๋”ฐ๋ฅธ ๋ฉ”๋‹ฌ ๋‹ฌ์„ฑ ๋น„์œจ ์ƒ์Šน. Pass@1์—์„œ Pass@8 ๋˜๋Š” Pass@24๋กœ ์ฆ๊ฐ€ ์‹œ ์„ฑ๋Šฅ ๊ฐœ์„  ๋ช…ํ™•

๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์„ฑ

Train-Test ๋ถ„ํ• 

ํ‰๊ฐ€ ์ง€ํ‘œ

๊ทœ์น™ ๋ฐ ๋ถ€์ •ํ–‰์œ„ ๋ฐฉ์ง€

์—์ด์ „ํŠธ ํ‰๊ฐ€ ์„ค์ •

Originality

Limitation & Further Study

Evaluation

์ดํ‰: ๋ณธ ๋…ผ๋ฌธ์€ ์‹ค์ œ Kaggle ๊ฒฝ์Ÿ 75๊ฐœ๋ฅผ ์ •๊ตํ•˜๊ฒŒ ์„ ๋ณ„ํ•˜์—ฌ AI ์—์ด์ „ํŠธ์˜ ํ˜„์‹ค์  ML ์—”์ง€๋‹ˆ์–ด๋ง ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ์ฒซ ์ข…ํ•ฉ ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ์‹œํ–ˆ์œผ๋ฉฐ, ๊ด‘๋ฒ”์œ„ํ•œ ์‹คํ—˜๊ณผ ๋ถ€์ •ํ–‰์œ„ ๋ฐฉ์ง€ ๋ฉ”์ปค๋‹ˆ์ฆ˜์œผ๋กœ ๋ฒค์น˜๋งˆํฌ์˜ ์‹ ๋ขฐ์„ฑ๊ณผ ์žฌํ˜„์„ฑ์„ ํ™•๋ณดํ–ˆ๋‹ค. ๋‹ค๋งŒ ํ˜„์žฌ ์—์ด์ „ํŠธ์™€ ์ตœ๊ณ  ์ˆ˜์ค€ Kaggler ๊ฐ„์˜ ํฐ ์„ฑ๋Šฅ ๊ฒฉ์ฐจ, ๊ทธ๋ฆฌ๊ณ  ๋””๋ฒ„๊น…๊ณผ ์˜ค๋ฅ˜ ๋ณต๊ตฌ ๋Šฅ๋ ฅ์˜ ํ•œ๊ณ„๋Š” ์ž์œจ์  ML ์—”์ง€๋‹ˆ์–ด๋ง์˜ ์‹คํ˜„ํ™”๋ฅผ

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๋‹ค๋ฅธ ์ ‘๊ทผ
MLAgentBench์™€ ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ ๋จธ์‹ ๋Ÿฌ๋‹ ์‹คํ—˜ ์ž๋™ํ™” ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ๊ณตํ•˜์ง€๋งŒ, 545๋Š” ํ‰๊ฐ€ ๋ฐ์ดํ„ฐ์™€ ์„ธ๋ถ€ ๋ฏธ์…˜ ๊ตฌ์„ฑ์ด ๋‹ค๋ฆ…๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋‘˜ ๋‹ค ์—์ด์ „ํŠธ์˜ ๋ฐ์ดํ„ฐ ๊ณผํ•™/๋ถ„์„ ์—ญ๋Ÿ‰์„ ํ‰๊ฐ€ํ•˜์ง€๋งŒ, ํ‰๊ฐ€ ๋ฐ์ดํ„ฐ์™€ ์ ‘๊ทผ ๋ฐฉ์‹์—์„œ ์ฐจ๋ณ„ํ™”๋œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
MLE-bench๋Š” ML ์—์ด์ „ํŠธ์˜ ์ž๋™ ์—ฐ๊ตฌ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ๋‹ค๋ฅธ ๋ฒค์น˜๋งˆํฌ๋กœ, ์‹œ์Šคํ…œ์  ์ž๋™ํ™”์™€ ํ‰๊ฐ€๋ฐฉ์‹์˜ ๋””์ž์ธ ์ฐจ์ด๋ฅผ ๋น„๊ตํ•  ์ˆ˜ ์žˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
MLE-bench(545)๋Š” ๋จธ์‹ ๋Ÿฌ๋‹/๋ฐ์ดํ„ฐ ๊ณผํ•™ ์—์ด์ „ํŠธ ํ‰๊ฐ€ ๋ฒค์น˜๋งˆํฌ๋กœ DSBench์™€ ์œ ์‚ฌํ•˜๋‚˜ ํ‰๊ฐ€ ๋ฒ”์œ„์™€ ๊ณผ์ œ ๊ตฌ์„ฑ์ด ์ƒ์ดํ•˜๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
545๋ฒˆ๊ณผ 550๋ฒˆ ๋ชจ๋‘ ML ๋ถ„์•ผ์˜ ์‹ค์ œ ๊ณผ์ œ์—์„œ LLM/AI ์—์ด์ „ํŠธ ํ‰๊ฐ€ ๋ฒค์น˜๋งˆํฌ๋ฅผ ๋‹ค๋ฃจ์ง€๋งŒ, 550๋ฒˆ์€ ์—ฐ๊ตฌ์ ๋ฌธ์ œ ํ’€์ด๋ฅผ ์ค‘์ ์œผ๋กœ ํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
AI ๊ธฐ๋ฐ˜ ํ•™์ˆ ์ž‘๋ฌธ ์‹œ์Šคํ…œ์—์„œ ๋ฐ์ดํ„ฐ ํ’ˆ์งˆยทํ‰๊ฐ€ ๋ฌธ์ œ๋ฅผ ๋‹ค๋ฃจ๋ฉฐ, MLE-bench์˜ ์ธ๊ณต์ง€๋Šฅ ์—”์ง€๋‹ˆ์–ด๋ง ๋ฒค์น˜๋งˆํฌ์™€ ๋น„๊ต ํ™œ์šฉ์ด ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
ํ…Œ์ด๋ธ” ๋ฐ ์‹ค์„ธ๊ณ„ ๋ฐ์ดํ„ฐ์…‹์—์„œ์˜ ๊ฐ•ํ™”์„ฑ ๊ฒ€์ฆ์„ ํ†ตํ•ด ์—์ด์ „ํŠธ ํ‰๊ฐ€ ๋ฐฉํ–ฅ์„ ์ œ์‹œํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
MLRC-Bench๋Š” ๋จธ์‹ ๋Ÿฌ๋‹ ์—ฐ๊ตฌ ๊ณผ์ œ์—์„œ ์–ธ์–ด ์—์ด์ „ํŠธ์˜ ์—ญ๋Ÿ‰์„ ํ‰๊ฐ€ํ•˜์ง€๋งŒ, ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์„ฑ ๋ฐฉ์‹๊ณผ ํ‰๊ฐ€ ์ฒด๊ณ„๊ฐ€ ๋‹ค๋ฅด๋ฏ€๋กœ ๋Œ€์•ˆ์  ๋ฒค์น˜๋งˆํฌ๋กœ ๋น„๊ตํ•  ๊ฐ€์น˜๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
MLE-bench ์—ญ์‹œ ์‹คํ–‰ ๊ธฐ๋ฐ˜์˜ ํ‰๊ฐ€๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ๋ฐ์ดํ„ฐ์™€ ์ฝ”๋“œ์˜ ์‹ค์ œ ์ž‘๋™์„ ํ†ตํ•ด LLM์˜ ๊ณผํ•™์  ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ๊ฒ€์ฆํ•˜๋ฏ€๋กœ, ์‹คํ–‰ ์ค‘์‹ฌ ํ‰๊ฐ€ ๊ด€์ ์—์„œ ๊ฐ™์ด ๋ณด๋ฉด ์ข‹์Šต๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
MLE ์—์ด์ „ํŠธ์˜ ์‹ค์ œ ๋จธ์‹ ๋Ÿฌ๋‹ ํƒœ์Šคํฌ ์„ฑ๋Šฅ ํ‰๊ฐ€ ๋ฒค์น˜๋งˆํฌ๋กœ, ๋ถ„์•ผ ํ™•๋Œ€์™€ ํ‰๊ฐ€์ง€์  ํƒ์ƒ‰์— ๋„์›€์ด ๋˜๋Š” ์ตœ์‹  ์‚ฌ๋ก€์ž…๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
MLE-bench(545)๋Š” ๋จธ์‹ ๋Ÿฌ๋‹ ์—์ด์ „ํŠธ์˜ ๋‹ค์–‘ํ•œ ๋ฌธ์ œ ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ๊ณตํ•˜๋ฉฐ, 421์˜ Text-to-SQL ์ž‘์—… ์™ธ์—๋„ ์—์ด์ „ํŠธ ์ผ๋ฐ˜ํ™” ํ‰๊ฐ€์— ์ ํ•ฉํ•˜๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
MLE-bench ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜ ๊ณผํ•™์  ์ถ”๋ก  ๋ฐ ๋ถˆํ™•์‹ค์„ฑ ํ‰๊ฐ€๋ฅผ ์œ„ํ•œ ์ƒˆ๋กœ์šด ๋ฒค์น˜๋งˆํฌ ์„ค๊ณ„๋กœ์„œ ํ™•๋ฅ  ๊ธฐ๋ฐ˜ ๋ถˆํ™•์‹ค์„ฑ ์ •๋Ÿ‰ํ™”์˜ ์‹ค์ œ ํ‰๊ฐ€ ๋ฐฉ๋ฒ•์„ ์ถ”๊ฐ€๋กœ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
R&D-Agent ๋…ผ๋ฌธ์€ ์‹ค์ œ ์‚ฐ์—…ํ˜• AI ์†”๋ฃจ์…˜ ๊ฐœ๋ฐœ์— ์ดˆ์ ์„ ๋งž์ถ˜ ์—์ด์ „ํŠธ ๋ฒค์น˜๋งˆํ‚น์„ ๋‹ค๋ฃจ๋ฉฐ, MLE-bench ์ดํ›„์˜ ์‹ค์šฉ์  ํ™•์žฅ์„ฑ์„ ๋ณด์—ฌ์ค€๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
365๋ฒˆ์€ 545๋ฒˆ๊ณผ ์œ ์‚ฌํ•œ AI ์—์ด์ „ํŠธ์˜ ์ž๋™ํ™”์™€ ์ธ๊ฐ„ ์—…๋ฌด ๋ณด์กฐ ํšจ๊ณผ, ์‹ค๋ฌด ์ ์šฉ ๋ฌธ์ œ๋ฅผ ๋” ๋‹ค์–‘ํ•œ ์ž‘์—… ํ™˜๊ฒฝ์—์„œ ๋ถ„์„ํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
545์˜ MLE-bench๋Š” ๊ธฐ๊ณ„ํ•™์Šต ์—ฐ๊ตฌ๋กœ ๋ฒ”์œ„๋ฅผ ํ™•์žฅํ•˜์—ฌ, 528์˜ ์ƒ์˜ํ•™ ๋ฐ์ดํ„ฐ ๊ณผํ•™ ํŠนํ™” ํ›ˆ๋ จ ํ™˜๊ฒฝ์„ ๋” ๋„“์€ ๋ฌธ์ œ๋กœ ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
MLE-bench๋Š” LLM ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ์˜ ๋จธ์‹ ๋Ÿฌ๋‹ ํƒœ์Šคํฌ ํ‰๊ฐ€ ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ์‹œ, ์‹ค์งˆ์  ๋ฒค์น˜๋งˆํ‚น ์‘์šฉ์„ ๋ณด์—ฌ์ค€๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
์ธ๊ณต์ง€๋Šฅ ๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ ์—์ด์ „ํŠธ๋ฅผ ์‹ค์ œ ๋จธ์‹ ๋Ÿฌ๋‹ ๊ณผ์ œ์™€ ์—ฐ๋™ํ•˜์—ฌ ํ‰๊ฐ€ํ•˜๋Š” ๋ฒค์น˜๋งˆํ‚น ํ™˜๊ฒฝ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •