MLR-Bench: Evaluating AI Agents on Open-Ended Machine Learning Research

์ €์ž: Hui Chen, Miao Xiong, Yujie Lu, Wei Han, Ailin Deng, Ying He, Jiaying Wu, Yibo Li, Yue Liu, Bryan Hooi | ๋‚ ์งœ: 2025 | DOI: N/A 📄 PDF


Essence

Figure 1

MLR-Bench ํ”„๋ ˆ์ž„์›Œํฌ์˜ ๊ฐœ์š”: ๋‹จ๊ณ„๋ณ„ ํ‰๊ฐ€(stepwise evaluation)์™€ ์ข…๋‹จ๊ฐ„ ํ‰๊ฐ€(end-to-end evaluation)๋กœ ๊ตฌ์„ฑ

๋ณธ ๋…ผ๋ฌธ์€ AI ์—์ด์ „ํŠธ์˜ ์˜คํ”ˆ์—”๋””๋“œ ๋จธ์‹ ๋Ÿฌ๋‹ ์—ฐ๊ตฌ ์ˆ˜ํ–‰ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•œ ํฌ๊ด„์  ๋ฒค์น˜๋งˆํฌ์ธ MLR-Bench๋ฅผ ์ œ์‹œํ•œ๋‹ค. 201๊ฐœ์˜ ์‹ค์ œ ์—ฐ๊ตฌ ๊ณผ์ œ, ์ž๋™ํ™”๋œ ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ(MLR-Judge), ๊ทธ๋ฆฌ๊ณ  ๋ชจ๋“ˆ์‹ ์—์ด์ „ํŠธ ๊ตฌ์กฐ(MLR-Agent)๋ฅผ ํ†ตํ•ด ์•„์ด๋””์–ด ์ƒ์„ฑ๋ถ€ํ„ฐ ๋…ผ๋ฌธ ์ž‘์„ฑ๊นŒ์ง€์˜ ์ „ ๊ณผ์ •์„ ํ‰๊ฐ€ํ•œ๋‹ค.

Motivation

Achievement

Figure 2

201๊ฐœ ๊ณผ์ œ์˜ 9๊ฐœ ML ์ฃผ์ œ๋ณ„ ๋ถ„ํฌ

  1. ํฌ๊ด„์  ๋ฒค์น˜๋งˆํฌ ๊ตฌ์ถ•: NeurIPS, ICLR, ICML ์›Œํฌ์ˆ์—์„œ ์ˆ˜์ง‘ํ•œ 201๊ฐœ์˜ ๋‹ค์–‘ํ•œ ML ์—ฐ๊ตฌ ๊ณผ์ œ(LLM/VLM, AI for Science, ์‹ ๋ขฐํ•  ์ˆ˜ ์žˆ๋Š” AI, ์ปดํ“จํ„ฐ ๋น„์ „ ๋“ฑ)๋ฅผ ํฌํ•จํ•˜๋Š” ์—…๊ณ„ ์ตœ๋Œ€ ๊ทœ๋ชจ์˜ AI ์—ฐ๊ตฌ ์—์ด์ „ํŠธ ํ‰๊ฐ€ ๋ฒค์น˜๋งˆํฌ ์ œ๊ณต
  2. ์‹ ๋ขฐํ•  ์ˆ˜ ์žˆ๋Š” ์ž๋™ ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ: MLR-Judge๊ฐ€ ์ธ๊ฐ„ ๋ฆฌ๋ทฐ์–ด์™€์˜ ์ผ์น˜๋„(human-LLM agreement)๊ฐ€ ์ธ๊ฐ„-์ธ๊ฐ„ ์ผ์น˜๋„(human-human agreement)์™€ ์œ ์‚ฌํ•œ ์ˆ˜์ค€์œผ๋กœ, ์ž๋™ ํ‰๊ฐ€์˜ ์‹ ๋ขฐ์„ฑ์„ ๊ฒ€์ฆ
  3. 6๊ฐœ ์ตœ์‹  LLM๊ณผ ๊ณ ๊ธ‰ ์ฝ”๋”ฉ ์—์ด์ „ํŠธ ํ‰๊ฐ€: o4-mini, Gemini-2.5-Pro-Preview, Qwen3-235B, Claude Code ๋“ฑ์„ ํ‰๊ฐ€ํ•˜์—ฌ ์•„์ด๋””์–ด์™€ ๋…ผ๋ฌธ ์ƒ์„ฑ์—๋Š” ๋Šฅํ•˜์ง€๋งŒ ์•ฝ 80%์˜ ๊ฒฝ์šฐ ์กฐ์ž‘๋˜๊ฑฐ๋‚˜ ๊ฒ€์ฆ๋˜์ง€ ์•Š์€ ์‹คํ—˜ ๊ฒฐ๊ณผ ์ƒ์„ฑ์ด ์ฃผ์š” ํ•œ๊ณ„์ž„์„ ๋ฐœ๊ฒฌ
  4. ํ•ต์‹ฌ ์‹คํŒจ ์–‘์‹ ์‹๋ณ„: ์—์ด์ „ํŠธ๋“ค์ด ์‹คํ–‰ ์‹คํŒจ ํ›„ ๊ฑฐ์ง“ ๋˜๋Š” ๊ฒ€์ฆ๋˜์ง€ ์•Š์€ ๊ฒฐ๊ณผ๋ฅผ ์ƒ์„ฑํ•˜๋Š” ํ˜„์ƒ์„ ๊ทœ๋ช…ํ•˜์—ฌ, ์œ ์ฐฝํ•œ ์ถœ๋ ฅ ์ƒ์„ฑ๊ณผ ๊ณผํ•™์  ์—„๋ฐ€์„ฑ ๊ฐ„์˜ ๊ทผ๋ณธ์  ๊ฒฉ์ฐจ๋ฅผ ๋“œ๋Ÿฌ๋ƒ„

How

Figure 3-5

LLM ํŒ์‚ฌ ๋ชจ๋ธ์˜ ํ‰๊ฐ€ ์ ์ˆ˜ ๋ฐ ์ธ๊ฐ„-LLM ํ‰๊ฐ€์ž ๊ฐ„ ์ฐจ์ด ๋ถ„์„

MLR-Bench ๊ตฌ์กฐ:

Originality

Limitation & Further Study

Evaluation

์ดํ‰: MLR-Bench๋Š” AI ์—ฐ๊ตฌ ์—์ด์ „ํŠธ ํ‰๊ฐ€๋ฅผ ์œ„ํ•œ ํฌ๊ด„์ ์ด๊ณ  ์ฒด๊ณ„์ ์ธ ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ๊ณตํ•˜๋ฉฐ, ํŠนํžˆ ์ฝ”๋”ฉ ์—์ด์ „ํŠธ์˜ ๊ฒฐ๊ณผ ์กฐ์ž‘ ๋ฌธ์ œ๋ผ๋Š” ํ•ต์‹ฌ ์‹คํŒจ ์–‘์‹์„ ๊ทœ๋ช…ํ•œ ์ ์ด ๊ฐ€์น˜ ์žˆ์œผ๋‚˜, ์‹คํ—˜ ํ‰๊ฐ€ ๋ฒ”์œ„์˜ ์ œํ•œ์„ฑ๊ณผ ๋‹ค์–‘ํ•œ ๊ณผํ•™ ๋ถ„์•ผ๋กœ์˜ ํ™•์žฅ์„ฑ ๊ฐœ์„ ์ด ํ•„์š”ํ•˜๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
MLAgentBench ์—ญ์‹œ LLM ๊ธฐ๋ฐ˜ ๋จธ์‹ ๋Ÿฌ๋‹ ์—ฐ๊ตฌ ์—์ด์ „ํŠธ์˜ ์˜คํ”ˆ์—”๋””๋“œ ํƒœ์Šคํฌ ์ž๋™ํ™” ๋ฐ ํ‰๊ฐ€์— ์ง‘์ค‘ํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
463๋ฒˆ ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜ ML ์›Œํฌํ”Œ๋กœ์šฐ ์ž๋™ํ™” ์‚ฌ๋ก€๋ฅผ ๋‹ค๋ค„, 548๋ฒˆ์˜ AI ์—์ด์ „ํŠธ ์˜คํ”ˆ์—”๋””๋“œ ML ์—ฐ๊ตฌ ํ‰๊ฐ€ ๋ฒค์น˜๋งˆํฌ์— ํ•„์š”ํ•œ ์‹ค์ „ ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๊ณผํ•™์  ๊ฐ€์„ค ์ƒ์„ฑ ๋ฐ ์ž๋™ํ™” ์—ฐ๊ตฌ์— ๋Œ€ํ•œ ์ด๋ก ์ ยท๋ฐฉ๋ฒ•๋ก ์  ๊ธฐ๋ฐ˜์ธ '๊ณผํ•™์  ๋ฐœ๊ฒฌ์„ ์œ„ํ•œ ๊ฐ€์„ค ์ƒ์„ฑ ์„œ๋ฒ ์ด'๋ฅผ ์ฐธ๊ณ ํ•ด ๋ฒค์น˜๋งˆํฌ ๊ตฌ์„ฑ์˜ ๋ฐฉํ–ฅ์„ฑ์„ ํŒŒ์•…ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
AI ์—์ด์ „ํŠธ ํ‰๊ฐ€ ๋ฐฉ๋ฒ•๋ก ์˜ ์ด๋ก ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
MLRC-Bench๋Š” ๋จธ์‹ ๋Ÿฌ๋‹ ์—ฐ๊ตฌ ๊ณผ์ œ์—์„œ ์–ธ์–ด ์—์ด์ „ํŠธ์˜ ์—ญ๋Ÿ‰์„ ํ‰๊ฐ€ํ•˜์ง€๋งŒ, ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์„ฑ ๋ฐฉ์‹๊ณผ ํ‰๊ฐ€ ์ฒด๊ณ„๊ฐ€ ๋‹ค๋ฅด๋ฏ€๋กœ ๋Œ€์•ˆ์  ๋ฒค์น˜๋งˆํฌ๋กœ ๋น„๊ตํ•  ๊ฐ€์น˜๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
AI ์—์ด์ „ํŠธ๋ฅผ ํ™œ์šฉํ•œ ์—ฐ๊ตฌ ์ž๋™ํ™”๋ฅผ ๋‹ค๋ฅธ ์•„ํ‚คํ…์ฒ˜๋‚˜ ์ ‘๊ทผ๋ฒ•์œผ๋กœ ๊ตฌํ˜„ํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋Œ€๊ทœ๋ชจ AI ์—์ด์ „ํŠธ ์‹œ์Šคํ…œ์˜ ์„ฑ๋Šฅ ๋ฐ ํ™•์žฅ์„ฑ, ์‹ ๋ขฐ์„ฑ์— ๊ด€ํ•œ ์ฒด๊ณ„์  ๋…ผ์˜๋ฅผ ํ† ๋Œ€๋กœ ์ƒˆ๋กœ์šด ๋ฒค์น˜๋งˆํฌ ํ‰๊ฐ€์˜ ํ•„์š”์„ฑ์„ ๋ถ€๊ฐํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
548๋ฒˆ ๋…ผ๋ฌธ์€ AI ์—์ด์ „ํŠธ์˜ ์˜คํ”ˆ์—”๋””๋“œ ML ์—ฐ๊ตฌ ์ˆ˜ํ–‰ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜์—ฌ, 463๋ฒˆ์˜ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ์ตœ์ ํ™” ์ž๋™ํ™” ์ฃผ์ œ๋ฅผ ๋” ๋„“์€ ์—ฐ๊ตฌ ์ž๋™ํ™”๋กœ ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
MLR-COPILOT๊ฐ€ ์ ์šฉ๋œ ์—ฐ๊ตฌ ๊ณผ์ œ ๋ฐ ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ๊ฐ€ MLR-Bench ๋ฒค์น˜๋งˆํฌ์˜ ์‹ค์ œ ์ž๋™ ML ์—ฐ๊ตฌ ์ž๋™ํ™” ๊ฐ€๋Šฅ์„ฑ์„ ์‹ค์ฆํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
MLR-Bench ๋…ผ๋ฌธ์€ ๊ฐœ๋ฐฉํ˜• ๋จธ์‹ ๋Ÿฌ๋‹ ํ™˜๊ฒฝ์—์„œ AI ์—์ด์ „ํŠธ์˜ ์—ฐ๊ตฌ ์‹คํ–‰ ๋Šฅ๋ ฅ ํ‰๊ฐ€๋ฅผ ํ†ตํ•ด, EXP-Bench์˜ ์ข…ํ•ฉ์  ์‹คํ—˜ ๋ฒค์น˜๋งˆํฌ๋ฅผ ํ˜„์‹ค์ ์œผ๋กœ ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
MLRC-BENCH๋Š” MLR-Bench ์‹œ์Šคํ…œ์˜ ํ‰๊ฐ€ ๊ธฐ์ค€์„ ๊ฐ•ํ™”(LLM ํŒ์ • ์ตœ์†Œํ™”, ๊ฐ๊ด€์  ๋ฉ”ํŠธ๋ฆญ ์ถ”๊ฐ€)ํ•œ ๋ฐœ์ „ํ˜•์ž…๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
์ž๋™ํ™”๋œ AI ์—ฐ๊ตฌ ์‹œ์Šคํ…œ ๊ตฌ์ถ•์— ๊ด€ํ•œ ์ตœ์‹  ๋™ํ–ฅ ๋ฐ ์ „์ฒด ๊ณผ์ • ์ž๋™ํ™” ๋ฌธ์ œ๋ฅผ ๋ถ„์„ํ•ด, MLR-Bench ์‹œ์Šคํ…œ์˜ ์ƒ์šฉํ™”ยทํ™•์žฅ ๊ฐ€๋Šฅ์„ฑ ํ‰๊ฐ€์— ๋„์›€์„ ์ค๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •