MLRC-Bench: Can Language Agents Solve Machine Learning Research Challenges?

์ €์ž: Yunxiang Zhang, Muhammad Khalifa, Shitanshu Bhushan, Grant D Murphy, Lajanugen Logeswaran, Jaekyeom Kim, Moontae Lee, Honglak Lee, Lu Wang | ๋‚ ์งœ: 2025 | DOI: 10.48550/arXiv.2504.09702 📄 PDF


Essence

๋ณธ ๋…ผ๋ฌธ์€ ๊ธฐ๊ณ„ํ•™์Šต(ML) ์—ฐ๊ตฌ ๊ฒฝ์Ÿ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋Š” ์–ธ์–ด ์—์ด์ „ํŠธ(language agent)์˜ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•œ ๋™์  ๋ฒค์น˜๋งˆํฌ MLRC-BENCH๋ฅผ ์ œ์•ˆํ•œ๋‹ค. ๊ธฐ์กด ์—ฐ๊ตฌ์™€ ๋‹ฌ๋ฆฌ LLM ํŒ์‚ฌ(LLM-as-a-judge)์— ์˜์กดํ•˜์ง€ ์•Š๊ณ  ๊ฐ๊ด€์  ๋ฉ”ํŠธ๋ฆญ์„ ํ†ตํ•ด ์ƒˆ๋กœ์šด ๋ฐฉ๋ฒ•๋ก ์˜ ์ œ์•ˆ๊ณผ ๊ตฌํ˜„์„ ์—„๋ฐ€ํ•˜๊ฒŒ ํ‰๊ฐ€ํ•œ๋‹ค.

Motivation

Achievement

Figure 1: MLRC-BENCH ๊ฐœ์š” ๋ฐ ํ‰๊ฐ€ ํŒŒ์ดํ”„๋ผ์ธ

MLRC-BENCH๋Š” ML ํ•™ํšŒ ๊ฒฝ์Ÿ์„ ์—์ด์ „ํŠธ-๋ฌด๊ด€(agent-agnostic) ํ”„๋ ˆ์ž„์›Œํฌ๋กœ ํ‘œ์ค€ํ™”ํ•˜๋ฉฐ, ๊ณ„์‚ฐ ์ œ์•ฝ ํ•˜์—์„œ ์ €์žฅ์†Œ ์ˆ˜์ค€ ์ฝ”๋“œ ์‹คํ–‰๊ณผ ๊ฐ๊ด€์  ๋ฉ”ํŠธ๋ฆญ ๊ธฐ๋ฐ˜ ํ‰๊ฐ€๋ฅผ ์ œ๊ณตํ•œ๋‹ค.

  1. ์„ฑ๊ณผ 1: ์ตœ๊ณ  ์„ฑ๋Šฅ ์—์ด์ „ํŠธ(gemini-exp-1206/MLAB)๋„ ๊ธฐ์ค€์„ ๊ณผ ์ตœ์ƒ ์ธ๊ฐ„ ์ฐธ๊ฐ€์ž ์ ์ˆ˜ ๊ฐ„ ๊ฒฉ์ฐจ์˜ 9.3%๋งŒ ์ถ•์†Œ
    • 7๊ฐœ ์ž‘์—… ํ‰๊ท ์ ์œผ๋กœ ํ˜„์ €ํ•œ ์„ฑ๋Šฅ ๊ฐœ์„  ์‹คํŒจ๋ฅผ ์ž…์ฆ
  2. ์„ฑ๊ณผ 2: LLM ํŒ์‚ฌ์˜ ์ฐธ์‹ ์„ฑ ํ‰๊ฐ€์™€ ์‹ค์ œ ์„ฑ๋Šฅ ๊ฐ„ ๋ฏธ์ •๋ ฌ ๊ทœ๋ช…
    • ์ฃผ๊ด€์  ํ‰๊ฐ€์˜ ์‹ ๋ขฐ์„ฑ ๊ฒฐ์—ฌ ๋ช…์‹œ์  ์ฆ๋ช…
    • ๊ฐ๊ด€์  ๋ฉ”ํŠธ๋ฆญ(์ •ํ™•์„ฑ, ํšจ์œจ์„ฑ)๊ณผ LLM ํ‰๊ฐ€(ํ˜์‹ ์„ฑ, ๊ฐ„๊ฒฐ์„ฑ) ๊ฐ„ ๋‚ฎ์€ ์ƒ๊ด€๊ด€๊ณ„
  3. ์„ฑ๊ณผ 3: ๋™์  ๋ฒค์น˜๋งˆํฌ ์„ค๊ณ„๋กœ ๋ฏธ๋ž˜ ML ๊ฒฝ์Ÿ ์ง€์† ํ†ตํ•ฉ ๊ฐ€๋Šฅํ•˜๊ฒŒ ๊ตฌ์ถ•

How

๋ฒค์น˜๋งˆํฌ ์„ค๊ณ„

ํ‰๊ฐ€ ๋ฐฉ๋ฒ•๋ก 

Originality

Limitation & Further Study

Evaluation

Novelty: 4/5 Technical Soundness: 4.5/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

์ดํ‰: ๋ณธ ๋…ผ๋ฌธ์€ ML ์—ฐ๊ตฌ ์—์ด์ „ํŠธ์˜ ์ง„์ •ํ•œ ํ˜์‹  ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•œ ๊ฐ๊ด€์ ์ด๊ณ  ๋™์ ์ธ ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ์‹œํ•˜๋ฉฐ, ๊ธฐ์กด ์ฃผ๊ด€์  ํ‰๊ฐ€ ๋ฐฉ์‹์˜ ๋ฌธ์ œ์ ์„ ์‹ค์ฆ์ ์œผ๋กœ ๊ทœ๋ช…ํ•จ์œผ๋กœ์จ ์ด ๋ถ„์•ผ์— ์˜๋ฏธ ์žˆ๋Š” ๊ธฐ์—ฌ๋ฅผ ํ•œ๋‹ค. ๋‹ค๋งŒ ์ž‘์—… ์ˆ˜ ํ™•๋Œ€์™€ ๋‹ค์–‘ํ•œ ๋ชจ๋ธ๊ตฐ ํฌํ•จ์œผ๋กœ ๋ฒค์น˜๋งˆํฌ ์™„์„ฑ๋„๋ฅผ ๋†’์ผ ํ•„์š”๊ฐ€ ์žˆ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
From LLMs to LLM-based Agents for Software Engineering๋Š” ์—์ด์ „ํŠธ ๊ธฐ๋ฐ˜ ์‹œ์Šคํ…œ์˜ ํ‰๊ฐ€์™€ ๋ฐœ์ „ ๋ฐฉํ–ฅ์— ๋Œ€ํ•ด ์†Œ๊ฐœ๋˜์–ด ์žˆ์–ด MLRC-Bench์˜ ํ‰๊ฐ€์ฒด๊ณ„์— ์ด๋ก ์  ๊ทผ๊ฑฐ๋ฅผ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
MLR-COPILOT์ด ์‹ค์ œ ์ž๋™ํ™”๋œ ML ์—ฐ๊ตฌ ์—์ด์ „ํŠธ ํ”„๋ ˆ์ž„์›Œํฌ์ด๋ฉฐ, MLRC-BENCH์˜ ์ƒ์„ฑ ๋ฐ ํ‰๊ฐ€ ๋Œ€์ƒ์ด ๋œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
AI ์—์ด์ „ํŠธ์˜ ์•Œ๊ณ ๋ฆฌ์ฆ˜ ์žฌํ˜„์„ฑ๊ณผ ์‹คํ—˜์ž๋™ํ™” ํ‰๊ฐ€์— ์ดˆ์ ์„ ๋‘” ๋ฒค์น˜๋งˆํฌ์™€์˜ ๋น„๊ต๋ฅผ ํ†ตํ•ด ํ‰๊ฐ€๋ฐฉ์‹ ์ง„ํ™”๋ฅผ ๋ถ„์„ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
MLAgentBench๋„ ์–ธ์–ด ์—์ด์ „ํŠธ์˜ ML ์—ฐ๊ตฌ ํ•ด๊ฒฐ ๋Šฅ๋ ฅ์„ ์ธก์ •ํ•˜๋Š” ๋ฒค์น˜๋งˆํฌ๋กœ, ํ‰๊ฐ€ ๋ฐฉ์‹๊ณผ ํŒ์ •์˜ ๊ฐ๊ด€์„ฑ ๋“ฑ์—์„œ ์ ‘๊ทผ๋ฒ•์˜ ์ฐจ์ด๋ฅผ ๋น„๊ตํ•  ์ˆ˜ ์žˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
545๋ฒˆ๊ณผ 550๋ฒˆ ๋ชจ๋‘ ML ๋ถ„์•ผ์˜ ์‹ค์ œ ๊ณผ์ œ์—์„œ LLM/AI ์—์ด์ „ํŠธ ํ‰๊ฐ€ ๋ฒค์น˜๋งˆํฌ๋ฅผ ๋‹ค๋ฃจ์ง€๋งŒ, 550๋ฒˆ์€ ์—ฐ๊ตฌ์ ๋ฌธ์ œ ํ’€์ด๋ฅผ ์ค‘์ ์œผ๋กœ ํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์—ฐ๊ตฌ์ž ์ฃผ๋„์˜ ์ฝ”๋“œ ๊ตฌํ˜„ ๋ฐ ์„ฑ๋Šฅํ‰๊ฐ€ ๊ธฐ๋ฐ˜ ML ์—ฐ๊ตฌ ๋ฌธ์ œ ํ•ด๊ฒฐ๋Šฅ๋ ฅ ํ‰๊ฐ€๋ฅผ ๋‹ค๋ฃจ๋ฏ€๋กœ, ์ž๋™ํ™” ์–ธ์–ด ์—์ด์ „ํŠธ์™€ ์ธ๊ฐ„ ๋Œ€๊ฒฐ ๊ตฌ์กฐ๋ฅผ ๋น„๊ตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์—์ด์ „ํ‹ฑ AI์˜ ๊ณผํ•™์  ๋ฐœ๊ฒฌ ์ ์šฉ์„ ๋‹ค๋ฃจ๋Š” ์œ ์‚ฌํ•œ ๋ฒ”์œ„์˜ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
The AI Scientist ์‹œ๋ฆฌ์ฆˆ๋Š” ์˜คํ”ˆ์—”๋””๋“œ ๊ณผํ•™ ์—ฐ๊ตฌ ์ž๋™ํ™”์˜ ์„ฑ๋Šฅ ํ‰๊ฐ€์™€ ์ง„๋‹จ์„ ํ†ตํ•ด MLRC-BENCH์™€ ๋ชฉ์ ์ด ์œ ์‚ฌํ•˜๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
MLRC-BENCH๋Š” LLM ์—์ด์ „ํŠธ๊ฐ€ ML ์—ฐ๊ตฌ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋Š” ํ‰๊ฐ€ ๋ฒค์น˜๋งˆํฌ๋กœ, MLR-COPILOT ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ์˜ ์‹ค์ œ ๊ฒฝ์Ÿ๋ ฅ๊ณผ ์•ฝ์ ์„ ์ •๋ฐ€ํ•˜๊ฒŒ ๋ถ„์„ํ•  ์ˆ˜ ์žˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
MLRC-BENCH๋Š” MLR-Bench ์‹œ์Šคํ…œ์˜ ํ‰๊ฐ€ ๊ธฐ์ค€์„ ๊ฐ•ํ™”(LLM ํŒ์ • ์ตœ์†Œํ™”, ๊ฐ๊ด€์  ๋ฉ”ํŠธ๋ฆญ ์ถ”๊ฐ€)ํ•œ ๋ฐœ์ „ํ˜•์ž…๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •