Mlr-copilot: Autonomous machine learning research based on large language models agents

์ €์ž: Ruochen Li, Teerth Patel, Qingyun Wang, Xinya Du | ๋‚ ์งœ: 2024 | URL: https://arxiv.org/abs/2408.14033 📄 PDF


Essence

Figure 2

Figure 2: Our MLR-COPILOT Framework. LLM IdeaAgent (leftmost grey component) performs research idea

MLR-COPILOT๋Š” LLM ์—์ด์ „ํŠธ ๊ธฐ๋ฐ˜์˜ ์ž๋™ํ™”๋œ ๋จธ์‹ ๋Ÿฌ๋‹ ์—ฐ๊ตฌ ํ”„๋ ˆ์ž„์›Œํฌ๋กœ, ์•„์ด๋””์–ด ์ƒ์„ฑ๋ถ€ํ„ฐ ์‹คํ—˜ ๊ตฌํ˜„ ๋ฐ ์‹คํ–‰๊นŒ์ง€ ์ „ ๊ณผ์ •์„ ์ž๋™ํ™”ํ•œ๋‹ค.

Motivation

Achievement

Figure 2

Figure 2: Our MLR-COPILOT Framework. LLM IdeaAgent (leftmost grey component) performs research idea

How

Figure 2

Figure 2: Our MLR-COPILOT Framework. LLM IdeaAgent (leftmost grey component) performs research idea

Originality

Limitation & Further Study

Evaluation

Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

์ดํ‰: MLR-COPILOT๋Š” LLM ์—์ด์ „ํŠธ๋ฅผ ํ™œ์šฉํ•˜์—ฌ ML ์—ฐ๊ตฌ์˜ ์ „ ๊ณผ์ •์„ ์ž๋™ํ™”ํ•˜๋Š” ํ˜์‹ ์ ์ธ ํ”„๋ ˆ์ž„์›Œํฌ๋กœ, RL ๊ธฐ๋ฐ˜ ๋ฏธ์„ธ์กฐ์ •๊ณผ ์ธ๊ฐ„-๊ธฐ๊ณ„ ํ˜‘์—… ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ํ†ตํ•ด ๊ณ ํ’ˆ์งˆ์˜ ์ž๋™ํ™” ์—ฐ๊ตฌ๋ฅผ ์‹คํ˜„ํ•œ๋‹ค. ๋‹ค๋งŒ ํ‰๊ฐ€ ๋ฒ”์œ„ ํ™•๋Œ€, ์„ฑ๊ณต๋ฅ  ๋ถ„์„, ์‹ค์šฉ์  ํšจ์œจ์„ฑ ์ง€ํ‘œ ์ œ์‹œ ๋“ฑ์˜ ๋ณด์™„์ด ํ•„์š”ํ•˜๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
MLR-COPILOT์ด ์‹ค์ œ ์ž๋™ํ™”๋œ ML ์—ฐ๊ตฌ ์—์ด์ „ํŠธ ํ”„๋ ˆ์ž„์›Œํฌ์ด๋ฉฐ, MLRC-BENCH์˜ ์ƒ์„ฑ ๋ฐ ํ‰๊ฐ€ ๋Œ€์ƒ์ด ๋œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
From Automation to Autonomy ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ ์—์ด์ „ํŠธ์˜ ์ด๋ก ์  ๋ฐ”ํƒ•์„ ์ œ๊ณตํ•˜์—ฌ, Mlr-copilot ํ”„๋ ˆ์ž„์›Œํฌ์˜ ๊ฐœ๋ฐœ ๋ฐฉํ–ฅ์— ์ด๋ก ์  ๊ทผ๊ฑฐ๋ฅผ ์ค€๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
LLM ๊ธฐ๋ฐ˜ ์ž๋™ํ™” ์—ฐ๊ตฌ ์‹œ์Šคํ…œ์˜ ์„ค๊ณ„ ๋ฐ ์ž๊ธฐ๊ฐœ์„  ํ‰๊ฐ€ ๊ด€์ ์—์„œ multi-agent ๊ธฐ๋ฐ˜ ์‹คํ—˜ ๋ฐ ๊ตฌํ˜„ ํ”„๋ ˆ์ž„์›Œํฌ ๊ธฐ์ดˆ๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
549๋Š” LLM ๊ธฐ๋ฐ˜ ์ž์œจ ๋จธ์‹ ๋Ÿฌ๋‹ ์—ฐ๊ตฌ ํ”„๋ ˆ์ž„์›Œํฌ๋กœ, 3255์˜ ์˜ค์ฐจ ๋ณด์ • ์ž๋™ํ™” ๋“ฑ์— ํ™œ์šฉํ•  ์ˆ˜ ์žˆ๋Š” ๋ชจ๋ธ ์„ค๊ณ„ ํ†ต์ฐฐ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
The open review-based (orb) dataset๋Š” LLM ๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ ์ž๋™ํ™”์—์„œ ํ”ผ์–ด๋ฆฌ๋ทฐ ์ƒ์„ฑ ๋ฐ ๊ฒ€์ฆ์˜ ์˜คํ”ˆ ๋ฐ์ดํ„ฐ์…‹์„ ์ œ๊ณตํ•˜์—ฌ ํŒŒ์ผ/์—์ด์ „ํŠธ ๊ธฐ๋ฐ˜ AI ์ž๋™ํ™”์˜ ์‘์šฉ ์ธก๋ฉด์„ ๋ณด์—ฌ์ค€๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
mlr-copilot์€ LLM ๊ธฐ๋ฐ˜ ์ž์œจ ML ์—ฐ๊ตฌ ์„ค๊ณ„๋ฅผ ๋‹ค๋ฃจ๋Š” ์œ ์‚ฌ ์‹œ์Šคํ…œ์œผ๋กœ, 136๊ณผ ๋น„๊ตํ•ด ๊ฐ๊ฐ์˜ ์ž๋™ํ™” ๋ฐฉ์‹ ์ฐจ์ด๊ฐ€ ์ ๊ฒ€๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
MLE-bench๋Š” ML ์—์ด์ „ํŠธ์˜ ์ž๋™ ์—ฐ๊ตฌ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ๋‹ค๋ฅธ ๋ฒค์น˜๋งˆํฌ๋กœ, ์‹œ์Šคํ…œ์  ์ž๋™ํ™”์™€ ํ‰๊ฐ€๋ฐฉ์‹์˜ ๋””์ž์ธ ์ฐจ์ด๋ฅผ ๋น„๊ตํ•  ์ˆ˜ ์žˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
549 ๋…ผ๋ฌธ์€ autonomous ML ์—ฐ๊ตฌ๋ฅผ ์œ„ํ•œ LLM ๊ธฐ๋ฐ˜ ์›Œํฌํ”Œ๋กœ์šฐ๋ฅผ ์ œ์•ˆํ•˜์—ฌ, 493์˜ ์ž๋™ํ™”๋œ ์—ฐ๊ตฌ ๊ด€๋ จ ์„น์…˜ ์ƒ์„ฑ๊ณผ ์ƒ์ดํ•œ ์–ดํ”Œ๋ฆฌ์ผ€์ด์…˜์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
AI ์—ฐ๊ตฌ์ˆ˜ํ–‰ ์—์ด์ „ํŠธ์˜ ์‹ค์ œ์  ์—ญ๋Ÿ‰ ํ‰๊ฐ€๋ฅผ ์œ„ํ•œ ๋˜๋‹ค๋ฅธ ํ”„๋ ˆ์ž„์›Œํฌ๋กœ, ๋ฒค์น˜๋งˆํฌ/๊ตฌํ˜„ ๋ฐฉ์‹๊ฐ„ ์ฐจ๋ณ„์„ฑ์„ ๋น„๊ตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Mlr-copilot ๋…ผ๋ฌธ์€ LLM์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•œ ์‹คํ—˜/ํ”„๋กœํ† ์ฝœ ์‹คํ–‰ ๋‚ด ์ž๋™ํ™” ์—ฐ๊ตฌ๋ฅผ ๋‹ค๋ค„, BioProBench์™€์˜ ์ ˆ์ฐจ์  ํ‰๊ฐ€ ๊ด€์ ์„ ๊ต์ฐจ์ ์œผ๋กœ ์‚ดํ•„ ์ˆ˜ ์žˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์—ฐ๊ตฌ ๊ฐ€์„ค ์ž๋™ ์ƒ์„ฑ ๋ฐ ๊ฒ€์ฆ์„ ์œ„ํ•œ LLM ํ™œ์šฉ์„ ๋‹ค๋ฃจ๋Š” ์œ ์‚ฌํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM์„ ์ด์šฉํ•œ ์‹คํ—˜ ์ˆ˜ํ–‰ ๋ฐ ๋ณด๊ณ ์„œ ์ž๋™ ์ƒ์„ฑ์„ ๋‹ค๋ฅธ ๋ฐฉ์‹์œผ๋กœ ๊ตฌํ˜„ํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Mlr-copilot์€ LLM์„ ์‚ฌ์šฉํ•œ ์ž๋™ํ™” ML ์—ฐ๊ตฌ agent๋ฅผ ๋‹ค๋ฃจ๋ฏ€๋กœ, VASPilot(864)์˜ ๊ณผํ•™ ์›Œํฌํ”Œ๋กœ์šฐ ์ž๋™ํ™”์™€ ์œ ์‚ฌ ๋ฌธ์ œ์— ML ์‹คํ—˜ ์ž๋™ํ™” ๊ด€์ ์˜ ๋Œ€์•ˆ์„ ์ œ์‹œํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
AI ์—ฐ๊ตฌ ์ „๊ณผ์ •์˜ ์ž๋™ํ™” ํ”„๋ ˆ์ž„์›Œํฌ ๋…ผ์˜ ์†์—์„œ LLM ์—์ด์ „ํŠธ ๊ธฐ๋ฐ˜ ML ์—ฐ๊ตฌ ์ž๋™ํ™”์˜ ์ฐจ๋ณ„์ ์„ ํ™•์‹คํžˆ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
MLR-COPILOT์€ LLM ๊ธฐ๋ฐ˜ ํŒŒ์ผ ์กฐ์ž‘ ๋ฐ ์‹คํ—˜ ์ž๋™ํ™” ์ „๋ฐ˜์œผ๋กœ ์ ์šฉ ๋ฒ”์œ„๋ฅผ ๋„“ํ˜€, LLM์„ ์ด์šฉํ•œ AI ๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ ์ž๋™ํ™”์˜ ์‹ค์งˆ์  ํ™•์žฅ ์˜ˆ์‹œ๋ฅผ ์ œ๊ณตํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
mlr-copilot(549)์€ LLM์„ ์ด์šฉํ•˜์—ฌ ์ž๋™ํ™”๋œ ๋จธ์‹ ๋Ÿฌ๋‹ ์—ฐ๊ตฌ ์ง€์›์„ ์‹คํ˜„ํ•˜๊ณ , 463์˜ ์—์ด์ „ํŠธ ๊ธฐ๋ฐ˜ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ์ตœ์ ํ™” ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์‹คํ—˜์  ํ˜„์‹ค๋กœ ์ด์–ด๊ฐ„๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
MLR-COPILOT๊ฐ€ ์ ์šฉ๋œ ์—ฐ๊ตฌ ๊ณผ์ œ ๋ฐ ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ๊ฐ€ MLR-Bench ๋ฒค์น˜๋งˆํฌ์˜ ์‹ค์ œ ์ž๋™ ML ์—ฐ๊ตฌ ์ž๋™ํ™” ๊ฐ€๋Šฅ์„ฑ์„ ์‹ค์ฆํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
MLRC-BENCH๋Š” LLM ์—์ด์ „ํŠธ๊ฐ€ ML ์—ฐ๊ตฌ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋Š” ํ‰๊ฐ€ ๋ฒค์น˜๋งˆํฌ๋กœ, MLR-COPILOT ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ์˜ ์‹ค์ œ ๊ฒฝ์Ÿ๋ ฅ๊ณผ ์•ฝ์ ์„ ์ •๋ฐ€ํ•˜๊ฒŒ ๋ถ„์„ํ•  ์ˆ˜ ์žˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
์–ธ์–ด๋ชจ๋ธ ๊ธฐ๋ฐ˜์˜ ์™„์ „์ž์œจ ๋จธ์‹ ๋Ÿฌ๋‹ ์—ฐ๊ตฌ ์ž๋™ํ™”(MLR-Copilot)๋กœ 016 ๋…ผ๋ฌธ์˜ AutoML ๋„๊ตฌ ํ‰๊ฐ€๋ฅผ AI-์—ฐ๊ตฌ์ž ํ”„๋ ˆ์ž„๊นŒ์ง€ ํ™•์žฅ ์ ์šฉํ•จ.
ํ›„์† ์—ฐ๊ตฌ
mlr-copilot ๋…ผ๋ฌธ์€ LLM ํ”„๋กฌํ”„ํŠธ ๊ธฐ๋ฐ˜ ๋ฐ์ดํ„ฐ ๊ณผํ•™ ์—์ด์ „ํŠธ๋กœ DeepAnalyze์˜ ์™„์ „ ์ž๋™ํ™”๋ฅผ ์‹ค์ œ ๋จธ์‹ ๋Ÿฌ๋‹ ์—ฐ๊ตฌ ๋ฌธ์ œ์— ์ ์šฉํ•ฉ๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •