Essence
Figure 2: Our MLR-COPILOT Framework. LLM IdeaAgent (leftmost grey component) performs research idea
MLR-COPILOT๋ LLM ์์ด์ ํธ ๊ธฐ๋ฐ์ ์๋ํ๋ ๋จธ์ ๋ฌ๋ ์ฐ๊ตฌ ํ๋ ์์ํฌ๋ก, ์์ด๋์ด ์์ฑ๋ถํฐ ์คํ ๊ตฌํ ๋ฐ ์คํ๊น์ง ์ ๊ณผ์ ์ ์๋ํํ๋ค.
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: MLR-COPILOT๋ LLM ์์ด์ ํธ๋ฅผ ํ์ฉํ์ฌ ML ์ฐ๊ตฌ์ ์ ๊ณผ์ ์ ์๋ํํ๋ ํ์ ์ ์ธ ํ๋ ์์ํฌ๋ก, RL ๊ธฐ๋ฐ ๋ฏธ์ธ์กฐ์ ๊ณผ ์ธ๊ฐ-๊ธฐ๊ณ ํ์
๋ฉ์ปค๋์ฆ์ ํตํด ๊ณ ํ์ง์ ์๋ํ ์ฐ๊ตฌ๋ฅผ ์คํํ๋ค. ๋ค๋ง ํ๊ฐ ๋ฒ์ ํ๋, ์ฑ๊ณต๋ฅ ๋ถ์, ์ค์ฉ์ ํจ์จ์ฑ ์งํ ์ ์ ๋ฑ์ ๋ณด์์ด ํ์ํ๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
MLR-COPILOT์ด ์ค์ ์๋ํ๋ ML ์ฐ๊ตฌ ์์ด์ ํธ ํ๋ ์์ํฌ์ด๋ฉฐ, MLRC-BENCH์ ์์ฑ ๋ฐ ํ๊ฐ ๋์์ด ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
From Automation to Autonomy ๋
ผ๋ฌธ์ LLM ๊ธฐ๋ฐ ์ฐ๊ตฌ ์์ด์ ํธ์ ์ด๋ก ์ ๋ฐํ์ ์ ๊ณตํ์ฌ, Mlr-copilot ํ๋ ์์ํฌ์ ๊ฐ๋ฐ ๋ฐฉํฅ์ ์ด๋ก ์ ๊ทผ๊ฑฐ๋ฅผ ์ค๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
LLM ๊ธฐ๋ฐ ์๋ํ ์ฐ๊ตฌ ์์คํ
์ ์ค๊ณ ๋ฐ ์๊ธฐ๊ฐ์ ํ๊ฐ ๊ด์ ์์ multi-agent ๊ธฐ๋ฐ ์คํ ๋ฐ ๊ตฌํ ํ๋ ์์ํฌ ๊ธฐ์ด๊ฐ ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
549๋ LLM ๊ธฐ๋ฐ ์์จ ๋จธ์ ๋ฌ๋ ์ฐ๊ตฌ ํ๋ ์์ํฌ๋ก, 3255์ ์ค์ฐจ ๋ณด์ ์๋ํ ๋ฑ์ ํ์ฉํ ์ ์๋ ๋ชจ๋ธ ์ค๊ณ ํต์ฐฐ์ ์ ๊ณตํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
The open review-based (orb) dataset๋ LLM ๊ธฐ๋ฐ ์ฐ๊ตฌ ์๋ํ์์ ํผ์ด๋ฆฌ๋ทฐ ์์ฑ ๋ฐ ๊ฒ์ฆ์ ์คํ ๋ฐ์ดํฐ์
์ ์ ๊ณตํ์ฌ ํ์ผ/์์ด์ ํธ ๊ธฐ๋ฐ AI ์๋ํ์ ์์ฉ ์ธก๋ฉด์ ๋ณด์ฌ์ค๋ค.
๋ค๋ฅธ ์ ๊ทผ
mlr-copilot์ LLM ๊ธฐ๋ฐ ์์จ ML ์ฐ๊ตฌ ์ค๊ณ๋ฅผ ๋ค๋ฃจ๋ ์ ์ฌ ์์คํ
์ผ๋ก, 136๊ณผ ๋น๊ตํด ๊ฐ๊ฐ์ ์๋ํ ๋ฐฉ์ ์ฐจ์ด๊ฐ ์ ๊ฒ๋ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
MLE-bench๋ ML ์์ด์ ํธ์ ์๋ ์ฐ๊ตฌ ๋ฅ๋ ฅ์ ํ๊ฐํ๋ ๋ค๋ฅธ ๋ฒค์น๋งํฌ๋ก, ์์คํ
์ ์๋ํ์ ํ๊ฐ๋ฐฉ์์ ๋์์ธ ์ฐจ์ด๋ฅผ ๋น๊ตํ ์ ์๋ค.
๋ค๋ฅธ ์ ๊ทผ
549 ๋
ผ๋ฌธ์ autonomous ML ์ฐ๊ตฌ๋ฅผ ์ํ LLM ๊ธฐ๋ฐ ์ํฌํ๋ก์ฐ๋ฅผ ์ ์ํ์ฌ, 493์ ์๋ํ๋ ์ฐ๊ตฌ ๊ด๋ จ ์น์
์์ฑ๊ณผ ์์ดํ ์ดํ๋ฆฌ์ผ์ด์
์ ๋ณด์ฌ์ค๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
AI ์ฐ๊ตฌ์ํ ์์ด์ ํธ์ ์ค์ ์ ์ญ๋ ํ๊ฐ๋ฅผ ์ํ ๋๋ค๋ฅธ ํ๋ ์์ํฌ๋ก, ๋ฒค์น๋งํฌ/๊ตฌํ ๋ฐฉ์๊ฐ ์ฐจ๋ณ์ฑ์ ๋น๊ตํ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
Mlr-copilot ๋
ผ๋ฌธ์ LLM์ ๊ธฐ๋ฐ์ผ๋ก ํ ์คํ/ํ๋กํ ์ฝ ์คํ ๋ด ์๋ํ ์ฐ๊ตฌ๋ฅผ ๋ค๋ค, BioProBench์์ ์ ์ฐจ์ ํ๊ฐ ๊ด์ ์ ๊ต์ฐจ์ ์ผ๋ก ์ดํ ์ ์๋ค.
๋ค๋ฅธ ์ ๊ทผ
์ฐ๊ตฌ ๊ฐ์ค ์๋ ์์ฑ ๋ฐ ๊ฒ์ฆ์ ์ํ LLM ํ์ฉ์ ๋ค๋ฃจ๋ ์ ์ฌํ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM์ ์ด์ฉํ ์คํ ์ํ ๋ฐ ๋ณด๊ณ ์ ์๋ ์์ฑ์ ๋ค๋ฅธ ๋ฐฉ์์ผ๋ก ๊ตฌํํ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
Mlr-copilot์ LLM์ ์ฌ์ฉํ ์๋ํ ML ์ฐ๊ตฌ agent๋ฅผ ๋ค๋ฃจ๋ฏ๋ก, VASPilot(864)์ ๊ณผํ ์ํฌํ๋ก์ฐ ์๋ํ์ ์ ์ฌ ๋ฌธ์ ์ ML ์คํ ์๋ํ ๊ด์ ์ ๋์์ ์ ์ํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
AI ์ฐ๊ตฌ ์ ๊ณผ์ ์ ์๋ํ ํ๋ ์์ํฌ ๋
ผ์ ์์์ LLM ์์ด์ ํธ ๊ธฐ๋ฐ ML ์ฐ๊ตฌ ์๋ํ์ ์ฐจ๋ณ์ ์ ํ์คํ ๋ณด์ฌ์ค๋๋ค.
ํ์ ์ฐ๊ตฌ
MLR-COPILOT์ LLM ๊ธฐ๋ฐ ํ์ผ ์กฐ์ ๋ฐ ์คํ ์๋ํ ์ ๋ฐ์ผ๋ก ์ ์ฉ ๋ฒ์๋ฅผ ๋ํ, LLM์ ์ด์ฉํ AI ๊ธฐ๋ฐ ์ฐ๊ตฌ ์๋ํ์ ์ค์ง์ ํ์ฅ ์์๋ฅผ ์ ๊ณตํ๋ค.
ํ์ ์ฐ๊ตฌ
mlr-copilot(549)์ LLM์ ์ด์ฉํ์ฌ ์๋ํ๋ ๋จธ์ ๋ฌ๋ ์ฐ๊ตฌ ์ง์์ ์คํํ๊ณ , 463์ ์์ด์ ํธ ๊ธฐ๋ฐ ํ์ดํผํ๋ผ๋ฏธํฐ ์ต์ ํ ํ๋ ์์ํฌ๋ฅผ ์คํ์ ํ์ค๋ก ์ด์ด๊ฐ๋ค.
ํ์ ์ฐ๊ตฌ
MLR-COPILOT๊ฐ ์ ์ฉ๋ ์ฐ๊ตฌ ๊ณผ์ ๋ฐ ํ๊ฐ ํ๋ ์์ํฌ๊ฐ MLR-Bench ๋ฒค์น๋งํฌ์ ์ค์ ์๋ ML ์ฐ๊ตฌ ์๋ํ ๊ฐ๋ฅ์ฑ์ ์ค์ฆํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
MLRC-BENCH๋ LLM ์์ด์ ํธ๊ฐ ML ์ฐ๊ตฌ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ํ๊ฐ ๋ฒค์น๋งํฌ๋ก, MLR-COPILOT ๊ธฐ๋ฐ ์์ด์ ํธ์ ์ค์ ๊ฒฝ์๋ ฅ๊ณผ ์ฝ์ ์ ์ ๋ฐํ๊ฒ ๋ถ์ํ ์ ์๋ค.
ํ์ ์ฐ๊ตฌ
์ธ์ด๋ชจ๋ธ ๊ธฐ๋ฐ์ ์์ ์์จ ๋จธ์ ๋ฌ๋ ์ฐ๊ตฌ ์๋ํ(MLR-Copilot)๋ก 016 ๋
ผ๋ฌธ์ AutoML ๋๊ตฌ ํ๊ฐ๋ฅผ AI-์ฐ๊ตฌ์ ํ๋ ์๊น์ง ํ์ฅ ์ ์ฉํจ.
ํ์ ์ฐ๊ตฌ
mlr-copilot ๋
ผ๋ฌธ์ LLM ํ๋กฌํํธ ๊ธฐ๋ฐ ๋ฐ์ดํฐ ๊ณผํ ์์ด์ ํธ๋ก DeepAnalyze์ ์์ ์๋ํ๋ฅผ ์ค์ ๋จธ์ ๋ฌ๋ ์ฐ๊ตฌ ๋ฌธ์ ์ ์ ์ฉํฉ๋๋ค.