์ ์: Yunxiang Zhang, Muhammad Khalifa, Shitanshu Bhushan, Grant D Murphy, Lajanugen Logeswaran, Jaekyeom Kim, Moontae Lee, Honglak Lee, Lu Wang | ๋ ์ง: 2025 | DOI: 10.48550/arXiv.2504.09702 📄 PDF
Essence
๋ณธ ๋
ผ๋ฌธ์ ๊ธฐ๊ณํ์ต(ML) ์ฐ๊ตฌ ๊ฒฝ์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ์ธ์ด ์์ด์ ํธ(language agent)์ ๋ฅ๋ ฅ์ ํ๊ฐํ๊ธฐ ์ํ ๋์ ๋ฒค์น๋งํฌ MLRC-BENCH๋ฅผ ์ ์ํ๋ค. ๊ธฐ์กด ์ฐ๊ตฌ์ ๋ฌ๋ฆฌ LLM ํ์ฌ(LLM-as-a-judge)์ ์์กดํ์ง ์๊ณ ๊ฐ๊ด์ ๋ฉํธ๋ฆญ์ ํตํด ์๋ก์ด ๋ฐฉ๋ฒ๋ก ์ ์ ์๊ณผ ๊ตฌํ์ ์๋ฐํ๊ฒ ํ๊ฐํ๋ค.
Evaluation
Novelty: 4/5 Technical Soundness: 4.5/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ ML ์ฐ๊ตฌ ์์ด์ ํธ์ ์ง์ ํ ํ์ ๋ฅ๋ ฅ์ ํ๊ฐํ๊ธฐ ์ํ ๊ฐ๊ด์ ์ด๊ณ ๋์ ์ธ ๋ฒค์น๋งํฌ๋ฅผ ์ ์ํ๋ฉฐ, ๊ธฐ์กด ์ฃผ๊ด์ ํ๊ฐ ๋ฐฉ์์ ๋ฌธ์ ์ ์ ์ค์ฆ์ ์ผ๋ก ๊ท๋ช
ํจ์ผ๋ก์จ ์ด ๋ถ์ผ์ ์๋ฏธ ์๋ ๊ธฐ์ฌ๋ฅผ ํ๋ค. ๋ค๋ง ์์
์ ํ๋์ ๋ค์ํ ๋ชจ๋ธ๊ตฐ ํฌํจ์ผ๋ก ๋ฒค์น๋งํฌ ์์ฑ๋๋ฅผ ๋์ผ ํ์๊ฐ ์๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
From LLMs to LLM-based Agents for Software Engineering๋ ์์ด์ ํธ ๊ธฐ๋ฐ ์์คํ
์ ํ๊ฐ์ ๋ฐ์ ๋ฐฉํฅ์ ๋ํด ์๊ฐ๋์ด ์์ด MLRC-Bench์ ํ๊ฐ์ฒด๊ณ์ ์ด๋ก ์ ๊ทผ๊ฑฐ๋ฅผ ์ ๊ณตํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
MLR-COPILOT์ด ์ค์ ์๋ํ๋ ML ์ฐ๊ตฌ ์์ด์ ํธ ํ๋ ์์ํฌ์ด๋ฉฐ, MLRC-BENCH์ ์์ฑ ๋ฐ ํ๊ฐ ๋์์ด ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
AI ์์ด์ ํธ์ ์๊ณ ๋ฆฌ์ฆ ์ฌํ์ฑ๊ณผ ์คํ์๋ํ ํ๊ฐ์ ์ด์ ์ ๋ ๋ฒค์น๋งํฌ์์ ๋น๊ต๋ฅผ ํตํด ํ๊ฐ๋ฐฉ์ ์งํ๋ฅผ ๋ถ์ํ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
MLAgentBench๋ ์ธ์ด ์์ด์ ํธ์ ML ์ฐ๊ตฌ ํด๊ฒฐ ๋ฅ๋ ฅ์ ์ธก์ ํ๋ ๋ฒค์น๋งํฌ๋ก, ํ๊ฐ ๋ฐฉ์๊ณผ ํ์ ์ ๊ฐ๊ด์ฑ ๋ฑ์์ ์ ๊ทผ๋ฒ์ ์ฐจ์ด๋ฅผ ๋น๊ตํ ์ ์๋ค.
๋ค๋ฅธ ์ ๊ทผ
545๋ฒ๊ณผ 550๋ฒ ๋ชจ๋ ML ๋ถ์ผ์ ์ค์ ๊ณผ์ ์์ LLM/AI ์์ด์ ํธ ํ๊ฐ ๋ฒค์น๋งํฌ๋ฅผ ๋ค๋ฃจ์ง๋ง, 550๋ฒ์ ์ฐ๊ตฌ์ ๋ฌธ์ ํ์ด๋ฅผ ์ค์ ์ผ๋ก ํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
์ฐ๊ตฌ์ ์ฃผ๋์ ์ฝ๋ ๊ตฌํ ๋ฐ ์ฑ๋ฅํ๊ฐ ๊ธฐ๋ฐ ML ์ฐ๊ตฌ ๋ฌธ์ ํด๊ฒฐ๋ฅ๋ ฅ ํ๊ฐ๋ฅผ ๋ค๋ฃจ๋ฏ๋ก, ์๋ํ ์ธ์ด ์์ด์ ํธ์ ์ธ๊ฐ ๋๊ฒฐ ๊ตฌ์กฐ๋ฅผ ๋น๊ตํ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
์์ด์ ํฑ AI์ ๊ณผํ์ ๋ฐ๊ฒฌ ์ ์ฉ์ ๋ค๋ฃจ๋ ์ ์ฌํ ๋ฒ์์ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
The AI Scientist ์๋ฆฌ์ฆ๋ ์คํ์๋๋ ๊ณผํ ์ฐ๊ตฌ ์๋ํ์ ์ฑ๋ฅ ํ๊ฐ์ ์ง๋จ์ ํตํด MLRC-BENCH์ ๋ชฉ์ ์ด ์ ์ฌํ๋ค.
ํ์ ์ฐ๊ตฌ
MLRC-BENCH๋ LLM ์์ด์ ํธ๊ฐ ML ์ฐ๊ตฌ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ํ๊ฐ ๋ฒค์น๋งํฌ๋ก, MLR-COPILOT ๊ธฐ๋ฐ ์์ด์ ํธ์ ์ค์ ๊ฒฝ์๋ ฅ๊ณผ ์ฝ์ ์ ์ ๋ฐํ๊ฒ ๋ถ์ํ ์ ์๋ค.
ํ์ ์ฐ๊ตฌ
MLRC-BENCH๋ MLR-Bench ์์คํ
์ ํ๊ฐ ๊ธฐ์ค์ ๊ฐํ(LLM ํ์ ์ต์ํ, ๊ฐ๊ด์ ๋ฉํธ๋ฆญ ์ถ๊ฐ)ํ ๋ฐ์ ํ์
๋๋ค.