์ ์: Jun Shern Chan, Neil Chowdhury, Oliver Jaffe, James Aung, Dane Sherburn, Evan Mays, Giulio Starace, Kevin Liu, Leon Maksin, Tejal Patwardhan, Lilian Weng, Aleksander Mฤ
dry | ๋ ์ง: 2024 | ์ถํ: ICLR 2025 📄 PDF
Essence
MLE-bench: AI ์์ด์ ํธ๋ฅผ ์ํ ์คํ๋ผ์ธ Kaggle ๊ฒฝ์ ํ๊ฒฝ. ๊ฐ ๊ฒฝ์์ ์ค๋ช
, ๋ฐ์ดํฐ์
, ๋ฑ๊ธ ์ฝ๋ ๋ฐ ๋ฆฌ๋๋ณด๋๋ก ๊ตฌ์ฑ๋จ
๋ณธ ๋
ผ๋ฌธ์ AI ์์ด์ ํธ์ ๋จธ์ ๋ฌ๋ ์์ง๋์ด๋ง(MLE) ๋ฅ๋ ฅ์ ํ๊ฐํ๊ธฐ ์ํด Kaggle์ 75๊ฐ ๊ฒฝ์ ๋ฌธ์ ๋ก ๊ตฌ์ฑ๋ ๋ฒค์น๋งํฌ MLE-bench๋ฅผ ์๊ฐํ๋ค. ์ต๊ณ ์ฑ๋ฅ ๋ชจ๋ธ(o1-preview with AIDE ์ค์บํด๋ฉ)์ด 16.9%์ ๊ฒฝ์์์ Kaggle ๋๋ฉ๋ฌ ์ด์ ์์ค์ ๋ฌ์ฑํ์ผ๋ฉฐ, ์์ ์ค์ผ์ผ๋ง๊ณผ ์ฌ์ ํ์ต ๋ฐ์ดํฐ ์ค์ผ์ ์ํฅ์ ๊ด๋ฒ์ํ๊ฒ ๋ถ์ํ๋ค.
Evaluation
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ ์ค์ Kaggle ๊ฒฝ์ 75๊ฐ๋ฅผ ์ ๊ตํ๊ฒ ์ ๋ณํ์ฌ AI ์์ด์ ํธ์ ํ์ค์ ML ์์ง๋์ด๋ง ๋ฅ๋ ฅ์ ํ๊ฐํ๋ ์ฒซ ์ข
ํฉ ๋ฒค์น๋งํฌ๋ฅผ ์ ์ํ์ผ๋ฉฐ, ๊ด๋ฒ์ํ ์คํ๊ณผ ๋ถ์ ํ์ ๋ฐฉ์ง ๋ฉ์ปค๋์ฆ์ผ๋ก ๋ฒค์น๋งํฌ์ ์ ๋ขฐ์ฑ๊ณผ ์ฌํ์ฑ์ ํ๋ณดํ๋ค. ๋ค๋ง ํ์ฌ ์์ด์ ํธ์ ์ต๊ณ ์์ค Kaggler ๊ฐ์ ํฐ ์ฑ๋ฅ ๊ฒฉ์ฐจ, ๊ทธ๋ฆฌ๊ณ ๋๋ฒ๊น
๊ณผ ์ค๋ฅ ๋ณต๊ตฌ ๋ฅ๋ ฅ์ ํ๊ณ๋ ์์จ์ ML ์์ง๋์ด๋ง์ ์คํํ๋ฅผ
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๋ค๋ฅธ ์ ๊ทผ
MLAgentBench์ ๋ง์ฐฌ๊ฐ์ง๋ก ๋จธ์ ๋ฌ๋ ์คํ ์๋ํ ๋ฒค์น๋งํฌ๋ฅผ ์ ๊ณตํ์ง๋ง, 545๋ ํ๊ฐ ๋ฐ์ดํฐ์ ์ธ๋ถ ๋ฏธ์
๊ตฌ์ฑ์ด ๋ค๋ฆ
๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋ ๋ค ์์ด์ ํธ์ ๋ฐ์ดํฐ ๊ณผํ/๋ถ์ ์ญ๋์ ํ๊ฐํ์ง๋ง, ํ๊ฐ ๋ฐ์ดํฐ์ ์ ๊ทผ ๋ฐฉ์์์ ์ฐจ๋ณํ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
MLE-bench๋ ML ์์ด์ ํธ์ ์๋ ์ฐ๊ตฌ ๋ฅ๋ ฅ์ ํ๊ฐํ๋ ๋ค๋ฅธ ๋ฒค์น๋งํฌ๋ก, ์์คํ
์ ์๋ํ์ ํ๊ฐ๋ฐฉ์์ ๋์์ธ ์ฐจ์ด๋ฅผ ๋น๊ตํ ์ ์๋ค.
๋ค๋ฅธ ์ ๊ทผ
MLE-bench(545)๋ ๋จธ์ ๋ฌ๋/๋ฐ์ดํฐ ๊ณผํ ์์ด์ ํธ ํ๊ฐ ๋ฒค์น๋งํฌ๋ก DSBench์ ์ ์ฌํ๋ ํ๊ฐ ๋ฒ์์ ๊ณผ์ ๊ตฌ์ฑ์ด ์์ดํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
545๋ฒ๊ณผ 550๋ฒ ๋ชจ๋ ML ๋ถ์ผ์ ์ค์ ๊ณผ์ ์์ LLM/AI ์์ด์ ํธ ํ๊ฐ ๋ฒค์น๋งํฌ๋ฅผ ๋ค๋ฃจ์ง๋ง, 550๋ฒ์ ์ฐ๊ตฌ์ ๋ฌธ์ ํ์ด๋ฅผ ์ค์ ์ผ๋ก ํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
AI ๊ธฐ๋ฐ ํ์ ์๋ฌธ ์์คํ
์์ ๋ฐ์ดํฐ ํ์งยทํ๊ฐ ๋ฌธ์ ๋ฅผ ๋ค๋ฃจ๋ฉฐ, MLE-bench์ ์ธ๊ณต์ง๋ฅ ์์ง๋์ด๋ง ๋ฒค์น๋งํฌ์ ๋น๊ต ํ์ฉ์ด ๊ฐ๋ฅํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
ํ
์ด๋ธ ๋ฐ ์ค์ธ๊ณ ๋ฐ์ดํฐ์
์์์ ๊ฐํ์ฑ ๊ฒ์ฆ์ ํตํด ์์ด์ ํธ ํ๊ฐ ๋ฐฉํฅ์ ์ ์ํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
MLRC-Bench๋ ๋จธ์ ๋ฌ๋ ์ฐ๊ตฌ ๊ณผ์ ์์ ์ธ์ด ์์ด์ ํธ์ ์ญ๋์ ํ๊ฐํ์ง๋ง, ๋ฐ์ดํฐ์
๊ตฌ์ฑ ๋ฐฉ์๊ณผ ํ๊ฐ ์ฒด๊ณ๊ฐ ๋ค๋ฅด๋ฏ๋ก ๋์์ ๋ฒค์น๋งํฌ๋ก ๋น๊ตํ ๊ฐ์น๊ฐ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
MLE-bench ์ญ์ ์คํ ๊ธฐ๋ฐ์ ํ๊ฐ๋ฅผ ๋ฐํ์ผ๋ก ๋ฐ์ดํฐ์ ์ฝ๋์ ์ค์ ์๋์ ํตํด LLM์ ๊ณผํ์ ์ถ๋ก ๋ฅ๋ ฅ์ ๊ฒ์ฆํ๋ฏ๋ก, ์คํ ์ค์ฌ ํ๊ฐ ๊ด์ ์์ ๊ฐ์ด ๋ณด๋ฉด ์ข์ต๋๋ค.
ํ์ ์ฐ๊ตฌ
MLE ์์ด์ ํธ์ ์ค์ ๋จธ์ ๋ฌ๋ ํ์คํฌ ์ฑ๋ฅ ํ๊ฐ ๋ฒค์น๋งํฌ๋ก, ๋ถ์ผ ํ๋์ ํ๊ฐ์ง์ ํ์์ ๋์์ด ๋๋ ์ต์ ์ฌ๋ก์
๋๋ค.
ํ์ ์ฐ๊ตฌ
MLE-bench(545)๋ ๋จธ์ ๋ฌ๋ ์์ด์ ํธ์ ๋ค์ํ ๋ฌธ์ ๋ฒค์น๋งํฌ๋ฅผ ์ ๊ณตํ๋ฉฐ, 421์ Text-to-SQL ์์
์ธ์๋ ์์ด์ ํธ ์ผ๋ฐํ ํ๊ฐ์ ์ ํฉํ๋ค.
ํ์ ์ฐ๊ตฌ
MLE-bench ๋
ผ๋ฌธ์ LLM ๊ธฐ๋ฐ ๊ณผํ์ ์ถ๋ก ๋ฐ ๋ถํ์ค์ฑ ํ๊ฐ๋ฅผ ์ํ ์๋ก์ด ๋ฒค์น๋งํฌ ์ค๊ณ๋ก์ ํ๋ฅ ๊ธฐ๋ฐ ๋ถํ์ค์ฑ ์ ๋ํ์ ์ค์ ํ๊ฐ ๋ฐฉ๋ฒ์ ์ถ๊ฐ๋ก ์ ์ํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
R&D-Agent ๋
ผ๋ฌธ์ ์ค์ ์ฐ์
ํ AI ์๋ฃจ์
๊ฐ๋ฐ์ ์ด์ ์ ๋ง์ถ ์์ด์ ํธ ๋ฒค์น๋งํน์ ๋ค๋ฃจ๋ฉฐ, MLE-bench ์ดํ์ ์ค์ฉ์ ํ์ฅ์ฑ์ ๋ณด์ฌ์ค๋ค.
ํ์ ์ฐ๊ตฌ
365๋ฒ์ 545๋ฒ๊ณผ ์ ์ฌํ AI ์์ด์ ํธ์ ์๋ํ์ ์ธ๊ฐ ์
๋ฌด ๋ณด์กฐ ํจ๊ณผ, ์ค๋ฌด ์ ์ฉ ๋ฌธ์ ๋ฅผ ๋ ๋ค์ํ ์์
ํ๊ฒฝ์์ ๋ถ์ํ๋ค.
ํ์ ์ฐ๊ตฌ
545์ MLE-bench๋ ๊ธฐ๊ณํ์ต ์ฐ๊ตฌ๋ก ๋ฒ์๋ฅผ ํ์ฅํ์ฌ, 528์ ์์ํ ๋ฐ์ดํฐ ๊ณผํ ํนํ ํ๋ จ ํ๊ฒฝ์ ๋ ๋์ ๋ฌธ์ ๋ก ํ์ฅํฉ๋๋ค.
์์ฉ ์ฌ๋ก
MLE-bench๋ LLM ๊ธฐ๋ฐ ์์ด์ ํธ์ ๋จธ์ ๋ฌ๋ ํ์คํฌ ํ๊ฐ ๋ฒค์น๋งํฌ๋ฅผ ์ ์, ์ค์ง์ ๋ฒค์น๋งํน ์์ฉ์ ๋ณด์ฌ์ค๋ค.
์์ฉ ์ฌ๋ก
์ธ๊ณต์ง๋ฅ ๊ธฐ๋ฐ ์ฐ๊ตฌ ์์ด์ ํธ๋ฅผ ์ค์ ๋จธ์ ๋ฌ๋ ๊ณผ์ ์ ์ฐ๋ํ์ฌ ํ๊ฐํ๋ ๋ฒค์น๋งํน ํ๊ฒฝ์ ์ ์ํฉ๋๋ค.