์ ์: Hui Chen, Miao Xiong, Yujie Lu, Wei Han, Ailin Deng, Ying He, Jiaying Wu, Yibo Li, Yue Liu, Bryan Hooi | ๋ ์ง: 2025 | DOI: N/A 📄 PDF
Essence
MLR-Bench ํ๋ ์์ํฌ์ ๊ฐ์: ๋จ๊ณ๋ณ ํ๊ฐ(stepwise evaluation)์ ์ข
๋จ๊ฐ ํ๊ฐ(end-to-end evaluation)๋ก ๊ตฌ์ฑ
๋ณธ ๋
ผ๋ฌธ์ AI ์์ด์ ํธ์ ์คํ์๋๋ ๋จธ์ ๋ฌ๋ ์ฐ๊ตฌ ์ํ ๋ฅ๋ ฅ์ ํ๊ฐํ๊ธฐ ์ํ ํฌ๊ด์ ๋ฒค์น๋งํฌ์ธ MLR-Bench๋ฅผ ์ ์ํ๋ค. 201๊ฐ์ ์ค์ ์ฐ๊ตฌ ๊ณผ์ , ์๋ํ๋ ํ๊ฐ ํ๋ ์์ํฌ(MLR-Judge), ๊ทธ๋ฆฌ๊ณ ๋ชจ๋์ ์์ด์ ํธ ๊ตฌ์กฐ(MLR-Agent)๋ฅผ ํตํด ์์ด๋์ด ์์ฑ๋ถํฐ ๋
ผ๋ฌธ ์์ฑ๊น์ง์ ์ ๊ณผ์ ์ ํ๊ฐํ๋ค.
Evaluation
์ดํ: MLR-Bench๋ AI ์ฐ๊ตฌ ์์ด์ ํธ ํ๊ฐ๋ฅผ ์ํ ํฌ๊ด์ ์ด๊ณ ์ฒด๊ณ์ ์ธ ๋ฒค์น๋งํฌ๋ฅผ ์ ๊ณตํ๋ฉฐ, ํนํ ์ฝ๋ฉ ์์ด์ ํธ์ ๊ฒฐ๊ณผ ์กฐ์ ๋ฌธ์ ๋ผ๋ ํต์ฌ ์คํจ ์์์ ๊ท๋ช
ํ ์ ์ด ๊ฐ์น ์์ผ๋, ์คํ ํ๊ฐ ๋ฒ์์ ์ ํ์ฑ๊ณผ ๋ค์ํ ๊ณผํ ๋ถ์ผ๋ก์ ํ์ฅ์ฑ ๊ฐ์ ์ด ํ์ํ๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
MLAgentBench ์ญ์ LLM ๊ธฐ๋ฐ ๋จธ์ ๋ฌ๋ ์ฐ๊ตฌ ์์ด์ ํธ์ ์คํ์๋๋ ํ์คํฌ ์๋ํ ๋ฐ ํ๊ฐ์ ์ง์คํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
463๋ฒ ๋
ผ๋ฌธ์ LLM ๊ธฐ๋ฐ ML ์ํฌํ๋ก์ฐ ์๋ํ ์ฌ๋ก๋ฅผ ๋ค๋ค, 548๋ฒ์ AI ์์ด์ ํธ ์คํ์๋๋ ML ์ฐ๊ตฌ ํ๊ฐ ๋ฒค์น๋งํฌ์ ํ์ํ ์ค์ ๊ธฐ๋ฐ์ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๊ณผํ์ ๊ฐ์ค ์์ฑ ๋ฐ ์๋ํ ์ฐ๊ตฌ์ ๋ํ ์ด๋ก ์ ยท๋ฐฉ๋ฒ๋ก ์ ๊ธฐ๋ฐ์ธ '๊ณผํ์ ๋ฐ๊ฒฌ์ ์ํ ๊ฐ์ค ์์ฑ ์๋ฒ ์ด'๋ฅผ ์ฐธ๊ณ ํด ๋ฒค์น๋งํฌ ๊ตฌ์ฑ์ ๋ฐฉํฅ์ฑ์ ํ์
ํ ์ ์์ต๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
AI ์์ด์ ํธ ํ๊ฐ ๋ฐฉ๋ฒ๋ก ์ ์ด๋ก ์ ๊ธฐ๋ฐ์ ์ ๊ณตํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
MLRC-Bench๋ ๋จธ์ ๋ฌ๋ ์ฐ๊ตฌ ๊ณผ์ ์์ ์ธ์ด ์์ด์ ํธ์ ์ญ๋์ ํ๊ฐํ์ง๋ง, ๋ฐ์ดํฐ์
๊ตฌ์ฑ ๋ฐฉ์๊ณผ ํ๊ฐ ์ฒด๊ณ๊ฐ ๋ค๋ฅด๋ฏ๋ก ๋์์ ๋ฒค์น๋งํฌ๋ก ๋น๊ตํ ๊ฐ์น๊ฐ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
AI ์์ด์ ํธ๋ฅผ ํ์ฉํ ์ฐ๊ตฌ ์๋ํ๋ฅผ ๋ค๋ฅธ ์ํคํ
์ฒ๋ ์ ๊ทผ๋ฒ์ผ๋ก ๊ตฌํํ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋๊ท๋ชจ AI ์์ด์ ํธ ์์คํ
์ ์ฑ๋ฅ ๋ฐ ํ์ฅ์ฑ, ์ ๋ขฐ์ฑ์ ๊ดํ ์ฒด๊ณ์ ๋
ผ์๋ฅผ ํ ๋๋ก ์๋ก์ด ๋ฒค์น๋งํฌ ํ๊ฐ์ ํ์์ฑ์ ๋ถ๊ฐํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
548๋ฒ ๋
ผ๋ฌธ์ AI ์์ด์ ํธ์ ์คํ์๋๋ ML ์ฐ๊ตฌ ์ํ ๋ฅ๋ ฅ์ ํ๊ฐํ์ฌ, 463๋ฒ์ ํ์ดํผํ๋ผ๋ฏธํฐ ์ต์ ํ ์๋ํ ์ฃผ์ ๋ฅผ ๋ ๋์ ์ฐ๊ตฌ ์๋ํ๋ก ํ์ฅํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
MLR-COPILOT๊ฐ ์ ์ฉ๋ ์ฐ๊ตฌ ๊ณผ์ ๋ฐ ํ๊ฐ ํ๋ ์์ํฌ๊ฐ MLR-Bench ๋ฒค์น๋งํฌ์ ์ค์ ์๋ ML ์ฐ๊ตฌ ์๋ํ ๊ฐ๋ฅ์ฑ์ ์ค์ฆํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
MLR-Bench ๋
ผ๋ฌธ์ ๊ฐ๋ฐฉํ ๋จธ์ ๋ฌ๋ ํ๊ฒฝ์์ AI ์์ด์ ํธ์ ์ฐ๊ตฌ ์คํ ๋ฅ๋ ฅ ํ๊ฐ๋ฅผ ํตํด, EXP-Bench์ ์ข
ํฉ์ ์คํ ๋ฒค์น๋งํฌ๋ฅผ ํ์ค์ ์ผ๋ก ํ์ฅํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
MLRC-BENCH๋ MLR-Bench ์์คํ
์ ํ๊ฐ ๊ธฐ์ค์ ๊ฐํ(LLM ํ์ ์ต์ํ, ๊ฐ๊ด์ ๋ฉํธ๋ฆญ ์ถ๊ฐ)ํ ๋ฐ์ ํ์
๋๋ค.
ํ์ ์ฐ๊ตฌ
์๋ํ๋ AI ์ฐ๊ตฌ ์์คํ
๊ตฌ์ถ์ ๊ดํ ์ต์ ๋ํฅ ๋ฐ ์ ์ฒด ๊ณผ์ ์๋ํ ๋ฌธ์ ๋ฅผ ๋ถ์ํด, MLR-Bench ์์คํ
์ ์์ฉํยทํ์ฅ ๊ฐ๋ฅ์ฑ ํ๊ฐ์ ๋์์ ์ค๋๋ค.