MLAgentBench: Evaluating Language Agents on Machine Learning Experimentation

์ €์ž: Qian Huang, Jian Vora, Percy Liang, Jure Leskovec | ๋‚ ์งœ: 2023 | DOI: arXiv:2310.03302 📄 PDF


Essence

Figure 1

MLAgentBench์˜ ๊ฐœ์š”. ๊ฐ ํ™˜๊ฒฝ์€ ์ž‘์—… ์„ค๋ช…, ์‹œ์ž‘ ํŒŒ์ผ, ํ‰๊ฐ€๊ธฐ๋ฅผ ํฌํ•จํ•˜๋ฉฐ, ์—์ด์ „ํŠธ๋Š” ํŒŒ์ผ์„ ์ฝ๊ณ /์“ฐ๊ณ  Python ์ฝ”๋“œ๋ฅผ ๋ฐ˜๋ณต์ ์œผ๋กœ ์‹คํ–‰ํ•˜์—ฌ ์ตœ์ข… ์ œ์ถœ ํŒŒ์ผ์„ ์ƒ์„ฑ

๋ณธ ๋…ผ๋ฌธ์€ ๋จธ์‹ ๋Ÿฌ๋‹ ์‹คํ—˜์„ ์ž๋™์œผ๋กœ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋Š” ์–ธ์–ด ๋ชจ๋ธ ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ๋ฅผ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•œ ๋ฒค์น˜๋งˆํฌ(MLAgentBench)๋ฅผ ์ œ์•ˆํ•œ๋‹ค. 13๊ฐœ์˜ ๋‹ค์–‘ํ•œ ML ์ž‘์—…์„ ํ†ตํ•ด ์ตœ์‹  ์–ธ์–ด ๋ชจ๋ธ๋“ค์˜ ML ์‹คํ—˜ ์ˆ˜ํ–‰ ๋Šฅ๋ ฅ์„ ์ฒด๊ณ„์ ์œผ๋กœ ํ‰๊ฐ€ํ•œ๋‹ค.

Motivation

Achievement

Figure 2

LM ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ์˜ ๊ฐœ์š”. ๊ฐ ๋‹จ๊ณ„์—์„œ ํ”„๋กฌํ”„ํŠธ์™€ ๋ฌธ๋งฅ์€ ๋‹จ๊ณ„๋ณ„ ๋ฐ˜์˜(reflection), ๊ณ ์ฐจ์› ๊ณ„ํš, ์‚ฌ์‹ค ํ™•์ธ, ์ถ”๋ก ์„ ํฌํ•จ

  1. ๋ฒค์น˜๋งˆํฌ ๊ตฌ์ถ•: CIFAR-10 ๊ฐ™์€ ๊ณ ์ „์  ๋ฐ์ดํ„ฐ์…‹๋ถ€ํ„ฐ BabyLM, Kaggle ์ฑŒ๋ฆฐ์ง€ ๋“ฑ ์ตœ์‹  ์—ฐ๊ตฌ ๋ฌธ์ œ๊นŒ์ง€ ํฌํ•จํ•˜๋Š” 13๊ฐœ ํƒœ์Šคํฌ๋กœ ๊ตฌ์„ฑ๋œ ํฌ๊ด„์  ๋ฒค์น˜๋งˆํฌ ์ƒ์„ฑ
  2. ์„ฑ๋Šฅ ํ‰๊ฐ€: Claude v3 Opus ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ๊ฐ€ ํ‰๊ท  37.5% ์„ฑ๊ณต๋ฅ ์„ ๋‹ฌ์„ฑํ•˜๋ฉฐ, ๊ธฐ์กด ReAct ๋ฐ AutoGPT ์—์ด์ „ํŠธ ๋Œ€๋น„ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ ์ž…์ฆ
  3. ์ž‘์—…๋ณ„ ํŽธ์ฐจ ๋ถ„์„:
    • ๊ณ ์ „์  ์ž‘์—…(house-price): 100% ์„ฑ๊ณต๋ฅ 
    • Kaggle ์ฑŒ๋ฆฐ์ง€ ๋ฐ BabyLM: 0~25% ์„ฑ๊ณต๋ฅ 
    • ์ด๋Š” ์‚ฌ์ „ํ•™์Šต ์‹œ๊ธฐ ์ดํ›„์˜ ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ์…‹์—์„œ์˜ ์ผ๋ฐ˜ํ™” ํ•œ๊ณ„๋ฅผ ์‹œ์‚ฌ
  4. ํ•ด์„๊ฐ€๋Šฅ์„ฑ: ์—์ด์ „ํŠธ์˜ ์—ฐ๊ตฌ ๊ณ„ํš๊ณผ ํ–‰๋™์ด ๋†’์€ ํ•ด์„๊ฐ€๋Šฅ์„ฑ์„ ๋ณด์—ฌ ์ธ๊ฐ„์˜ ๊ฐœ์ž…๊ณผ ๊ฐ์‹œ๊ฐ€ ๊ฐ€๋Šฅํ•จ์„ ์ž…์ฆ

How

Figure 3

์‹œ๊ฐ„ ์Šคํ…๋ณ„ ์„ฑ๋Šฅ ํ‰๊ฐ€

ํ™˜๊ฒฝ ์„ค๊ณ„

์—์ด์ „ํŠธ ์•„ํ‚คํ…์ฒ˜

ํ‰๊ฐ€ ์ง€ํ‘œ

Originality

Limitation & Further Study

ํ•œ๊ณ„

ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

Evaluation

์ดํ‰: ๋ณธ ๋…ผ๋ฌธ์€ ์–ธ์–ด ๋ชจ๋ธ ๊ธฐ๋ฐ˜ ML ์ž๋™ํ™”์˜ ๊ฐ€๋Šฅ์„ฑ๊ณผ ํ•œ๊ณ„๋ฅผ ์ฒด๊ณ„์ ์œผ๋กœ ํ‰๊ฐ€ํ•˜๋Š” ์ฒซ ์ข…ํ•ฉ ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ์‹œํ•˜์—ฌ ํ•™๊ณ„์— ์ค‘์š”ํ•œ ๊ธฐ์ค€์ ์„ ์ œ๊ณตํ•œ๋‹ค. ๋‹ค์–‘ํ•œ ์ž‘์—… ๋ฒ”์œ„์™€ ํฌ๊ด„์  ๋ชจ๋ธ ๋น„๊ต๋Š” ๊ฐ•์ ์ด๋‚˜, 37.5%์˜ ์ œํ•œ์  ์„ฑ๊ณต๋ฅ ๊ณผ ์‹œ๊ฐ„ ์™ธ์‚ฝ ๊ณผ์ œ์˜ ๋Œ€๊ทœ๋ชจ ์‹คํŒจ๋Š” ํ˜„์žฌ ์–ธ์–ด ๋ชจ๋ธ ์—์ด์ „ํŠธ์˜ ์‹ ๋ขฐ์„ฑ์— ๋Œ€ํ•œ ํ˜„์‹ค์ ์ธ ์ธ์‹์„ ์ œ์‹œํ•œ๋‹ค. ํ–ฅํ›„ ๊ณ„ํš ์ˆ˜๋ฆฝ ๋ฐ ์žฌ๊ณ„ํš ๋ฉ”์ปค๋‹ˆ์ฆ˜ ์—ฐ๊ตฌ์— ๋ฐฉํ–ฅ์„ฑ์„ ์ œ์‹œํ•˜๋Š” ๊ฐ€์น˜ ์žˆ๋Š” ๊ธฐ์ดˆ ์—ฐ๊ตฌ์ด๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
MLAgentBench ์—ญ์‹œ LLM ๊ธฐ๋ฐ˜ ๋จธ์‹ ๋Ÿฌ๋‹ ์—ฐ๊ตฌ ์—์ด์ „ํŠธ์˜ ์˜คํ”ˆ์—”๋””๋“œ ํƒœ์Šคํฌ ์ž๋™ํ™” ๋ฐ ํ‰๊ฐ€์— ์ง‘์ค‘ํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
542๋ฒˆ ๋…ผ๋ฌธ์€ ML ๊ณผ์ œ๋ฅผ ์œ„ํ•œ ์–ธ์–ด๋ชจ๋ธ ๊ธฐ๋ฐ˜์˜ ์—์ด์ „ํŠธ ํ‰๊ฐ€์ฒด๊ณ„๋ฅผ ์ œ๊ณตํ•˜์—ฌ, 259๋ฒˆ์˜ ์ž๋™ํ™”๋œ ๋ฐ์ดํ„ฐ ๋ถ„์„ ์„ฑ๊ณผ ๊ฒ€์ฆ์— ํ† ๋Œ€๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
452(L-CiteEval)์€ LLM ๊ธฐ๋ฐ˜ ์žฅ๋ฌธ๋งฅ ํ™œ์šฉ ํ‰๊ฐ€๋ฒค์น˜๋งˆํฌ๋กœ, 542์™€ ๊ฐ™์ด ์—์ด์ „ํŠธ ๊ธฐ๋ฐ˜ ์ž๋™ํ™” ์‹œ์Šคํ…œ์˜ ์„ฑ๋Šฅ์„ ๋‹ค๊ฐ์ ์œผ๋กœ ๊ฒ€์ฆํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
MLAgentBench์™€ ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ ๋จธ์‹ ๋Ÿฌ๋‹ ์‹คํ—˜ ์ž๋™ํ™” ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ๊ณตํ•˜์ง€๋งŒ, 545๋Š” ํ‰๊ฐ€ ๋ฐ์ดํ„ฐ์™€ ์„ธ๋ถ€ ๋ฏธ์…˜ ๊ตฌ์„ฑ์ด ๋‹ค๋ฆ…๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜ ๊ณผํ•™ ํƒ๊ตฌ๋ฅผ ์œ„ํ•œ ์–ธ์–ด ๋ชจ๋ธ ์—์ด์ „ํŠธ ๋ฒค์น˜๋งˆํฌ๋กœ, MLAgentBench์™€ ๋‹ค๋ฅธ ํ‰๊ฐ€ ๊ธฐ์ค€ ๋ฐ ๋ฌธ์ œ ์„ค์ •์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๊ณผํ•™ ์‹คํ—˜ ์ž๋™ํ™” ์—์ด์ „ํŠธ์˜ ๊ธฐ์ดˆ ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ํ”„๋ ˆ์ž„์›Œํฌ๋กœ MLAgentBench์™€ ๋ฌธ์ œ์‹์ด ์ผ์น˜ํ•จ.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋จธ์‹ ๋Ÿฌ๋‹ ์—ฐ๊ตฌ ํ•ด๋ฒ•์˜ ์˜คํ”ˆ์—”๋””๋“œ ๋ฌธ์ œ ํ•ด๊ฒฐ์„ ์œ„ํ•œ ์—์ด์ „ํŠธ ํ‰๊ฐ€ ๋ฒค์น˜๋งˆํฌ๋กœ์„œ ML ์‹คํ—˜ ์ž๋™ํ™” ํ‰๊ฐ€์™€ ์ง์ ‘ ๋น„๊ต๋จ.
๋‹ค๋ฅธ ์ ‘๊ทผ
MLAgentBench ๋…ผ๋ฌธ์€ ํŒŒ์ผ ๊ธฐ๋ฐ˜ ๊ณผ์ œ์—์„œ LLM ์—์ด์ „ํŠธ์˜ ํ•™์Šต ๋ฐ ๋ฒค์น˜๋งˆํ‚น ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์‹œํ•˜์—ฌ, MedAgentGym๊ณผ ์ฝ”๋“œ์ค‘์‹ฌ ๊ณผ์ œ์—์„œ ๋น„๊ต๋œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
MLE ์—์ด์ „ํŠธ์˜ ์‹ค์ œ ๋จธ์‹ ๋Ÿฌ๋‹ ํƒœ์Šคํฌ ์„ฑ๋Šฅ ํ‰๊ฐ€ ๋ฒค์น˜๋งˆํฌ๋กœ, ๋ถ„์•ผ ํ™•๋Œ€์™€ ํ‰๊ฐ€์ง€์  ํƒ์ƒ‰์— ๋„์›€์ด ๋˜๋Š” ์ตœ์‹  ์‚ฌ๋ก€์ž…๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
MLAgentBench ๋…ผ๋ฌธ์€ ๋จธ์‹ ๋Ÿฌ๋‹ ์‹ค๋ฌด ์ž‘์—…์—์„œ์˜ LLM ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ ํ‰๊ฐ€๋ฅผ ์ค‘์ ์ ์œผ๋กœ ๋‹ค๋ฃจ์–ด, ๋ฐ์ดํ„ฐ ๊ณผํ•™ ๋ฒ”์œ„ ํ™•์žฅ ๋ฐ ์‘์šฉ์„ฑ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
Biodsa-1k๋Š” ๋ฐ”์ด์˜ค๋ฉ”๋””์ปฌ ๋ฐ์ดํ„ฐ์‚ฌ์ด์–ธ์Šค์šฉ ์—์ด์ „ํŠธ ํ‰๊ฐ€ ๋ฒค์น˜๋งˆํฌ๋กœ, MLAgentBench์˜ ๋ฐฉ๋ฒ•์„ ๊ตฌ์ฒด์  ์˜๋ฃŒ์˜์—ญ์— ์ ์šฉํ•ฉ๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •