Autokaggle: A multi-agent framework for autonomous data science competitions

์ €์ž: Ziming Li, Qianbo Zang, David W.L., Jiawei Guo, Tuney Zheng, Minghao Liu, Xinyao Niu, Yue Wang, Jian Yang, Jiaheng Liu, Wanjun Zhong, Wangchunshu Zhou, Wenhao Huang, Ge ZHANG | ๋‚ ์งœ: 2024 | DOI: ๋ฏธ์ œ๊ณต 📄 PDF


Essence

Figure 1

Figure 1: AutoKaggle์˜ ๊ฐœ์š” - ์œ„์ƒ ๊ธฐ๋ฐ˜ ์›Œํฌํ”Œ๋กœ์šฐ, 5๊ฐœ์˜ ์ „๋ฌธ ์—์ด์ „ํŠธ, ๋ฐ˜๋ณต์  ๋””๋ฒ„๊น…/ํ…Œ์ŠคํŠธ, ML ๋„๊ตฌ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ, ์ƒ์„ธ ๋ฆฌํฌํŒ… ํ†ตํ•ฉ

AutoKaggle์€ LLM ๊ธฐ๋ฐ˜์˜ ๋‹ค์ค‘ ์—์ด์ „ํŠธ ์‹œ์Šคํ…œ์œผ๋กœ Kaggle ๋ฐ์ดํ„ฐ ๊ณผํ•™ ๊ฒฝ์ง„๋Œ€ํšŒ์—์„œ ์ „์ฒด ๋ฐ์ดํ„ฐ ํŒŒ์ดํ”„๋ผ์ธ์„ ์ž๋™์œผ๋กœ ์ˆ˜ํ–‰ํ•˜๋Š” ํ”„๋ ˆ์ž„์›Œํฌ์ž…๋‹ˆ๋‹ค. 8๊ฐœ์˜ Kaggle ๊ฒฝ์ง„๋Œ€ํšŒ์—์„œ 0.85์˜ ๊ฒ€์ฆ ์ œ์ถœ ์„ฑ๊ณต๋ฅ ๊ณผ 0.82์˜ ์ข…ํ•ฉ ์ ์ˆ˜๋ฅผ ๋‹ฌ์„ฑํ•˜์—ฌ ์‹ค๋ฌด ์ˆ˜์ค€์˜ ์„ฑ๋Šฅ์„ ์ž…์ฆํ•ฉ๋‹ˆ๋‹ค.

Motivation

Achievement

Figure 3

Figure 3: ๋‹ค์–‘ํ•œ ์„ค์ •/์ž‘์—…์— ๋Œ€ํ•œ ํ‰๊ท  ์ •๊ทœํ™”๋œ ์„ฑ๋Šฅ ์ ์ˆ˜

  1. ๋†’์€ ์ž‘์—… ์™„๋ฃŒ์œจ: 8๊ฐœ Kaggle ๊ฒฝ์ง„๋Œ€ํšŒ์—์„œ 0.85์˜ ๊ฒ€์ฆ ์ œ์ถœ ์„ฑ๊ณต๋ฅ  ๋‹ฌ์„ฑ์œผ๋กœ ์ธ๊ฐ„ ํ‰๊ท  ์ˆ˜์ค€ ์ด์ƒ์˜ ๊ฒฝ์Ÿ๋ ฅ ์žˆ๋Š” ์„ฑ๋Šฅ ์ž…์ฆ
  2. ํฌ๊ด„์  ์ž๋™ํ™” ์†”๋ฃจ์…˜: ๋ฐฐ๊ฒฝ ์ดํ•ด, ๋ฐ์ดํ„ฐ ์ •์ œ(DC), ํŠน์„ฑ ์—”์ง€๋‹ˆ์–ด๋ง(FE), ๋ชจ๋ธ ๊ตฌ์ถ•/๊ฒ€์ฆ/์˜ˆ์ธก(MBVP) ๋“ฑ 6๋‹จ๊ณ„์˜ ์™„์ „ํ•œ ํŒŒ์ดํ”„๋ผ์ธ ์ž๋™ํ™”
  3. ๊ฒฌ๊ณ ํ•œ ์ฝ”๋“œ ํ’ˆ์งˆ: ๋ฐ˜๋ณต์  ๋””๋ฒ„๊น…๊ณผ ๋‹จ์œ„ ํ…Œ์ŠคํŠธ(Unit Testing)๋ฅผ ํ†ตํ•ด ๋ฌธ๋ฒ•์  ์ •ํ™•์„ฑ๊ณผ ๋…ผ๋ฆฌ์  ์ผ๊ด€์„ฑ ๋™์‹œ ๋ณด์žฅ
  4. ํˆฌ๋ช…์„ฑ๊ณผ ์‹ ๋ขฐ์„ฑ: ๊ฐ ๋‹จ๊ณ„๋ณ„ ์ƒ์„ธ ๋ฆฌํฌํŠธ ์ƒ์„ฑ์œผ๋กœ ์˜์‚ฌ๊ฒฐ์ • ๊ณผ์ • ๊ฐ€์‹œํ™”, ์‚ฌ์šฉ์ž ์‹ ๋ขฐ๋„ ์ฆ๋Œ€ ๋ฐ ๊ต์œก ๋„๊ตฌ๋กœ์„œ์˜ ๊ธฐ๋Šฅ ์ˆ˜ํ–‰

How

Figure 2

Figure 2: ๋ฐ˜๋ณต์  ๋””๋ฒ„๊น…๊ณผ ํ…Œ์ŠคํŠธ ํ”„๋กœ์„ธ์Šค - ์ฝ”๋“œ ์ƒ์„ฑ โ†’ ์‹คํ–‰ โ†’ ๋ฒ„๊ทธ ํ™•์ธ โ†’ ํ…Œ์ŠคํŠธ ๋ฐ˜๋ณต

Originality

Limitation & Further Study

Evaluation

์ดํ‰: AutoKaggle์€ LLM ๊ธฐ๋ฐ˜ ๋ฐ์ดํ„ฐ ๊ณผํ•™ ์ž๋™ํ™”์˜ ์‹ค์ œ ์ ์šฉ ์‚ฌ๋ก€๋กœ, ์œ„์ƒ ๊ธฐ๋ฐ˜ ์›Œํฌํ”Œ๋กœ์šฐ์™€ ๋‹ค์ค‘ ์—์ด์ „ํŠธ ํ˜‘๋ ฅ์„ ํ†ตํ•ด ์™„์ „ํ•œ ๋ฐ์ดํ„ฐ ํŒŒ์ดํ”„๋ผ์ธ ์ž๋™ํ™”๋ฅผ ์‹œ๋„ํ•œ ์˜๋ฏธ ์žˆ๋Š” ์ž‘์—…์ž…๋‹ˆ๋‹ค. ํŠนํžˆ ๋ฐ˜๋ณต์  ํ…Œ์ŠคํŠธ์™€ ์ธ๊ฐ„-๋ฃจํ”„ ํ†ตํ•ฉ, ํˆฌ๋ช…์„ฑ ๊ฐ•ํ™”๋Š” ์‹ค๋ฌด ์‹ ๋ขฐ์„ฑ์„ ๋†’์ด๋Š” ๊ฐ•์ ์ž…๋‹ˆ๋‹ค. ๋‹ค๋งŒ ๊ธฐ์ˆ ์  ํ˜์‹ ์„ฑ์€ ์ค‘๊ฐ„ ์ˆ˜์ค€์ด๋ฉฐ, ํ‰๊ฐ€ ๋ฒ”์œ„(Kaggle 8๊ฐœ), ๋ฒค์น˜๋งˆํฌ ์ •์˜์˜ ๋ช…ํ™•์„ฑ, ์‹ค์ œ ๊ณ„์‚ฐ ๋น„์šฉ ๋ถ„์„ ๋ถ€์žฌ ๋“ฑ์ด ๋…ผ๋ฌธ์˜ ํ•œ๊ณ„์ž…๋‹ˆ๋‹ค. ์ถ”ํ›„ ๋” ๊ด‘๋ฒ”์œ„ํ•œ ๋ฐ์ดํ„ฐ ํƒ€์ž…, ๋„๋ฉ”์ธ, ํ”Œ๋žซํผ์œผ๋กœ์˜ ๊ฒ€์ฆ๊ณผ ์ƒ์„ธํ•œ ๊ธฐ์ˆ  ๋ฌธ์„œํ™”๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
LLM ์—์ด์ „ํŠธ๊ฐ€ ๋ฐ์ดํ„ฐ ํŒŒ์ดํ”„๋ผ์ธ ๋ฐ ๊ณผํ•™์  ๋ถ„์„์— ํ™œ์šฉ๋  ์ˆ˜ ์žˆ๋Š” ์›๋ฆฌ๋ฅผ ์ œ์‹œํ•˜์—ฌ, Autokaggle์˜ ๊ธฐ์ดˆ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Ds-agent ๋…ผ๋ฌธ์€ ๋‹ค์ค‘ LLM ์—์ด์ „ํŠธ ์‹œ์Šคํ…œ์˜ ์ž๋™ํ™” ๋ฐ์ดํ„ฐ ๊ณผํ•™ ํŒŒ์ดํ”„๋ผ์ธ ๊ตฌํ˜„์— ํ•„์š”ํ•œ ํ•ต์‹ฌ ๊ตฌ์„ฑ์š”์†Œ๋ฅผ ๋‹ค๋ฃน๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
121๋ฒˆ์€ ์™„์ „ ์ž๋™ํ™” ์˜คํ† ML ๋ฉ€ํ‹ฐ์—์ด์ „ํŠธ ๋ฐฉ์‹์œผ๋กœ, MLCopilot์˜ ํ•ด์„์  ์—์ด์ „ํŠธ ๊ตฌ์กฐ์™€ ๋Œ€์กฐ์  ๋น„๊ต๊ฐ€ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Autokaggle์€ LLM ๊ธฐ๋ฐ˜ ๋‹ค์ค‘ ์—์ด์ „ํŠธ ์ž๋™ ๋ฐ์ดํ„ฐ ๊ณผํ•™ ํ”„๋ ˆ์ž„์›Œํฌ๋กœ AutoML-GPT์™€ ์œ ์‚ฌํ•œ ์ž๋™ํ™” ๋ชฉ์ ์„ ๊ฐ€์กŒ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Kaggle ๋“ฑ ๋ฐ์ดํ„ฐ ๊ณผํ•™ ์ฑŒ๋ฆฐ์ง€์˜ ์ž๋™ํ™” AI ์—์ด์ „ํŠธ ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•œ๋‹ค๋Š” ์ ์—์„œ ์œ ์‚ฌ ๋ฌธ์ œ์— ๋Œ€ํ•œ ๋‹ค๋ฅธ ์ ‘๊ทผ์ž…๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
121๋ฒˆ ๋…ผ๋ฌธ์€ ์ž๋™ ๋ฐ์ดํ„ฐ ์‚ฌ์ด์–ธ์Šค ์‹คํ—˜ ๊ตฌ์ถ•์„ ์œ„ํ•œ ๋ฉ€ํ‹ฐ์—์ด์ „ํŠธ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์‹œํ•ด, CellAgent์˜ ์‹คํ–‰ํ˜• ๊ตฌ์กฐ์™€ ๋น„๊ต์  ์œ ์‚ฌํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
121๋ฒˆ ๋…ผ๋ฌธ์€ ์ž๋™ํ™”๋œ ๋ฐ์ดํ„ฐ ์‚ฌ์ด์–ธ์Šค ์ž‘์—…์„ ์œ„ํ•œ ๋ฉ€ํ‹ฐ ์—์ด์ „ํŠธ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•˜์—ฌ DS-agent์™€ ๋ฐฉ๋ฒ•์ƒ ์œ ์‚ฌ์ ์ด๋‚˜ ์ฐจ๋ณ„์ ์„ ์ดํ•ดํ•˜๋Š” ๋ฐ ๋„์›€์ด ๋ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ง€๋ฆฌ๊ณต๊ฐ„ ๋ฐ์ดํ„ฐ ์ž๋™ ๋ฐœ๊ฒฌ ๋ฐ ํ†ตํ•ฉ์„ ์œ„ํ•œ ๋‹ค๋ฅธ AI ๊ธฐ๋ฐ˜ ์ ‘๊ทผ ๋ฐฉ์‹์„ ์ œ์•ˆํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM ๊ธฐ๋ฐ˜ ๋„๊ตฌ ์‚ฌ์šฉ ์—์ด์ „ํŠธ๋ฅผ ์ง€๋ฆฌ๊ณต๊ฐ„ ๋ถ„์„์— ์ ์šฉํ•˜๋Š” ๊ด€๋ จ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๊ฐ ๋…ผ๋ฌธ ๋ชจ๋‘ LLM ๊ธฐ๋ฐ˜ ๋ฉ€ํ‹ฐ์—์ด์ „ํŠธ ์—ฐ๊ตฌ ์ž๋™ํ™”(๋ฐ์ดํ„ฐ ๊ณผํ•™ vs. ์‹ ์•ฝ ๊ฐœ๋ฐœ)๋ฅผ ์‹ค์ œ ๋ฐ์ดํ„ฐ๋กœ ์ž…์ฆํ•˜๋ฉฐ ๋ฌธ์ œ ์ ์šฉ ๋ถ„์•ผ๋งŒ ๋‹ค๋ฆ…๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
AutoKaggle์˜ ๋ฉ€ํ‹ฐ์—์ด์ „ํŠธ ์ ์šฉ๊ณผ X-WebAgentBench์˜ ๋‹ค๊ตญ์–ด/๋‹ค์„ธ๊ณ„ ํ‰๊ฐ€๋กœ ์—์ด์ „ํŠธ ์ ์šฉ๋ฒ”์œ„ ํ™•์žฅ ๊ด€์ ์—์„œ ์ฐธ๊ณ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Autokaggle ๋…ผ๋ฌธ์€ ์ž๋™ ์žฌํ˜„/์‹คํ—˜ ์„ธํŒ… ์ž๋™ํ™”์— ์ดˆ์ ์„ ๋งž์ถ”๋Š” ๋ฐฉ๋ฒ•๋ก ์œผ๋กœ, paper-lineage ๋Œ€์‹  workflow ์ค‘์‹ฌ์œผ๋กœ ์ ‘๊ทผํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
121์˜ ์ž๋™ํ™” ๋„๊ตฌ ๊ตฌํ˜„ ์‚ฌ๋ก€๋Š” 025์˜ ์žฌ๋ฃŒ๊ณผํ•™์šฉ ๋ฒ”์šฉ LLMยทAI ์—์ด์ „ํŠธ ์„œ๋ฒ ์ด์—์„œ ์ œ์‹œํ•˜๋Š” ์‘์šฉ ๋ฐฉํ–ฅ๊ณผ ์—ฐ๊ฒฐ๋ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
๋‹ค๊ตญ์–ด ์›น ์—์ด์ „ํŠธ ํ‰๊ฐ€๊ฐ€ ๋ฐ์ดํ„ฐ๊ณผํ•™ ๊ฒฝ์ง„๋Œ€ํšŒ ๋ฐ ์‹ค์ „์  ๋ฉ€ํ‹ฐ์—์ด์ „ํŠธ ํ”Œ๋ ›ํผ ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ์„ ๊ตฌ์ฒดํ™”ํ•ฉ๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •