์ ์: Ziming Li, Qianbo Zang, David W.L., Jiawei Guo, Tuney Zheng, Minghao Liu, Xinyao Niu, Yue Wang, Jian Yang, Jiaheng Liu, Wanjun Zhong, Wangchunshu Zhou, Wenhao Huang, Ge ZHANG | ๋ ์ง: 2024 | DOI: ๋ฏธ์ ๊ณต 📄 PDF
Essence
Figure 1: AutoKaggle์ ๊ฐ์ - ์์ ๊ธฐ๋ฐ ์ํฌํ๋ก์ฐ, 5๊ฐ์ ์ ๋ฌธ ์์ด์ ํธ, ๋ฐ๋ณต์ ๋๋ฒ๊น
/ํ
์คํธ, ML ๋๊ตฌ ๋ผ์ด๋ธ๋ฌ๋ฆฌ, ์์ธ ๋ฆฌํฌํ
ํตํฉ
AutoKaggle์ LLM ๊ธฐ๋ฐ์ ๋ค์ค ์์ด์ ํธ ์์คํ
์ผ๋ก Kaggle ๋ฐ์ดํฐ ๊ณผํ ๊ฒฝ์ง๋ํ์์ ์ ์ฒด ๋ฐ์ดํฐ ํ์ดํ๋ผ์ธ์ ์๋์ผ๋ก ์ํํ๋ ํ๋ ์์ํฌ์
๋๋ค. 8๊ฐ์ Kaggle ๊ฒฝ์ง๋ํ์์ 0.85์ ๊ฒ์ฆ ์ ์ถ ์ฑ๊ณต๋ฅ ๊ณผ 0.82์ ์ข
ํฉ ์ ์๋ฅผ ๋ฌ์ฑํ์ฌ ์ค๋ฌด ์์ค์ ์ฑ๋ฅ์ ์
์ฆํฉ๋๋ค.
Evaluation
์ดํ: AutoKaggle์ LLM ๊ธฐ๋ฐ ๋ฐ์ดํฐ ๊ณผํ ์๋ํ์ ์ค์ ์ ์ฉ ์ฌ๋ก๋ก, ์์ ๊ธฐ๋ฐ ์ํฌํ๋ก์ฐ์ ๋ค์ค ์์ด์ ํธ ํ๋ ฅ์ ํตํด ์์ ํ ๋ฐ์ดํฐ ํ์ดํ๋ผ์ธ ์๋ํ๋ฅผ ์๋ํ ์๋ฏธ ์๋ ์์
์
๋๋ค. ํนํ ๋ฐ๋ณต์ ํ
์คํธ์ ์ธ๊ฐ-๋ฃจํ ํตํฉ, ํฌ๋ช
์ฑ ๊ฐํ๋ ์ค๋ฌด ์ ๋ขฐ์ฑ์ ๋์ด๋ ๊ฐ์ ์
๋๋ค. ๋ค๋ง ๊ธฐ์ ์ ํ์ ์ฑ์ ์ค๊ฐ ์์ค์ด๋ฉฐ, ํ๊ฐ ๋ฒ์(Kaggle 8๊ฐ), ๋ฒค์น๋งํฌ ์ ์์ ๋ช
ํ์ฑ, ์ค์ ๊ณ์ฐ ๋น์ฉ ๋ถ์ ๋ถ์ฌ ๋ฑ์ด ๋
ผ๋ฌธ์ ํ๊ณ์
๋๋ค. ์ถํ ๋ ๊ด๋ฒ์ํ ๋ฐ์ดํฐ ํ์
, ๋๋ฉ์ธ, ํ๋ซํผ์ผ๋ก์ ๊ฒ์ฆ๊ณผ ์์ธํ ๊ธฐ์ ๋ฌธ์ํ๊ฐ ํ์ํฉ๋๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
LLM ์์ด์ ํธ๊ฐ ๋ฐ์ดํฐ ํ์ดํ๋ผ์ธ ๋ฐ ๊ณผํ์ ๋ถ์์ ํ์ฉ๋ ์ ์๋ ์๋ฆฌ๋ฅผ ์ ์ํ์ฌ, Autokaggle์ ๊ธฐ์ด๋ฅผ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Ds-agent ๋
ผ๋ฌธ์ ๋ค์ค LLM ์์ด์ ํธ ์์คํ
์ ์๋ํ ๋ฐ์ดํฐ ๊ณผํ ํ์ดํ๋ผ์ธ ๊ตฌํ์ ํ์ํ ํต์ฌ ๊ตฌ์ฑ์์๋ฅผ ๋ค๋ฃน๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
121๋ฒ์ ์์ ์๋ํ ์คํ ML ๋ฉํฐ์์ด์ ํธ ๋ฐฉ์์ผ๋ก, MLCopilot์ ํด์์ ์์ด์ ํธ ๊ตฌ์กฐ์ ๋์กฐ์ ๋น๊ต๊ฐ ๊ฐ๋ฅํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
Autokaggle์ LLM ๊ธฐ๋ฐ ๋ค์ค ์์ด์ ํธ ์๋ ๋ฐ์ดํฐ ๊ณผํ ํ๋ ์์ํฌ๋ก AutoML-GPT์ ์ ์ฌํ ์๋ํ ๋ชฉ์ ์ ๊ฐ์ก๋ค.
๋ค๋ฅธ ์ ๊ทผ
Kaggle ๋ฑ ๋ฐ์ดํฐ ๊ณผํ ์ฑ๋ฆฐ์ง์ ์๋ํ AI ์์ด์ ํธ ์ฑ๋ฅ์ ํ๊ฐํ๋ค๋ ์ ์์ ์ ์ฌ ๋ฌธ์ ์ ๋ํ ๋ค๋ฅธ ์ ๊ทผ์
๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
121๋ฒ ๋
ผ๋ฌธ์ ์๋ ๋ฐ์ดํฐ ์ฌ์ด์ธ์ค ์คํ ๊ตฌ์ถ์ ์ํ ๋ฉํฐ์์ด์ ํธ ํ๋ ์์ํฌ๋ฅผ ์ ์ํด, CellAgent์ ์คํํ ๊ตฌ์กฐ์ ๋น๊ต์ ์ ์ฌํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
121๋ฒ ๋
ผ๋ฌธ์ ์๋ํ๋ ๋ฐ์ดํฐ ์ฌ์ด์ธ์ค ์์
์ ์ํ ๋ฉํฐ ์์ด์ ํธ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ์ฌ DS-agent์ ๋ฐฉ๋ฒ์ ์ ์ฌ์ ์ด๋ ์ฐจ๋ณ์ ์ ์ดํดํ๋ ๋ฐ ๋์์ด ๋ฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
์ง๋ฆฌ๊ณต๊ฐ ๋ฐ์ดํฐ ์๋ ๋ฐ๊ฒฌ ๋ฐ ํตํฉ์ ์ํ ๋ค๋ฅธ AI ๊ธฐ๋ฐ ์ ๊ทผ ๋ฐฉ์์ ์ ์ํ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM ๊ธฐ๋ฐ ๋๊ตฌ ์ฌ์ฉ ์์ด์ ํธ๋ฅผ ์ง๋ฆฌ๊ณต๊ฐ ๋ถ์์ ์ ์ฉํ๋ ๊ด๋ จ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
๊ฐ ๋
ผ๋ฌธ ๋ชจ๋ LLM ๊ธฐ๋ฐ ๋ฉํฐ์์ด์ ํธ ์ฐ๊ตฌ ์๋ํ(๋ฐ์ดํฐ ๊ณผํ vs. ์ ์ฝ ๊ฐ๋ฐ)๋ฅผ ์ค์ ๋ฐ์ดํฐ๋ก ์
์ฆํ๋ฉฐ ๋ฌธ์ ์ ์ฉ ๋ถ์ผ๋ง ๋ค๋ฆ
๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
AutoKaggle์ ๋ฉํฐ์์ด์ ํธ ์ ์ฉ๊ณผ X-WebAgentBench์ ๋ค๊ตญ์ด/๋ค์ธ๊ณ ํ๊ฐ๋ก ์์ด์ ํธ ์ ์ฉ๋ฒ์ ํ์ฅ ๊ด์ ์์ ์ฐธ๊ณ ํ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
Autokaggle ๋
ผ๋ฌธ์ ์๋ ์ฌํ/์คํ ์ธํ
์๋ํ์ ์ด์ ์ ๋ง์ถ๋ ๋ฐฉ๋ฒ๋ก ์ผ๋ก, paper-lineage ๋์ workflow ์ค์ฌ์ผ๋ก ์ ๊ทผํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
121์ ์๋ํ ๋๊ตฌ ๊ตฌํ ์ฌ๋ก๋ 025์ ์ฌ๋ฃ๊ณผํ์ฉ ๋ฒ์ฉ LLMยทAI ์์ด์ ํธ ์๋ฒ ์ด์์ ์ ์ํ๋ ์์ฉ ๋ฐฉํฅ๊ณผ ์ฐ๊ฒฐ๋ฉ๋๋ค.
์์ฉ ์ฌ๋ก
๋ค๊ตญ์ด ์น ์์ด์ ํธ ํ๊ฐ๊ฐ ๋ฐ์ดํฐ๊ณผํ ๊ฒฝ์ง๋ํ ๋ฐ ์ค์ ์ ๋ฉํฐ์์ด์ ํธ ํ๋ ํผ ์ ์ฉ ๊ฐ๋ฅ์ฑ์ ๊ตฌ์ฒดํํฉ๋๋ค.