DSBench: How far are data science agents to becoming data science experts? arXiv preprint arXiv:2409.07703, 2024.

์ €์ž: Liqiang Jing, Zhehui Huang, Xiaoyang Wang, Wenlin Yao, Wenhao Yu | ๋‚ ์งœ: 2024 | DOI: arXiv:2409.07703 📄 PDF


Essence

Figure 1

Figure 1: The illustration of the complete workflow of our proposed DSBench benchmark, from task

DSBench๋Š” ๋ฐ์ดํ„ฐ ๊ณผํ•™ ์—์ด์ „ํŠธ์˜ ์‹ค๋ฌด์  ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•ด ์„ค๊ณ„๋œ ๋ฒค์น˜๋งˆํฌ์ด๋‹ค. 466๊ฐœ์˜ ๋ฐ์ดํ„ฐ ๋ถ„์„ ์ž‘์—…๊ณผ 74๊ฐœ์˜ ๋ฐ์ดํ„ฐ ๋ชจ๋ธ๋ง ์ž‘์—…์œผ๋กœ ๊ตฌ์„ฑ๋˜๋ฉฐ, ModelOff ๋ฐ Kaggle ๊ฒฝ์Ÿ์—์„œ ์ˆ˜์ง‘๋œ ํ˜„์‹ค์ ์ธ ๋ฐ์ดํ„ฐ ๊ณผํ•™ ๋ฌธ์ œ๋“ค์„ ํฌํ•จํ•œ๋‹ค.

Motivation

Achievement

Figure 4

Figure 4: Accuracy for baselines across all data analysis challenges in DSBench.

How

Figure 4

Figure 4: Accuracy for baselines across all data analysis challenges in DSBench.

Originality

Limitation & Further Study

Evaluation

Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

์ดํ‰: DSBench๋Š” ํ˜„์‹ค์ ์ธ ๋ฐ์ดํ„ฐ ๊ณผํ•™ ์ž‘์—…์„ ํ†ตํ•ด LLM/LVLM ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ์˜ ์‹ค์ œ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ์ค‘์š”ํ•œ ๋ฒค์น˜๋งˆํฌ์ด๋‹ค. ํฌ๊ด„์ ์ธ ์ž‘์—… ์„ค๊ณ„, ์ƒˆ๋กœ์šด ํ‰๊ฐ€ ๋ฉ”ํŠธ๋ฆญ, ๊ด‘๋ฒ”์œ„ํ•œ ๋ชจ๋ธ ํ‰๊ฐ€๋ฅผ ํ†ตํ•ด ๋ฐ์ดํ„ฐ ๊ณผํ•™ ์—์ด์ „ํŠธ ์—ฐ๊ตฌ์— ์˜๋ฏธ ์žˆ๋Š” ๊ธฐ์—ฌ๋ฅผ ํ•œ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
LLM ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ์˜ ๋ฐ์ดํ„ฐ ๋ถ„์„ ๋Šฅ๋ ฅ ํ‰๊ฐ€๋ฅผ ์œ„ํ•œ ๋ฐฉ๋ฒ•๋ก ์  ๊ธฐ์ดˆ๋ฅผ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
294๋ฒˆ ๋…ผ๋ฌธ์€ ๊ณผํ•™ ๋ฐ์ดํ„ฐ ๋ถ„์„ ๋Šฅ๋ ฅ ์ฐจ์ด ๋ฐ ์ž๋™ํ™”์˜ ํ•œ๊ณ„ ๋ถ„์„์„ ๋‹ด์•„, 650๋ฒˆ์ด ์ œ์•ˆํ•œ ํ˜‘๋ ฅ์  ์†”๋ฃจ์…˜์˜ ํ•„์š”์„ฑ๊ณผ ํšจ๊ณผ๋ฅผ ์ดํ•ดํ•˜๋Š” ๋ฐ ๋ฐฐ๊ฒฝ์ด ๋œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
DSBench ๋…ผ๋ฌธ์€ ๋ฐ์ดํ„ฐ ์‚ฌ์ด์–ธ์Šค ์—์ด์ „ํŠธ์˜ ์›Œํฌํ”Œ๋กœ์šฐ ์ž๋™ํ™” ์„ฑ๋Šฅ ํ‰๊ฐ€ ๋ฐ ํ•œ๊ณ„ ์‚ฌ๋ก€๋ฅผ ์†Œ๊ฐœํ•˜์—ฌ, VASPilot์ด ์ง€ํ–ฅํ•˜๋Š” ์ „๊ณผ์ • ์ž๋™ํ™” ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
294๋ฒˆ ๋…ผ๋ฌธ์€ ๋ฐ์ดํ„ฐ ์‚ฌ์ด์–ธ์Šค ์—์ด์ „ํŠธ์˜ ์‹ค์šฉ์  ์„ฑ๋Šฅํ‰๊ฐ€ ๋ฒค์น˜๋งˆํฌ ๊ฐœ๋ฐœ์‚ฌ๋ก€๋กœ, MolQuest์˜ ํ‰๊ฐ€ ํ”„๋กœํ† ์ฝœ ์„ค๊ณ„ ๊ทผ๊ฑฐ๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๋ฐ์ดํ„ฐ๊ณผํ•™ ์—์ด์ „ํŠธ ์„ฑ๋Šฅ์˜ ํ•œ๊ณ„์™€ ๋ฒค์น˜๋งˆํ‚น ๋ฐฉ๋ฒ•๋ก ์„ ์ œ๊ณตํ•˜์—ฌ, ๊ธฐ๊ณ„ํ•™์Šต ๊ธฐ๋ฐ˜ DEL ๋ถ„์„ ์ผ๋ฐ˜ํ™” ๋ฌธ์ œ์˜ ๋งฅ๋ฝ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
InfiAgent-DABench๋Š” ๋ฐ์ดํ„ฐ ๋ถ„์„ ์—์ด์ „ํŠธ์˜ ์‹ค์ œ ์ž‘์—… ์„ฑ๋Šฅ์„ ๋‹ค์–‘ํ•œ ์‹œ๋‚˜๋ฆฌ์˜ค๋กœ ์ธก์ •ํ•˜์—ฌ DSBench์™€ ๋ฒค์น˜๋งˆํฌ ๋ชฉ์ ์ด ์œ ์‚ฌํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
MLE-bench(545)๋Š” ๋จธ์‹ ๋Ÿฌ๋‹/๋ฐ์ดํ„ฐ ๊ณผํ•™ ์—์ด์ „ํŠธ ํ‰๊ฐ€ ๋ฒค์น˜๋งˆํฌ๋กœ DSBench์™€ ์œ ์‚ฌํ•˜๋‚˜ ํ‰๊ฐ€ ๋ฒ”์œ„์™€ ๊ณผ์ œ ๊ตฌ์„ฑ์ด ์ƒ์ดํ•˜๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
DSBench๋Š” ๋ฐ์ดํ„ฐ ์‚ฌ์ด์–ธ์Šค ์—์ด์ „ํŠธ์˜ ํ•œ๊ณ„์™€ ๋ฐœ์ „ ๊ฐ€๋Šฅ์„ฑ์„ ํ‰๊ฐ€ํ•˜์—ฌ DS-Agent ์ ‘๊ทผ์˜ ์„ฑ๋Šฅ ๊ฒ€์ฆยท๋น„๊ต์— ํ™œ์šฉ๋ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Kaggle ๋“ฑ ๋ฐ์ดํ„ฐ ๊ณผํ•™ ์ฑŒ๋ฆฐ์ง€์˜ ์ž๋™ํ™” AI ์—์ด์ „ํŠธ ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•œ๋‹ค๋Š” ์ ์—์„œ ์œ ์‚ฌ ๋ฌธ์ œ์— ๋Œ€ํ•œ ๋‹ค๋ฅธ ์ ‘๊ทผ์ž…๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM ๊ธฐ๋ฐ˜ ์ž๋™ํ™”๋œ ๊ณผํ•™์  ๊ฐ€์„ค ์ƒ์„ฑ ๋ฐ ๊ฒ€์ฆ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ์œ ์‚ฌํ•œ ๋ฒค์น˜๋งˆํฌ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋ฐ์ดํ„ฐ ์‚ฌ์ด์–ธ์Šค ์—์ด์ „ํŠธ์˜ ๋ฐ์ดํ„ฐ์…‹ ํ’ˆ์งˆ/์„ค๊ณ„ ์ธก๋ฉด์„ ์ง‘์ค‘ ํ‰๊ฐ€ํ•˜์—ฌ, AI ๊ธฐ๋ฐ˜ ์ˆ˜ํ•™ ์ง€์› ๋ฐ์ดํ„ฐ์˜ ๋‹ค์–‘์„ฑ ์ธก๋ฉด์—์„œ ์ฐธ๊ณ ํ•  ์ˆ˜ ์žˆ๋Š” ๋…ผ๋ฌธ์ž…๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋ฐ์ดํ„ฐ ์‚ฌ์ด์–ธ์Šค ์—์ด์ „ํŠธ์˜ ์„ฑ๋Šฅ์„ ๋‹ค๋ฅธ ๋ฒค์น˜๋งˆํฌ ๋ฐฉ๋ฒ•์œผ๋กœ ํ‰๊ฐ€ํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
MLGym(546)๋„ ์—์ด์ „ํŠธ์˜ ์‹ค์ œ ์—ฐ๊ตฌ ๋Šฅ๋ ฅ๊ณผ ๋ฒค์น˜๋งˆํ‚น ํ™˜๊ฒฝ์„ ์ œ๊ณตํ•ด, DSBench์™€ ๋ฐ์ดํ„ฐ ๋ถ„์„ ์ž‘์—… ํ•ด๊ฒฐ ๋Šฅ๋ ฅ ํ‰๊ฐ€์—์„œ ๋น„๊ต๊ฐ€ ๊ฐ€๋Šฅํ•˜๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
294 ๋…ผ๋ฌธ์€ ๋ฐ์ดํ„ฐ ์‚ฌ์ด์–ธ์Šค ํƒœ์Šคํฌ์—์„œ LLM ๊ธฐ๋ฐ˜ ์ž๋™ํ™” ์—์ด์ „ํŠธ๋ฅผ ์—ฐ๊ตฌํ•˜๋ฉฐ, 209์˜ ์ผ€์ด์Šค-๋ฒ ์ด์Šค๋“œ ๊ณผํ•™ ์ถ”๋ก ๊ณผ ๋Œ€์•ˆ์  ์ „๋žต์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
294๋ฒˆ ๋…ผ๋ฌธ์€ Data Science Agent์˜ ๋ฒค์น˜๋งˆํ‚น์„ ์ค‘์‹ฌ์œผ๋กœ ํ•˜๋ฉฐ, 163๋ฒˆ์˜ ์ƒ์˜ํ•™์  ๊ฐ€์„ค ๊ฒ€์ฆ Task ํ‰๊ฐ€์™€ ๋ฒค์น˜๋งˆํฌ์— ๋Œ€ํ•˜์—ฌ ์ƒํ˜ธ์ฐธ๊ณ  ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM ๊ธฐ๋ฐ˜ ์ฝ”๋“œ ์ƒ์„ฑ ๋ฐ ๋ฐ์ดํ„ฐ ๋ถ„์„ ์ž๋™ํ™”์˜ ๊ด€๋ จ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ์˜ ๋ฐ์ดํ„ฐ ๊ณผํ•™ ์ž‘์—… ์ˆ˜ํ–‰ ๋Šฅ๋ ฅ์„ ๋‹ค๋ฅธ ๋ฒค์น˜๋งˆํฌ๋กœ ํ‰๊ฐ€ํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋ฐ์ดํ„ฐ ๋ชจ๋ธ๋ง ์ž‘์—…์—์„œ AI ์—์ด์ „ํŠธ์˜ ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•œ ์œ ์‚ฌ ๋ฒค์น˜๋งˆํฌ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
528์˜ MedAgentGym์€ ์ƒ์˜ํ•™ ๋ฐ์ดํ„ฐ ๊ณผํ•™, 294์˜ DSBench๋Š” ์ผ๋ฐ˜ ๋ฐ์ดํ„ฐ ๊ณผํ•™ ์—์ด์ „ํŠธ ํ‰๊ฐ€๋กœ ๊ฐ๊ฐ LLM ์—์ด์ „ํŠธ ํ›ˆ๋ จ ๋ฐ ์„ฑ๋Šฅ ํ‰๊ฐ€ ๋ฐฉํ–ฅ์ด ๋‹ค๋ฆ…๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
DeepAnalyze ๋…ผ๋ฌธ์€ DSBench ๋ฐ์ดํ„ฐ์…‹์˜ ์‹ค์ œ ๋ฐ์ดํ„ฐ ๊ณผํ•™ ์—์ด์ „ํŠธ ์„ฑ๋Šฅ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๊ณ ์ž ํ•˜๋Š” ๋Œ€์ฒด ์ ‘๊ทผ์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM ๋ฐ LVLM ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ์˜ ์‹ค์ œ ์„ฑ๋Šฅ ํ•œ๊ณ„๋ฅผ ๋‹ค๋ฅธ ๊ด€์ ์—์„œ ํ‰๊ฐ€ํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Executable Code Actions ๋…ผ๋ฌธ์€ LLM ์—์ด์ „ํŠธ์˜ ์ฝ”๋“œ ์‹คํ–‰ ๋Šฅ๋ ฅ์ด ๋ฐ์ดํ„ฐ ๊ณผ์ œ ํ•ด๊ฒฐ์„ ์–ด๋–ป๊ฒŒ ํ–ฅ์ƒ์‹œํ‚ค๋Š”์ง€ ๋ถ„์„ํ•ด DSBench ํ‰๊ฐ€์˜ ํ•ด์„์„ ๋ณด์™„ํ•ด์ค๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
464 ๋…ผ๋ฌธ์€ ๋‹ค์–‘ํ•œ ๋ฉ€ํ‹ฐ์—์ด์ „ํŠธ ๊ตฌ์„ฑ ๋ฐ ํ‰๊ฐ€ ๋ฐฉ๋ฒ•๋ก ์— ๋Œ€ํ•œ ์„œ๋ฒ ์ด๋กœ, ๋ฐ์ดํ„ฐ ๊ณผํ•™ ์—์ด์ „ํŠธ ๋ฒค์น˜๋งˆํฌ์˜ ์ฒด๊ณ„ํ™” ์—ฐ๊ตฌ์™€ ์—ฐ๊ฒฐ๋œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
294๋Š” ๋ฐ์ดํ„ฐ ๊ณผํ•™ ์—์ด์ „ํŠธ์˜ ์ž๋™ํ™”์™€ ์ธ์šฉ ํŒจํ„ด ๋ถ„์„์ด ๊ฒฐํ•ฉ๋œ ์‚ฌ๋ก€๋กœ, citation justice ์‹คํ˜„ ๊ธฐ์ˆ ์ ยท์‹ค์ฆ์  ๋…ผ์˜์— ๋„์›€์ด ๋ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
MLAgentBench ๋…ผ๋ฌธ์€ ๋จธ์‹ ๋Ÿฌ๋‹ ์‹ค๋ฌด ์ž‘์—…์—์„œ์˜ LLM ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ ํ‰๊ฐ€๋ฅผ ์ค‘์ ์ ์œผ๋กœ ๋‹ค๋ฃจ์–ด, ๋ฐ์ดํ„ฐ ๊ณผํ•™ ๋ฒ”์œ„ ํ™•์žฅ ๋ฐ ์‘์šฉ์„ฑ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •