Essence
Figure 1: The illustration of the complete workflow of our proposed DSBench benchmark, from task
DSBench๋ ๋ฐ์ดํฐ ๊ณผํ ์์ด์ ํธ์ ์ค๋ฌด์ ๋ฅ๋ ฅ์ ํ๊ฐํ๊ธฐ ์ํด ์ค๊ณ๋ ๋ฒค์น๋งํฌ์ด๋ค. 466๊ฐ์ ๋ฐ์ดํฐ ๋ถ์ ์์
๊ณผ 74๊ฐ์ ๋ฐ์ดํฐ ๋ชจ๋ธ๋ง ์์
์ผ๋ก ๊ตฌ์ฑ๋๋ฉฐ, ModelOff ๋ฐ Kaggle ๊ฒฝ์์์ ์์ง๋ ํ์ค์ ์ธ ๋ฐ์ดํฐ ๊ณผํ ๋ฌธ์ ๋ค์ ํฌํจํ๋ค.
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: DSBench๋ ํ์ค์ ์ธ ๋ฐ์ดํฐ ๊ณผํ ์์
์ ํตํด LLM/LVLM ๊ธฐ๋ฐ ์์ด์ ํธ์ ์ค์ ๋ฅ๋ ฅ์ ํ๊ฐํ๋ ์ค์ํ ๋ฒค์น๋งํฌ์ด๋ค. ํฌ๊ด์ ์ธ ์์
์ค๊ณ, ์๋ก์ด ํ๊ฐ ๋ฉํธ๋ฆญ, ๊ด๋ฒ์ํ ๋ชจ๋ธ ํ๊ฐ๋ฅผ ํตํด ๋ฐ์ดํฐ ๊ณผํ ์์ด์ ํธ ์ฐ๊ตฌ์ ์๋ฏธ ์๋ ๊ธฐ์ฌ๋ฅผ ํ๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
LLM ๊ธฐ๋ฐ ์์ด์ ํธ์ ๋ฐ์ดํฐ ๋ถ์ ๋ฅ๋ ฅ ํ๊ฐ๋ฅผ ์ํ ๋ฐฉ๋ฒ๋ก ์ ๊ธฐ์ด๋ฅผ ์ ๊ณตํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
294๋ฒ ๋
ผ๋ฌธ์ ๊ณผํ ๋ฐ์ดํฐ ๋ถ์ ๋ฅ๋ ฅ ์ฐจ์ด ๋ฐ ์๋ํ์ ํ๊ณ ๋ถ์์ ๋ด์, 650๋ฒ์ด ์ ์ํ ํ๋ ฅ์ ์๋ฃจ์
์ ํ์์ฑ๊ณผ ํจ๊ณผ๋ฅผ ์ดํดํ๋ ๋ฐ ๋ฐฐ๊ฒฝ์ด ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
DSBench ๋
ผ๋ฌธ์ ๋ฐ์ดํฐ ์ฌ์ด์ธ์ค ์์ด์ ํธ์ ์ํฌํ๋ก์ฐ ์๋ํ ์ฑ๋ฅ ํ๊ฐ ๋ฐ ํ๊ณ ์ฌ๋ก๋ฅผ ์๊ฐํ์ฌ, VASPilot์ด ์งํฅํ๋ ์ ๊ณผ์ ์๋ํ ๊ธฐ๋ฐ์ ์ ๊ณตํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
294๋ฒ ๋
ผ๋ฌธ์ ๋ฐ์ดํฐ ์ฌ์ด์ธ์ค ์์ด์ ํธ์ ์ค์ฉ์ ์ฑ๋ฅํ๊ฐ ๋ฒค์น๋งํฌ ๊ฐ๋ฐ์ฌ๋ก๋ก, MolQuest์ ํ๊ฐ ํ๋กํ ์ฝ ์ค๊ณ ๊ทผ๊ฑฐ๊ฐ ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๋ฐ์ดํฐ๊ณผํ ์์ด์ ํธ ์ฑ๋ฅ์ ํ๊ณ์ ๋ฒค์น๋งํน ๋ฐฉ๋ฒ๋ก ์ ์ ๊ณตํ์ฌ, ๊ธฐ๊ณํ์ต ๊ธฐ๋ฐ DEL ๋ถ์ ์ผ๋ฐํ ๋ฌธ์ ์ ๋งฅ๋ฝ์ ์ ์ํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
InfiAgent-DABench๋ ๋ฐ์ดํฐ ๋ถ์ ์์ด์ ํธ์ ์ค์ ์์
์ฑ๋ฅ์ ๋ค์ํ ์๋๋ฆฌ์ค๋ก ์ธก์ ํ์ฌ DSBench์ ๋ฒค์น๋งํฌ ๋ชฉ์ ์ด ์ ์ฌํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
MLE-bench(545)๋ ๋จธ์ ๋ฌ๋/๋ฐ์ดํฐ ๊ณผํ ์์ด์ ํธ ํ๊ฐ ๋ฒค์น๋งํฌ๋ก DSBench์ ์ ์ฌํ๋ ํ๊ฐ ๋ฒ์์ ๊ณผ์ ๊ตฌ์ฑ์ด ์์ดํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
DSBench๋ ๋ฐ์ดํฐ ์ฌ์ด์ธ์ค ์์ด์ ํธ์ ํ๊ณ์ ๋ฐ์ ๊ฐ๋ฅ์ฑ์ ํ๊ฐํ์ฌ DS-Agent ์ ๊ทผ์ ์ฑ๋ฅ ๊ฒ์ฆยท๋น๊ต์ ํ์ฉ๋ฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
Kaggle ๋ฑ ๋ฐ์ดํฐ ๊ณผํ ์ฑ๋ฆฐ์ง์ ์๋ํ AI ์์ด์ ํธ ์ฑ๋ฅ์ ํ๊ฐํ๋ค๋ ์ ์์ ์ ์ฌ ๋ฌธ์ ์ ๋ํ ๋ค๋ฅธ ์ ๊ทผ์
๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM ๊ธฐ๋ฐ ์๋ํ๋ ๊ณผํ์ ๊ฐ์ค ์์ฑ ๋ฐ ๊ฒ์ฆ ๋ฅ๋ ฅ์ ํ๊ฐํ๋ ์ ์ฌํ ๋ฒค์น๋งํฌ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋ฐ์ดํฐ ์ฌ์ด์ธ์ค ์์ด์ ํธ์ ๋ฐ์ดํฐ์
ํ์ง/์ค๊ณ ์ธก๋ฉด์ ์ง์ค ํ๊ฐํ์ฌ, AI ๊ธฐ๋ฐ ์ํ ์ง์ ๋ฐ์ดํฐ์ ๋ค์์ฑ ์ธก๋ฉด์์ ์ฐธ๊ณ ํ ์ ์๋ ๋
ผ๋ฌธ์
๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋ฐ์ดํฐ ์ฌ์ด์ธ์ค ์์ด์ ํธ์ ์ฑ๋ฅ์ ๋ค๋ฅธ ๋ฒค์น๋งํฌ ๋ฐฉ๋ฒ์ผ๋ก ํ๊ฐํ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
MLGym(546)๋ ์์ด์ ํธ์ ์ค์ ์ฐ๊ตฌ ๋ฅ๋ ฅ๊ณผ ๋ฒค์น๋งํน ํ๊ฒฝ์ ์ ๊ณตํด, DSBench์ ๋ฐ์ดํฐ ๋ถ์ ์์
ํด๊ฒฐ ๋ฅ๋ ฅ ํ๊ฐ์์ ๋น๊ต๊ฐ ๊ฐ๋ฅํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
294 ๋
ผ๋ฌธ์ ๋ฐ์ดํฐ ์ฌ์ด์ธ์ค ํ์คํฌ์์ LLM ๊ธฐ๋ฐ ์๋ํ ์์ด์ ํธ๋ฅผ ์ฐ๊ตฌํ๋ฉฐ, 209์ ์ผ์ด์ค-๋ฒ ์ด์ค๋ ๊ณผํ ์ถ๋ก ๊ณผ ๋์์ ์ ๋ต์ ์ ์ํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
294๋ฒ ๋
ผ๋ฌธ์ Data Science Agent์ ๋ฒค์น๋งํน์ ์ค์ฌ์ผ๋ก ํ๋ฉฐ, 163๋ฒ์ ์์ํ์ ๊ฐ์ค ๊ฒ์ฆ Task ํ๊ฐ์ ๋ฒค์น๋งํฌ์ ๋ํ์ฌ ์ํธ์ฐธ๊ณ ๊ฐ๋ฅํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM ๊ธฐ๋ฐ ์ฝ๋ ์์ฑ ๋ฐ ๋ฐ์ดํฐ ๋ถ์ ์๋ํ์ ๊ด๋ จ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ์ ๋ฐ์ดํฐ ๊ณผํ ์์
์ํ ๋ฅ๋ ฅ์ ๋ค๋ฅธ ๋ฒค์น๋งํฌ๋ก ํ๊ฐํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋ฐ์ดํฐ ๋ชจ๋ธ๋ง ์์
์์ AI ์์ด์ ํธ์ ์ฑ๋ฅ์ ํ๊ฐํ ์ ์ฌ ๋ฒค์น๋งํฌ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
528์ MedAgentGym์ ์์ํ ๋ฐ์ดํฐ ๊ณผํ, 294์ DSBench๋ ์ผ๋ฐ ๋ฐ์ดํฐ ๊ณผํ ์์ด์ ํธ ํ๊ฐ๋ก ๊ฐ๊ฐ LLM ์์ด์ ํธ ํ๋ จ ๋ฐ ์ฑ๋ฅ ํ๊ฐ ๋ฐฉํฅ์ด ๋ค๋ฆ
๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
DeepAnalyze ๋
ผ๋ฌธ์ DSBench ๋ฐ์ดํฐ์
์ ์ค์ ๋ฐ์ดํฐ ๊ณผํ ์์ด์ ํธ ์ฑ๋ฅ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ณ ์ ํ๋ ๋์ฒด ์ ๊ทผ์ ์ ์ํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM ๋ฐ LVLM ๊ธฐ๋ฐ ์์ด์ ํธ์ ์ค์ ์ฑ๋ฅ ํ๊ณ๋ฅผ ๋ค๋ฅธ ๊ด์ ์์ ํ๊ฐํ ์ฐ๊ตฌ์ด๋ค.
ํ์ ์ฐ๊ตฌ
Executable Code Actions ๋
ผ๋ฌธ์ LLM ์์ด์ ํธ์ ์ฝ๋ ์คํ ๋ฅ๋ ฅ์ด ๋ฐ์ดํฐ ๊ณผ์ ํด๊ฒฐ์ ์ด๋ป๊ฒ ํฅ์์ํค๋์ง ๋ถ์ํด DSBench ํ๊ฐ์ ํด์์ ๋ณด์ํด์ค๋๋ค.
ํ์ ์ฐ๊ตฌ
464 ๋
ผ๋ฌธ์ ๋ค์ํ ๋ฉํฐ์์ด์ ํธ ๊ตฌ์ฑ ๋ฐ ํ๊ฐ ๋ฐฉ๋ฒ๋ก ์ ๋ํ ์๋ฒ ์ด๋ก, ๋ฐ์ดํฐ ๊ณผํ ์์ด์ ํธ ๋ฒค์น๋งํฌ์ ์ฒด๊ณํ ์ฐ๊ตฌ์ ์ฐ๊ฒฐ๋๋ค.
ํ์ ์ฐ๊ตฌ
294๋ ๋ฐ์ดํฐ ๊ณผํ ์์ด์ ํธ์ ์๋ํ์ ์ธ์ฉ ํจํด ๋ถ์์ด ๊ฒฐํฉ๋ ์ฌ๋ก๋ก, citation justice ์คํ ๊ธฐ์ ์ ยท์ค์ฆ์ ๋
ผ์์ ๋์์ด ๋ฉ๋๋ค.
์์ฉ ์ฌ๋ก
MLAgentBench ๋
ผ๋ฌธ์ ๋จธ์ ๋ฌ๋ ์ค๋ฌด ์์
์์์ LLM ๊ธฐ๋ฐ ์์ด์ ํธ ํ๊ฐ๋ฅผ ์ค์ ์ ์ผ๋ก ๋ค๋ฃจ์ด, ๋ฐ์ดํฐ ๊ณผํ ๋ฒ์ ํ์ฅ ๋ฐ ์์ฉ์ฑ์ ๋ณด์ฌ์ค๋๋ค.