InfiAgent-DABench: Evaluating Agents on Data Analysis Tasks

์ €์ž: Xueyu Hu, Ziyu Zhao, Shuang Wei, Ziwei Chai, Qianli Ma, Guoyin Wang, Xuwu Wang, Jing Su, Jingjing Xu, Ming Zhu, Yao Cheng, Jianbo Yuan, Jiwei Li, Kun Kuang, Yang Yang, Hongxia Yang, Fei Wu | ๋‚ ์งœ: 2024 | DOI: arXiv:2401.05507 📄 PDF


Essence

Figure 1

LLM ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ๊ฐ€ CSV ํŒŒ์ผ์„ ์ž…๋ ฅ๋ฐ›์•„ ReAct ๋ฐฉ์‹์œผ๋กœ ์ฝ”๋“œ๋ฅผ ์ž‘์„ฑ, ์‹คํ–‰ํ•˜๊ณ  ๊ฒฐ๊ณผ๋ฅผ ๋„์ถœํ•˜๋Š” ๋ฐ์ดํ„ฐ ๋ถ„์„ ํƒœ์Šคํฌ์˜ ํ‰๊ฐ€ ํ”„๋กœ์„ธ์Šค

๋ณธ ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ์˜ ๋ฐ์ดํ„ฐ ๋ถ„์„ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•œ ์ตœ์ดˆ์˜ ์ข…ํ•ฉ ๋ฒค์น˜๋งˆํฌ InfiAgent-DABench๋ฅผ ์ œ์•ˆํ•œ๋‹ค. 257๊ฐœ์˜ ํ์‡„ํ˜•(closed-form) ๋ฐ์ดํ„ฐ ๋ถ„์„ ์งˆ๋ฌธ๊ณผ 52๊ฐœ์˜ CSV ํŒŒ์ผ๋กœ ๊ตฌ์„ฑ๋œ DAEval ๋ฐ์ดํ„ฐ์…‹๊ณผ, ์ด๋ฅผ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•œ ์—์ด์ „ํŠธ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ๊ณตํ•œ๋‹ค.

Motivation

Achievement

Figure 2

DAEval ๊ตฌ์„ฑ ์›Œํฌํ”Œ๋กœ์šฐ: CSV ํŒŒ์ผ ์ˆ˜์ง‘ โ†’ ์„ค๋ช… ์ƒ์„ฑ โ†’ ๊ฐœ๋… ๊ธฐ๋ฐ˜ ์งˆ๋ฌธ ์ƒ์„ฑ โ†’ ์ œ์•ฝ์กฐ๊ฑด ๋ฐ ํฌ๋งท ์š”๊ตฌ์‚ฌํ•ญ ์ƒ์„ฑ โ†’ ์ธ๊ฐ„ ๊ฒ€์ฆ

  1. ์ตœ์ดˆ์˜ ๋ฐ์ดํ„ฐ ๋ถ„์„ ๋ฒค์น˜๋งˆํฌ: 257๊ฐœ ์งˆ๋ฌธ, 52๊ฐœ CSV ํŒŒ์ผ, ๋‹ค์–‘ํ•œ ๋„๋ฉ”์ธ๊ณผ 18๊ฐœ ๋ฐ์ดํ„ฐ ๋ถ„์„ ํ•ต์‹ฌ ๊ฐœ๋… ํฌํ•จ
  2. ๊ด‘๋ฒ”์œ„ํ•œ ํ‰๊ฐ€: 34๊ฐœ ์ตœ์‹  LLM ํ‰๊ฐ€๋ฅผ ํ†ตํ•ด ํ˜„์žฌ LLM์˜ ๋ฐ์ดํ„ฐ ๋ถ„์„ ๋Šฅ๋ ฅ์˜ ํ•œ๊ณ„ ๊ทœ๋ช…
  3. ๊ฐœ์„ ๋œ ์˜คํ”ˆ์†Œ์Šค ์—์ด์ „ํŠธ: DAInstruct ๋ช…๋ น์–ด ํŠœ๋‹ ๋ฐ์ดํ„ฐ์…‹์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•™์Šตํ•œ DAAgent-34B๊ฐ€ GPT-3.5๋ฅผ 3.9% ์ƒํšŒํ•˜๋Š” ์„ฑ๋Šฅ ๋‹ฌ์„ฑ

How

Figure 2

๋ฐ์ดํ„ฐ ๋ถ„์„ ๊ฐœ๋…, CSV ํŒŒ์ผ ์„ค๋ช…, ์ œ์•ฝ์กฐ๊ฑด์„ ํ†ตํ•œ ํ์‡„ํ˜• ์งˆ๋ฌธ ์ƒ์„ฑ ํ”„๋กœ์„ธ์Šค

Originality

Limitation & Further Study

Evaluation

์ดํ‰: ๋ณธ ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ์˜ ๋ฐ์ดํ„ฐ ๋ถ„์„ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•œ ์ตœ์ดˆ์˜ ์ข…ํ•ฉ ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ์‹œํ•˜๋ฉฐ, ํฌ๋งท ํ”„๋กฌํŒ…์„ ํ†ตํ•œ ํ์‡„ํ˜• ํ‰๊ฐ€ ๋ฐฉ๋ฒ•๋ก ์ด ์‹ค์šฉ์ ์ด๊ณ  ์ฐฝ์˜์ ์ด๋‹ค. ๊ด‘๋ฒ”์œ„ํ•œ LLM ๋ฒค์น˜๋งˆํ‚น๊ณผ ์˜คํ”ˆ์†Œ์Šค DAAgent ๊ฐœ๋ฐœ๋กœ ์‹ค์ œ ์ž„ํŒฉํŠธ๋ฅผ ์ œ๊ณตํ•˜์ง€๋งŒ, ํ‰๊ฐ€ ๋ฐฉ์‹์˜ ํ‘œํ˜„ ํ•œ๊ณ„์™€ ๋ฐ์ดํ„ฐ์…‹ ๊ทœ๋ชจ ์ œ์•ฝ์ด ๊ฐœ์„ ๋  ํ•„์š”๊ฐ€ ์žˆ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Data Interpreter๊ฐ€ ์ œ์•ˆํ•˜๋Š” ๋ณต์žกํ•œ ๋ฐ์ดํ„ฐ ๊ณผํ•™ ์ž‘์—… ์ž๋™ํ™” ๊ตฌ์กฐ๊ฐ€ DABench์˜ ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ ๊ตฌ์„ฑ์˜ ์‚ฌ์ƒ์  ๊ธฐ์ดˆ๋ฅผ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
InfiAgent-DABench๋Š” ๋ฐ์ดํ„ฐ ๋ถ„์„ ์ž‘์—…์— ์žˆ์–ด์„œ LLM ๊ธฐ๋ฐ˜ ์•„์ด๋””์–ด(ํ˜น์€ ๊ฐ€์„ค) ์ƒ์„ฑ ๋ฐฉ๋ฒ•๋ก  ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ๊ณตํ•ด, 434์—์„œ ์ œ์‹œํ•œ ์•„์ด๋””์–ด ์˜ˆ์ธก ์„ฑ๋Šฅ ๊ฒ€์ฆ์— ์ฐธ๊ณ ํ•  ๋งŒํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
ํ˜‘๋ ฅ์  ๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜ ๊ณผํ•™ ๋ฐœ๊ฒฌ์„ ์ง€ํ–ฅํ•˜๋Š” BLADE ๋ฒค์น˜๋งˆํฌ์™€ ๋น„๊ตํ•˜์—ฌ, ์—์ด์ „ํŠธ ํ‰๊ฐ€ ์„ค๊ณ„ ๋ฐ ์ง€ํ‘œ์˜ ์ฐจ์ด๋ฅผ ํŒŒ์•…ํ•  ์ˆ˜ ์žˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
MLE-bench ๋…ผ๋ฌธ ์—ญ์‹œ LLM ์—์ด์ „ํŠธ์˜ ๋ฐ์ดํ„ฐ๋ถ„์„ยท๋จธ์‹ ๋Ÿฌ๋‹ ์‹ค๋ฌด๋Šฅ๋ ฅ ํ‰๊ฐ€๋ฅผ ์ฃผ์ œ๋กœ ํ•˜์—ฌ, InfiAgent-DABench์™€ ์ƒํ˜ธ ๋น„๊ตยท์ฐธ์กฐ๊ฐ€ ์œ ์šฉํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
InfiAgent-DABench๋Š” ๋ฐ์ดํ„ฐ ๋ถ„์„ ์—์ด์ „ํŠธ์˜ ์‹ค์ œ ์ž‘์—… ์„ฑ๋Šฅ์„ ๋‹ค์–‘ํ•œ ์‹œ๋‚˜๋ฆฌ์˜ค๋กœ ์ธก์ •ํ•˜์—ฌ DSBench์™€ ๋ฒค์น˜๋งˆํฌ ๋ชฉ์ ์ด ์œ ์‚ฌํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
InfiAgent-DABench ๋…ผ๋ฌธ์€ GUI ์ด์™ธ์˜ ๋‹ค์–‘ํ•œ ๋„๋ฉ”์ธ์—์„œ ๋ฐ์ดํ„ฐ ๋ถ„์„ ์—์ด์ „ํŠธ๋“ค์˜ ์ž๋™ํ™” ๋ฐ ํ‰๊ฐ€ ์ž‘์—…์„ ๋‹ค๋ฃน๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์›น ๋ธŒ๋ผ์šฐ์ง• ์—์ด์ „ํŠธ์˜ ๋Šฅ๋ ฅ๊ณผ ํ•œ๊ณ„๋ฅผ ํ‰๊ฐ€ํ•˜๋Š” ๋ฒค์น˜๋งˆํฌ๋ฅผ ์—ฐ๊ตฌํ•˜๋Š” ๊ด€๋ จ ๋…ผ๋ฌธ์ด๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Large Language Models Orchestrating Structured Reasoning ๋…ผ๋ฌธ์€ ์‹ค๋ฐ์ดํ„ฐ ๊ณผํ•™ ๋Œ€ํšŒ ๋“ฑ์„ ํ†ตํ•œ LLM ์—์ด์ „ํŠธ์˜ ๋ฐ์ดํ„ฐ ํ™œ์šฉ ๋ฐ ๋ฒค์น˜๋งˆํ‚น์„ ํ™•์žฅํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
์ž๋™ ๋ฐ์ดํ„ฐ ๋ถ„์„ ์—์ด์ „ํŠธ๋กœ์„œ LLM ๊ธฐ๋ฐ˜ ๋ถ„์„ ์„ฑ๋Šฅ์„ ์‹ค์ œ ๊ตฌํ˜„ ๋ฐ ํ‰๊ฐ€ํ•˜๋Š” ๋งฅ๋ฝ์„ ์ œ๊ณตํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
๋ฐ์ดํ„ฐ ๋ถ„์„ ์—์ด์ „ํŠธ ์„ฑ๋Šฅ ๋ฒค์น˜๋งˆํฌ ํ‰๊ฐ€ ๋ฐ ๋‹ค์–‘ํ•œ ํƒœ์Šคํฌ ํ…Œ์ŠคํŠธ ๊ฒฐ๊ณผ์™€ ์ง์ ‘์ ์œผ๋กœ ๋น„๊ตํ•  ์ˆ˜ ์žˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
InfiAgent-DABench๋Š” LLM ์—์ด์ „ํŠธ์˜ ๋ฐ์ดํ„ฐ ๋ถ„์„ ๋Šฅ๋ ฅ์„ ์‹ค์ œ ๊ณผ์—…์œผ๋กœ ํ‰๊ฐ€ํ•˜๋Š” ๋Œ€ํ‘œ์  ์‘์šฉ ๋ฒค์น˜๋งˆํฌ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •