Data Interpreter: An LLM Agent For Data Science

์ €์ž: Sirui Hong, Yizhang Lin, Bangbang Liu, Binhao Wu, Danyang Li ์™ธ ๋‹ค์ˆ˜ | ๋‚ ์งœ: 2024 | DOI: 10.48550/arXiv.2402.18679 📄 PDF


Essence

Figure 2

Data Interpreter์˜ ๊ณ„์ธต์  ๊ทธ๋ž˜ํ”„ ๋ชจ๋ธ๋ง ์›Œํฌํ”Œ๋กœ์šฐ: ํ”„๋กœ์ ํŠธ ์š”๊ตฌ์‚ฌํ•ญ์„ ํƒœ์Šคํฌ ๊ทธ๋ž˜ํ”„๋กœ ๋ถ„ํ•ดํ•œ ํ›„, ์‹คํ–‰ ๊ฐ€๋Šฅํ•œ ์•ก์…˜ ๊ทธ๋ž˜ํ”„๋กœ ๋‹ค์‹œ ๋ถ„ํ•ดํ•˜๋Š” ๊ณผ์ •

๋ณธ ๋…ผ๋ฌธ์€ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ(LLM) ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ๊ฐ€ ๋ฐ์ดํ„ฐ ์‚ฌ์ด์–ธ์Šค์˜ ์žฅ๊ธฐ์ ์ด๊ณ  ์ƒํ˜ธ์—ฐ๊ฒฐ๋œ ์ž‘์—…๋“ค์„ ์ž๋™์œผ๋กœ ํ•ด๊ฒฐํ•  ์ˆ˜ ์žˆ๋„๋ก ์„ค๊ณ„๋œ Data Interpreter๋ฅผ ์ œ์•ˆํ•œ๋‹ค. ๊ณ„์ธต์  ๊ทธ๋ž˜ํ”„ ๋ชจ๋ธ๋ง๊ณผ ํ”„๋กœ๊ทธ๋ž˜๋ฐ ๊ฐ€๋Šฅํ•œ ๋…ธ๋“œ ์ƒ์„ฑ์ด๋ผ๋Š” ๋‘ ๊ฐ€์ง€ ํ•ต์‹ฌ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ํ†ตํ•ด ๋ณต์žกํ•œ ๋ฐ์ดํ„ฐ ์‚ฌ์ด์–ธ์Šค ์›Œํฌํ”Œ๋กœ์šฐ๋ฅผ ๋™์ ์œผ๋กœ ๊ด€๋ฆฌํ•˜๊ณ  ์‹ค์‹œ๊ฐ„ ๋ฐ์ดํ„ฐ ๋ณ€ํ™”์— ์ ์‘ํ•œ๋‹ค.

Motivation

Achievement

Figure 1

๋‹ค์–‘ํ•œ ์˜คํ”ˆ์†Œ์Šค ํ”„๋ ˆ์ž„์›Œํฌ์™€์˜ ๋น„๊ต ๋ถ„์„: ์ข…ํ•ฉ ์ ์ˆ˜(comprehensive score)๋กœ ํ‘œ์ค€ํ™”๋œ ์„ฑ๋Šฅ ํ‰๊ฐ€

  1. ๋ฒค์น˜๋งˆํฌ ์„ฑ๋Šฅ ํ–ฅ์ƒ: InfiAgent-DABench์—์„œ ์ •ํ™•๋„ 75.9%์—์„œ 94.9%๋กœ 25% ๊ฐœ์„ , MATH ๋ฐ์ดํ„ฐ์…‹์—์„œ ์ตœ๊ณ  ์„ฑ๋Šฅ ๋Œ€๋น„ 26% ํ–ฅ์ƒ
  2. ๋‹ค์–‘ํ•œ ์ž‘์—… ์˜์—ญ ์šฐ์ˆ˜์„ฑ: ๋จธ์‹ ๋Ÿฌ๋‹ ์ž‘์—…์—์„œ 88%โ†’95%, ๊ฐœ๋ฐฉํ˜• ์ž‘์—…์—์„œ 60%โ†’97%๋กœ ํ–ฅ์ƒ๋˜์–ด ๋‹ค์ค‘ ๋„๋ฉ”์ธ ์ ์šฉ์„ฑ ์ž…์ฆ
  3. ํ”„๋ ˆ์ž„์›Œํฌ ์šฐ์›”์„ฑ: Figure 1์—์„œ ๋ณด์ด๋“ฏ์ด ๊ธฐ์กด ์˜คํ”ˆ์†Œ์Šค ํ”„๋ ˆ์ž„์›Œํฌ(์˜ˆ: MetaGPT ๋“ฑ)๋ฅผ ์ผ๊ด€๋˜๊ฒŒ ์ƒํšŒํ•˜๋Š” ์„ฑ๋Šฅ ๋‹ฌ์„ฑ

How

Figure 2

๊ณ„์ธต์  ๊ทธ๋ž˜ํ”„ ๋ชจ๋ธ๋ง ๋ฐ ์ƒ์„ฑ ์‹คํ–‰ ํ”„๋กœ์„ธ์Šค

ํ•ต์‹ฌ ๋ฐฉ๋ฒ•๋ก :

Originality

Limitation & Further Study

Evaluation

์ดํ‰: Data Interpreter๋Š” ๋ฐ์ดํ„ฐ ์‚ฌ์ด์–ธ์Šค ์ž๋™ํ™” ๋ฌธ์ œ๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ์žฌ์ •์˜ํ•˜๊ณ , ๊ณ„์ธต์  ๊ทธ๋ž˜ํ”„ ๋ชจ๋ธ๋ง๊ณผ ๋™์  ๋…ธ๋“œ ์ƒ์„ฑ์ด๋ผ๋Š” ์‹ค์šฉ์ ์ธ ์†”๋ฃจ์…˜์œผ๋กœ ์—ฌ๋Ÿฌ ๋ฒค์น˜๋งˆํฌ์—์„œ ์ƒ๋‹นํ•œ ์„ฑ๋Šฅ ๊ฐœ์„ ์„ ๋‹ฌ์„ฑํ–ˆ๋‹ค. ํŠนํžˆ ์—”๋“œ-ํˆฌ-์—”๋“œ ์›Œํฌํ”Œ๋กœ์šฐ ๊ด€๋ฆฌ์™€ ์‹ค์‹œ๊ฐ„ ์ ์‘์„ฑ ์ธก๋ฉด์—์„œ ๊ธฐ์กด LLM ์—์ด์ „ํŠธ ์—ฐ๊ตฌ๋ฅผ ํ•œ ๋‹จ๊ณ„ ์ง„์ „์‹œ์ผฐ์œผ๋‚˜, ์ด๋ก ์  ๋ถ„์„ ๊ฐ•ํ™”์™€ ํ”„๋กœ๋•์…˜ ํ™˜๊ฒฝ ๊ฒ€์ฆ์ด ์ถ”๊ฐ€๋˜๋ฉด ๋”์šฑ ์ž„ํŒฉํŠธ ์žˆ๋Š” ๊ธฐ์—ฌ๊ฐ€ ๋  ์ˆ˜ ์žˆ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Data Interpreter๊ฐ€ ์ œ์•ˆํ•˜๋Š” ๋ณต์žกํ•œ ๋ฐ์ดํ„ฐ ๊ณผํ•™ ์ž‘์—… ์ž๋™ํ™” ๊ตฌ์กฐ๊ฐ€ DABench์˜ ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ ๊ตฌ์„ฑ์˜ ์‚ฌ์ƒ์  ๊ธฐ์ดˆ๋ฅผ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Data Interpreter ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜ ์ž๋™ํ™” ๋ฐ์ดํ„ฐ ๊ณผํ•™ ํ”„๋ ˆ์ž„์›Œํฌ ๊ตฌํ˜„์˜ ๊ธฐ๋ณธ ๊ตฌ์กฐ๋ฅผ ๋‹ค๋ฃจ๋ฉฐ DS-Agent์˜ ๊ธฐ๋ฐ˜์  ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
LLM ์—์ด์ „ํŠธ๊ฐ€ ๋ฐ์ดํ„ฐ ํŒŒ์ดํ”„๋ผ์ธ ๋ฐ ๊ณผํ•™์  ๋ถ„์„์— ํ™œ์šฉ๋  ์ˆ˜ ์žˆ๋Š” ์›๋ฆฌ๋ฅผ ์ œ์‹œํ•˜์—ฌ, Autokaggle์˜ ๊ธฐ์ดˆ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
LLM ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ์˜ ๋ฐ์ดํ„ฐ ๋ถ„์„ ๋Šฅ๋ ฅ ํ‰๊ฐ€๋ฅผ ์œ„ํ•œ ๋ฐฉ๋ฒ•๋ก ์  ๊ธฐ์ดˆ๋ฅผ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
AutoSDT์˜ ๊ณ ํ’ˆ์งˆ ๋ฐ์ดํ„ฐ ์ฃผ๋„ ๋ฐœ๊ฒฌ ํŒŒ์ดํ”„๋ผ์ธ ๊ตฌ์ถ•์ด Data Interpreter์˜ ๋™์  ์›Œํฌํ”Œ๋กœ์šฐ ๋ชจ๋ธ๋ง๊ณผ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ์ด์–ด์ง„๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๊ณผํ•™์  ์–ธ์–ด์—์ด์ „ํŠธ์˜ ํ‰๊ฐ€ยท๋ฒค์น˜๋งˆํ‚น์„ ์œ„ํ•œ ํ”„๋ ˆ์ž„์›Œํฌ๋กœ ๋ณต์žกํ•œ ์›Œํฌํ”Œ๋กœ์šฐ ํ•ด๊ฒฐ ๋Šฅ๋ ฅ ๊ฒ€์ฆ์˜ ์ด๋ก ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Ds-agent ๋…ผ๋ฌธ๋„ LLM ๊ธฐ๋ฐ˜ ๋ฐ์ดํ„ฐ ์‚ฌ์ด์–ธ์Šค ์ž๋™ํ™” ๋ฌธ์ œ๋ฅผ ๋‹ค๋ฃจ๋ฉฐ, Data Interpreter์™€ ์„ค๊ณ„์ฒ ํ•™๊ณผ ์„ฑ๋Šฅ, ์ ์šฉ๋ฒ”์œ„์˜ ์ฐจ์ด์ ์„ ๋น„๊ตํ•  ์ˆ˜ ์žˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Data Interpreter๋Š” ๋ฐ์ดํ„ฐ ๋ถ„์„ ์ž๋™ํ™”๋ฅผ ๋ชฉํ‘œ๋กœ ํ•˜๋ฉฐ, ๋ณต์žกํ•œ ๋ฐ”์ด์˜ค ์ธํฌ๋งคํ‹ฑ์Šค ๋Œ€์‹  ๋‹ค์–‘ํ•œ ๋„๋ฉ”์ธ์˜ ๋ฐ์ดํ„ฐ ์‚ฌ์ด์–ธ์Šค์— ์ ์šฉํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Data Interpreter ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜ ๋ฐ์ดํ„ฐ ๋ถ„์„ ์—์ด์ „ํŠธ๋กœ ์‹ค์ฝ”๋“œ ํ™œ์šฉ์„ฑ์— ์ดˆ์ ์„ ๋งž์ถ”๊ณ  ์žˆ์–ด SciCode์˜ ๊ณผํ•™ ์—ฐ๊ตฌ ํ˜„์žฅ ํ‰๊ฐ€์ง€ํ–ฅ๊ณผ ๋ณด์™„์ ์œผ๋กœ ์—ฐ๊ฒฐ๋ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
253์€ ๋ฐ์ดํ„ฐ ๊ณผํ•™ ๋„๋ฉ”์ธ์—์„œ LLM ์—์ด์ „ํŠธ ํ™œ์šฉ์„, 651์€ ์‹ ์•ฝ ๊ฐœ๋ฐœ์— ์ค‘์ ์„ ๋‘๋ฉฐ ๋„๋ฉ”์ธ ํŠนํ™” ์—†์ด ๋ฒ”์šฉ LLM ํ˜‘๋ ฅ์„ ํƒ๊ตฌํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋ฐ์ดํ„ฐ ํ•ด์„ ๋ฐ ์ „๋ฌธ๊ฐ€ ์ˆ˜์ค€ ์ž๋™ํ™” ์†”๋ฃจ์…˜ ๊ฐœ๋ฐœ์—์„œ LLM ์—์ด์ „ํŠธ๊ฐ€ ์–ด๋–ป๊ฒŒ ํ™œ์šฉ๋˜๋Š”์ง€์— ๋Œ€ํ•œ ๋‹ค๋ฅธ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์‹œํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ž์œจ์  ๋ฐ์ดํ„ฐ ๊ณผํ•™์„ ์œ„ํ•œ LLM ์—์ด์ „ํŠธ๋ฅผ ์ œ์•ˆํ•˜๋Š” ์œ ์‚ฌํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
๋ฐ์ดํ„ฐ ๋ถ„์„ ์—์ด์ „ํŠธ ์„ฑ๋Šฅ ๋ฒค์น˜๋งˆํฌ ํ‰๊ฐ€ ๋ฐ ๋‹ค์–‘ํ•œ ํƒœ์Šคํฌ ํ…Œ์ŠคํŠธ ๊ฒฐ๊ณผ์™€ ์ง์ ‘์ ์œผ๋กœ ๋น„๊ตํ•  ์ˆ˜ ์žˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
253๋ฒˆ ๋…ผ๋ฌธ์€ ๋ฐ์ดํ„ฐ ๋ถ„์„์— ์ฃผ๋ ฅํ•œ LLM ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ๋กœ์„œ 098์—์„œ ์ œ์‹œํ•œ GIS ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ํ™•์žฅ, ํ–ฅํ›„ ์œตํ•ฉํ˜• ์—์ด์ „ํŠธ ์—ฐ๊ตฌ๊นŒ์ง€ ์—ฐ๊ฒฐํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
๋ฐ์ดํ„ฐ ๊ณผํ•™์šฉ LLM ์—์ด์ „ํŠธ์˜ ์‹ค์ œ ์ ์šฉ ๋ฐ ์ž๋™ํ™” ์‚ฌ๋ก€๋กœ, ๋ณต์žกํ•œ ๊ณผํ•™์  ๋ฐ์ดํ„ฐ ํ•ด์„ ์ž๋™ํ™” ๋ถ„์•ผ์— ์ง์ ‘์ ์ธ ์‘์šฉ ๊ด€๋ จ์„ฑ์ด ์žˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
AutoSDT์˜ ์ž๋™ํ™”๋œ ๋ฐ์ดํ„ฐ ๊ณผํ•™ ๋ฐœ๊ฒฌ ํŒŒ์ดํ”„๋ผ์ธ๊ณผ Data Interpreter์˜ LLM ๊ธฐ๋ฐ˜ ์—”๋“œ ํˆฌ ์—”๋“œ ๋ฐ์ดํ„ฐ ์›Œํฌํ”Œ๋กœ์šฐ ๊ด€๋ฆฌ๊ฐ€ ์ƒํ˜ธ ๋ณด์™„๋œ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •