์ ์: Xueyu Hu, Ziyu Zhao, Shuang Wei, Ziwei Chai, Qianli Ma, Guoyin Wang, Xuwu Wang, Jing Su, Jingjing Xu, Ming Zhu, Yao Cheng, Jianbo Yuan, Jiwei Li, Kun Kuang, Yang Yang, Hongxia Yang, Fei Wu | ๋ ์ง: 2024 | DOI: arXiv:2401.05507 📄 PDF
Essence
LLM ๊ธฐ๋ฐ ์์ด์ ํธ๊ฐ CSV ํ์ผ์ ์
๋ ฅ๋ฐ์ ReAct ๋ฐฉ์์ผ๋ก ์ฝ๋๋ฅผ ์์ฑ, ์คํํ๊ณ ๊ฒฐ๊ณผ๋ฅผ ๋์ถํ๋ ๋ฐ์ดํฐ ๋ถ์ ํ์คํฌ์ ํ๊ฐ ํ๋ก์ธ์ค
๋ณธ ๋
ผ๋ฌธ์ LLM ๊ธฐ๋ฐ ์์ด์ ํธ์ ๋ฐ์ดํฐ ๋ถ์ ๋ฅ๋ ฅ์ ํ๊ฐํ๊ธฐ ์ํ ์ต์ด์ ์ข
ํฉ ๋ฒค์น๋งํฌ InfiAgent-DABench๋ฅผ ์ ์ํ๋ค. 257๊ฐ์ ํ์ํ(closed-form) ๋ฐ์ดํฐ ๋ถ์ ์ง๋ฌธ๊ณผ 52๊ฐ์ CSV ํ์ผ๋ก ๊ตฌ์ฑ๋ DAEval ๋ฐ์ดํฐ์
๊ณผ, ์ด๋ฅผ ํ๊ฐํ๊ธฐ ์ํ ์์ด์ ํธ ํ๋ ์์ํฌ๋ฅผ ์ ๊ณตํ๋ค.
Evaluation
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ LLM ๊ธฐ๋ฐ ์์ด์ ํธ์ ๋ฐ์ดํฐ ๋ถ์ ๋ฅ๋ ฅ์ ํ๊ฐํ๊ธฐ ์ํ ์ต์ด์ ์ข
ํฉ ๋ฒค์น๋งํฌ๋ฅผ ์ ์ํ๋ฉฐ, ํฌ๋งท ํ๋กฌํ
์ ํตํ ํ์ํ ํ๊ฐ ๋ฐฉ๋ฒ๋ก ์ด ์ค์ฉ์ ์ด๊ณ ์ฐฝ์์ ์ด๋ค. ๊ด๋ฒ์ํ LLM ๋ฒค์น๋งํน๊ณผ ์คํ์์ค DAAgent ๊ฐ๋ฐ๋ก ์ค์ ์ํฉํธ๋ฅผ ์ ๊ณตํ์ง๋ง, ํ๊ฐ ๋ฐฉ์์ ํํ ํ๊ณ์ ๋ฐ์ดํฐ์
๊ท๋ชจ ์ ์ฝ์ด ๊ฐ์ ๋ ํ์๊ฐ ์๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
Data Interpreter๊ฐ ์ ์ํ๋ ๋ณต์กํ ๋ฐ์ดํฐ ๊ณผํ ์์
์๋ํ ๊ตฌ์กฐ๊ฐ DABench์ ํ๊ฐ ํ๋ ์์ํฌ ๊ตฌ์ฑ์ ์ฌ์์ ๊ธฐ์ด๋ฅผ ์ ๊ณตํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
InfiAgent-DABench๋ ๋ฐ์ดํฐ ๋ถ์ ์์
์ ์์ด์ LLM ๊ธฐ๋ฐ ์์ด๋์ด(ํน์ ๊ฐ์ค) ์์ฑ ๋ฐฉ๋ฒ๋ก ๋ฒค์น๋งํฌ๋ฅผ ์ ๊ณตํด, 434์์ ์ ์ํ ์์ด๋์ด ์์ธก ์ฑ๋ฅ ๊ฒ์ฆ์ ์ฐธ๊ณ ํ ๋งํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
ํ๋ ฅ์ ๋ฐ์ดํฐ ๊ธฐ๋ฐ ๊ณผํ ๋ฐ๊ฒฌ์ ์งํฅํ๋ BLADE ๋ฒค์น๋งํฌ์ ๋น๊ตํ์ฌ, ์์ด์ ํธ ํ๊ฐ ์ค๊ณ ๋ฐ ์งํ์ ์ฐจ์ด๋ฅผ ํ์
ํ ์ ์๋ค.
๋ค๋ฅธ ์ ๊ทผ
MLE-bench ๋
ผ๋ฌธ ์ญ์ LLM ์์ด์ ํธ์ ๋ฐ์ดํฐ๋ถ์ยท๋จธ์ ๋ฌ๋ ์ค๋ฌด๋ฅ๋ ฅ ํ๊ฐ๋ฅผ ์ฃผ์ ๋ก ํ์ฌ, InfiAgent-DABench์ ์ํธ ๋น๊ตยท์ฐธ์กฐ๊ฐ ์ ์ฉํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
InfiAgent-DABench๋ ๋ฐ์ดํฐ ๋ถ์ ์์ด์ ํธ์ ์ค์ ์์
์ฑ๋ฅ์ ๋ค์ํ ์๋๋ฆฌ์ค๋ก ์ธก์ ํ์ฌ DSBench์ ๋ฒค์น๋งํฌ ๋ชฉ์ ์ด ์ ์ฌํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
InfiAgent-DABench ๋
ผ๋ฌธ์ GUI ์ด์ธ์ ๋ค์ํ ๋๋ฉ์ธ์์ ๋ฐ์ดํฐ ๋ถ์ ์์ด์ ํธ๋ค์ ์๋ํ ๋ฐ ํ๊ฐ ์์
์ ๋ค๋ฃน๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
์น ๋ธ๋ผ์ฐ์ง ์์ด์ ํธ์ ๋ฅ๋ ฅ๊ณผ ํ๊ณ๋ฅผ ํ๊ฐํ๋ ๋ฒค์น๋งํฌ๋ฅผ ์ฐ๊ตฌํ๋ ๊ด๋ จ ๋
ผ๋ฌธ์ด๋ค.
ํ์ ์ฐ๊ตฌ
Large Language Models Orchestrating Structured Reasoning ๋
ผ๋ฌธ์ ์ค๋ฐ์ดํฐ ๊ณผํ ๋ํ ๋ฑ์ ํตํ LLM ์์ด์ ํธ์ ๋ฐ์ดํฐ ํ์ฉ ๋ฐ ๋ฒค์น๋งํน์ ํ์ฅํ๋ค.
ํ์ ์ฐ๊ตฌ
์๋ ๋ฐ์ดํฐ ๋ถ์ ์์ด์ ํธ๋ก์ LLM ๊ธฐ๋ฐ ๋ถ์ ์ฑ๋ฅ์ ์ค์ ๊ตฌํ ๋ฐ ํ๊ฐํ๋ ๋งฅ๋ฝ์ ์ ๊ณตํ๋ค.
ํ์ ์ฐ๊ตฌ
๋ฐ์ดํฐ ๋ถ์ ์์ด์ ํธ ์ฑ๋ฅ ๋ฒค์น๋งํฌ ํ๊ฐ ๋ฐ ๋ค์ํ ํ์คํฌ ํ
์คํธ ๊ฒฐ๊ณผ์ ์ง์ ์ ์ผ๋ก ๋น๊ตํ ์ ์๋ค.
์์ฉ ์ฌ๋ก
InfiAgent-DABench๋ LLM ์์ด์ ํธ์ ๋ฐ์ดํฐ ๋ถ์ ๋ฅ๋ ฅ์ ์ค์ ๊ณผ์
์ผ๋ก ํ๊ฐํ๋ ๋ํ์ ์์ฉ ๋ฒค์น๋งํฌ๋ค.