์ ์: Zhicheng Guo, Sijie Cheng, Hao Wang, Shihao Liang, Yujia Qin, Peng Li, Zhiyuan Liu, Maosong Sun, Yang Liu | ๋ ์ง: 2025-03-05 | DOI: 10.48550/arXiv.2403.07714 📄 PDF
Essence
ToolBench์์ ๋ณด๊ณ ๋ ์ฑ๋ฅ๊ณผ ์ฌํ๋ ์ฑ๋ฅ์ ๋น๊ต: ๋ช ๊ฐ์ ํ ๋์ผํ ์ค์ ์์ ์ฌํํ์ ๋ ์๋นํ ์ฑ๋ฅ ์ ํ ๋ฐ์
๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ด ๋๊ตฌ๋ฅผ ํ์ฉํ๋ ๋ฅ๋ ฅ์ ํ๊ฐํ๊ธฐ ์ํด ์์ ์ ์ธ ๋ฒค์น๋งํฌ๊ฐ ํ์์ ์ธ๋ฐ, ๊ธฐ์กด ToolBench๋ ์ค์๊ฐ API์ ๋ถ์์ ์ฑ์ผ๋ก ์ธํด ๊ฒฐ๊ณผ ์ฌํ์ฑ์ด ๋จ์ด์ง๋ค. ๋ณธ ๋
ผ๋ฌธ์ ๊ฐ์ API ์๋ฒ์ ์์ ์ ์ธ ํ๊ฐ ์์คํ
์ ํตํด ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ StableToolBench๋ฅผ ์ ์ํ๋ค.
How
ToolBench์ Pass Rate ํ๊ฐ ๋ฐฉ์: "Unsure" ์ํ์์ ์์ ๊ฒฐ์ ์ผ๋ก ์ธํ ๋ถ์์ ์ฑ
๊ฐ์ API ์๋ฒ (Virtual API Server)
- ์บ์ฑ ์์คํ
: ์นดํ
๊ณ ๋ฆฌ, ๋๊ตฌ, API ์ด๋ฆ, ์ธ์๋ก ๊ตฌ์ฑ๋ ํค๋ฅผ ์ฌ์ฉํ์ฌ API ์๋ต ์ ์ฅ. ์ฒซ ๋ฒ์งธ ์ฐ์ ์์๋ ์บ์ ์กฐํ
- API ์๋ฎฌ๋ ์ดํฐ: ์บ์ ๋ฏธ์ค ์ LLM(GPT-4)์ API ๋ฌธ์์ ๋ช ๊ฐ์ง ์ค์ ์์๋ฅผ ์ ๊ณตํ์ฌ API ๋์ ๋ชจ๋ฐฉ
- ํธ์ถ ๊ท์น: ์บ์ โ ์ค์๊ฐ API ํธ์ถ โ ์๋ฎฌ๋ ์ดํฐ ์์๋ก ์งํ
์์ ์ ํ๊ฐ ์์คํ
(Stable Evaluation System)
- SoPR (Solvable Pass Rate): ๋จผ์ GPT-4๋ก ์์
์ด ํด๊ฒฐ ๊ฐ๋ฅํ์ง ํ๋จํ ํ, ํด๊ฒฐ ๊ฐ๋ฅํ ์์
์ ๋ํด์๋ง Pass Rate ๊ณ์ฐ
- SoWR (Solvable Win Rate): ๋ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํด๊ฒฐ ๊ฐ๋ฅํ ์์
๋ฒ์์์๋ง ๋น๊ต
- ํ๊ฐ์ ์
๊ทธ๋ ์ด๋: GPT-3.5 ๋์ GPT-4 ์ฌ์ฉ์ผ๋ก "Unsure" ์ํ ์ ๊ฑฐ
Evaluation
์ดํ: StableToolBench๋ ๊ธฐ์กด ๋๊ท๋ชจ ๋๊ตฌ ํ์ต ๋ฒค์น๋งํฌ์ ์ฌํ์ฑ ์๊ธฐ์ ๋ํ ์ค์ง์ ์ด๊ณ ํจ๊ณผ์ ์ธ ํด๊ฒฐ์ฑ
์ ์ ์ํ๋ค. ํนํ API ๋ถ์์ ์ฑ๊ณผ ํ๊ฐ ์์คํ
์ ์ฝ์ ์ ๋์์ ํด๊ฒฐํ ์ ์ด ๊ฐ์น ์์ผ๋, LLM ๊ธฐ๋ฐ ์๋ฎฌ๋ ์ดํฐ์ ์ ๋ขฐ์ฑ ๊ฒ์ฆ๊ณผ ์ฅ๊ธฐ ์์ ์ฑ ๋ณด์ฅ ์ธก๋ฉด์์ ๋ณด์์ด ํ์ํ๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
LLM์ ๋๊ตฌ์ฌ์ฉ ํ๊ตฌ๋ฒ(ํด ํ์ฉ ๊ฐํํ์ต)์ ๋ํ ์ด๋ก ์ ๊ธฐ๋ฐ์ ์ ๊ณตํ์ฌ, 769์ ๋๊ตฌ๋ฅ๋ ฅ ๋ฒค์น๋งํฌ ์ค๊ณ์ ์ฐธ๊ณ ํ ์ ์์ต๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
StableToolBench์ ๋ฒค์น๋งํฌ ํ๊ฒฝ์ ์คํ ๊ฐ๋ฅํ ์ฝ๋ ๊ธฐ๋ฐ ์์ด์ ํธ ํ๊ฐ ๋ฐฉ์(CodeAct)์ ์ ๋ขฐ์ฑ๊ณผ ์ฌํ์ฑ ๋ณด์ฅ์ ์ํ ๊ธฐ๋ฐ์ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
LLM With Tools: A Survey ๋
ผ๋ฌธ์ ํด ๊ธฐ๋ฐ LLM ํ์ฉ์ ๋ํ ์ ๋ฐ์ ์ธ ์ด๋ก ์ ๋ฐฐ๊ฒฝ์ ์ ๊ณตํ์ฌ StableToolBench์ ์ฐ๊ตฌ ๋ฐฉํฅ ์ค์ ์ ํฐ ์ํฅ์ ๋ฏธ์น๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๋ค์ค ๋จ๊ณ ๊ณผํ ๋๊ตฌ ์ฌ์ฉ ์์ด์ ํธ์ ํ๊ฐ ํ๊ฒฝ์ ๋ง๋ จํ์ฌ ToolBench ๋ฐ StableToolBench ๋น๊ต ํ๊ฐ์ ๊ธฐ๋ฐ์ ์ ๊ณตํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
Auto-research ํ๋ ์์ํฌ์์ ToolBench๊ฐ ๋ค๋ฃจ๋ ๋๊ตฌ ํ์ฉ ๋ฌธ์ ์ ์ ์ฌํ LLM ์คํ ์๋ํ ๋ฒค์น๋งํฌ๋ฅผ ์ ๊ณตํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
StableToolBench๋ ์ฝ๋ ์์ฑยท๋๋ฒ๊น
์ฉ LLM ํ๊ฐ ์ค์ํธ๋ก, ์ฐ๊ตฌํ์ฅ์์ LLM ๊ธฐ๋ฐ ์ํํธ์จ์ด ๊ณตํ ํจ์ฉ์ ๊ฒ์ฆํ ์ ์๊ฒ ํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
Cocoa ๋
ผ๋ฌธ์ ์ธ๊ฐ๊ณผ AI ์์ด์ ํธ์ ๊ณต๋ ๊ณํ ๋ฐ ์คํ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ฉฐ ๋๊ตฌ ํ์ฉ ์์ ์ฑ ๋ฌธ์ ํด๊ฒฐ์ ๋ํ ์ถ๊ฐ์ ์ธ ์ ์ฉ์ ๋ณด์ฌ์ค๋ค.
์์ฉ ์ฌ๋ก
StableToolBench๋ ToolBench์ ์คํยทํ๊ฐ ๋ถ์์ ์ฑ ๊ฐ์ ์ ๊ทผ์ด CodeAct ๋ฐฉ์์ ์์ด์ ํธ ํ๊ฐ์ ์ค์ ๊ฒ์ฆ ํ๊ฒฝ์์ ์ด๋ป๊ฒ ์ฐ๊ณ๋ ์ ์๋์ง ๋ณด์ฌ์ค๋๋ค.