ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs

์ €์ž: Yujia Qin, Shihao Liang, Yining Ye, Kunlun Zhu, Lan Yan, Yaxi Lu, Yankai Lin, Xin Cong, Xiangru Tang, Bill Qian, Sihan Zhao, Lauren Hong, Runchu Tian, Ruobing Xie, Jie Zhou, Mark Gerstein, Dahai Li, Zhiyuan Liu, Maosong Sun | ๋‚ ์งœ: 2023-10-03 | DOI: 10.48550/arXiv.2307.16789 📄 PDF


Essence

์˜คํ”ˆ์†Œ์Šค LLM๋“ค์˜ API ํ™œ์šฉ ๋Šฅ๋ ฅ์„ ๋Œ€ํญ ํ–ฅ์ƒ์‹œํ‚ค๊ธฐ ์œ„ํ•ด 16,464๊ฐœ์˜ ์‹ค์ œ REST API๋ฅผ ํฌํ•จํ•œ ๋Œ€๊ทœ๋ชจ ๋„๊ตฌ ์‚ฌ์šฉ ์ง€์‹œํŠœ๋‹ ๋ฐ์ดํ„ฐ์…‹(ToolBench)๊ณผ ๊นŠ์ด ์šฐ์„  ํƒ์ƒ‰ ๊ธฐ๋ฐ˜ ์˜์‚ฌ๊ฒฐ์ • ํŠธ๋ฆฌ(DFSDT) ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์ œ์‹œํ•˜๋ฉฐ, ChatGPT์™€ ๋น„์Šทํ•œ ์„ฑ๋Šฅ์˜ ToolLLaMA๋ฅผ ๊ฐœ๋ฐœํ–ˆ๋‹ค.

Motivation

Achievement

Figure 2

๋‹ค์–‘ํ•œ ๋ชจ๋ธ์˜ ๋„๊ตฌ ์‚ฌ์šฉ ํ‰๊ฐ€ ๊ฒฐ๊ณผ: Pass Rate์™€ Win Rate (ChatGPT-ReACT ๋Œ€๋น„)

  1. ํฌ๊ด„์  ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์„ฑ: RapidAPI์—์„œ 49๊ฐœ ์นดํ…Œ๊ณ ๋ฆฌ, 3,451๊ฐœ ๋„๊ตฌ(Tool), 16,464๊ฐœ API๋กœ ์ด๋ฃจ์–ด์ง„ ToolBench ๊ตฌ์ถ• (126,486๊ฐœ ์ง€์‹œ๋ฌธ, 469,585๊ฐœ ์‹ค์ œ API ํ˜ธ์ถœ ํฌํ•จ)
  2. ์šฐ์ˆ˜ํ•œ ๋ชจ๋ธ ์„ฑ๋Šฅ: ToolLLaMA๋Š” Text-Davinci-003๊ณผ Claude-2๋ฅผ ๋Šฅ๊ฐ€ํ•˜๊ณ  ChatGPT์™€ ๊ฒฌ์ค„ ๋งŒํ•œ ์„ฑ๋Šฅ ๋‹ฌ์„ฑ, GPT-4์—๋งŒ ์•ฝ๊ฐ„ ๋ฐ€๋ฆผ
  3. ๋‹ค์ค‘ ๋„๊ตฌ ์ฒ˜๋ฆฌ ๋Šฅ๋ ฅ: ๋‹จ์ผ ๋„๊ตฌ ๋ฐ ๋ณตํ•ฉ ๋‹ค์ค‘ ๋„๊ตฌ ์‹œ๋‚˜๋ฆฌ์˜ค ๋ชจ๋‘ ์ฒ˜๋ฆฌ ๊ฐ€๋Šฅ
  4. ๊ฐ•๋ ฅํ•œ ์ผ๋ฐ˜ํ™”: ํ›ˆ๋ จ์— ๋ฏธํฌํ•จ๋œ APIBench ๋ฐ์ดํ„ฐ์…‹์—์„œ Gorilla์™€ ๋™๋“ฑํ•œ ์„ฑ๋Šฅ ์‹œ์—ฐ

How

Figure 1

ToolBench ๊ตฌ์ถ•์˜ ์„ธ ๋‹จ๊ณ„์™€ API ๋ฆฌํŠธ๋ฆฌ๋ฒ„ ๋ฐ ToolLLaMA ํ•™์Šต ํŒŒ์ดํ”„๋ผ์ธ

๋ฐ์ดํ„ฐ ๊ตฌ์ถ• ํ”„๋กœ์„ธ์Šค

ํ•ต์‹ฌ ๊ธฐ์ˆ  ์š”์†Œ

Originality

Limitation & Further Study

Evaluation

์ดํ‰: ToolLLM์€ ์˜คํ”ˆ์†Œ์Šค LLM์˜ ๋Œ€๊ทœ๋ชจ ์‹ค์ œ API ํ™œ์šฉ ๋Šฅ๋ ฅ์„ ์ฒด๊ณ„์ ์œผ๋กœ ํ™•๋ณดํ•œ ์ค‘์š”ํ•œ ์—ฐ๊ตฌ๋กœ, ํฌ๊ด„์ ์ธ ๋ฐ์ดํ„ฐ์…‹, ๊ฐ•ํ™”๋œ ์ถ”๋ก  ์•Œ๊ณ ๋ฆฌ์ฆ˜, ์ž๋™ ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ํ†ตํ•ด ๋„๊ตฌ ํ•™์Šต ๋ถ„์•ผ์— ์‹ค์งˆ์  ๊ธฐ์—ฌ๋ฅผ ์ œ์‹œํ•œ๋‹ค. ChatGPT ์ˆ˜์ค€์˜ ์„ฑ๋Šฅ ๋‹ฌ์„ฑ๊ณผ ๊ฐ•๋ ฅํ•œ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ์€ ์‹ค๋ฌด ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ์„ ๋†’์ด๋‚˜, ๋ฐ์ดํ„ฐ ๊ตฌ์ถ•์˜ ChatGPT ์˜์กด๋„์™€ ์ด๋ก ์  ๋ถ„์„ ๊นŠ์ด์—์„œ๋Š” ๊ฐœ์„  ์—ฌ์ง€๊ฐ€ ์žˆ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Code llama ๋…ผ๋ฌธ์€ ์ฝ”๋“œ ์ƒ์„ฑยทAPI ํ™œ์šฉ ์˜คํ”ˆ์†Œ์Šค LLM์˜ ํ•ต์‹ฌ ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•˜์—ฌ ToolLLM์˜ ๊ธฐ๋ณธ ํ† ๋Œ€๋ฅผ ์ด๋ฃน๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
813 'Toolformer' ๋…ผ๋ฌธ์€ LLM ์Šค์Šค๋กœ ๋„๊ตฌ์‚ฌ์šฉ๋ฒ•์„ ํ•™์Šตํ•˜๋Š” ๋ฐฉ๋ฒ•๋ก ์  ๊ทผ๊ฐ„์„ ์ œ๊ณตํ•˜์—ฌ, 815 ToolLLM์—์„œ ๋Œ€๊ทœ๋ชจ ๋„๊ตฌ ํŠœ๋‹์˜ ์ถœ๋ฐœ์ ์„ ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
815์—์„œ ์ œ์‹œํ•˜๋Š” LLM ๋„๊ตฌ ํ™œ์šฉ/์ง€์‹œํŠœ๋‹ ์ž‘์—…์€ 499์˜ LLM With Tools ๊ด€๋ จ ์„œ๋ฒ ์ด ๋‚ด์šฉ๊ณผ ์ด๋ก ์ ์œผ๋กœ ์—ฐ๊ด€๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
815๋Š” 16,000๊ฐœ ์ด์ƒ์˜ API์™€ LLM ์—ฐ๋™์„ ๋‹ค๋ฃจ๊ณ  ์žˆ์–ด, AnyTool์˜ ๊ณ„์ธต์  API ๊ด€๋ฆฌ ์ „๋žต๊ณผ ์ง์ ‘์ ์œผ๋กœ ๊ด€๋ จ์ด ๊นŠ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋™์ผ ๋…ผ๋ฌธ์ด์ง€๋งŒ, ToolLLM์€ ๋„๊ตฌ ์‚ฌ์šฉ ๋Šฅ๋ ฅ์— ํŠนํ™”๋œ ๋ฐ˜๋ฉด, 066(Agentic Personas for Adaptive Scientific Explanations)์€ ์ ์‘ํ˜• ์„ค๋ช… ์ƒ์„ฑ์ด๋ผ๋Š” ๋„๊ตฌ ์‚ฌ์šฉ๊ณผ ๋˜๋‹ค๋ฅธ ์‹คํ—˜์  ๊ธฐ๋Šฅ์„ ๊ฐ•์กฐํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
815๋ฒˆ ๋…ผ๋ฌธ์€ LLM์ด 16,000๊ฐœ ์ด์ƒ์˜ ํˆด์„ ์‚ฌ์šฉํ•˜๋„๋ก ํ•™์Šตํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ๋‹ค๋ฃจ๋ฉฐ, 499๋ฒˆ์˜ ๋„๊ตฌ ํ†ตํ•ฉ ํ”„๋ ˆ์ž„์›Œํฌ์™€ ๋น„๊ตํ•ด ๋‹ค์–‘ํ•œ LLM+ํˆด ์‚ฌ์šฉ ๋ฐฉ์•ˆ์„ ์ œ์‹œํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
544๋Š” LLM ์ฝ”๋“œ ๋””๋ฒ„๊น… ๋ฐ ๋ฉ€ํ‹ฐ ์–ธ์–ด ์ฒ˜๋ฆฌ ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ๊ณตํ•˜๋ฉฐ, 815์™€ ๋น„์Šทํ•œ LLM ๊ธฐ๋ฐ˜ ์ฝ”๋“œ ๋„๊ตฌ ์‚ฌ์šฉ ํ‰๊ฐ€๋ฅผ ๋‹ค๋ฅธ ๋ฐ์ดํ„ฐ๋กœ ์‹œ๋„ํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋Œ€๊ทœ๋ชจ ๋„๊ตฌ ๋งˆ์Šคํ„ฐ๋ฆฌ(16,000+ ํˆด)์— LLM์ด ๋„๋‹ฌํ•˜๋Š” ํ”„๋ ˆ์ž„์›Œํฌ๋กœ, Search-R1์˜ ๊ฒ€์ƒ‰ ๋ฐ ๋„๊ตฌ ์ƒํ˜ธ์ž‘์šฉ ์„ฑ๋Šฅ๊ณผ ๋น„๊ต ๊ฐ€๋Šฅ.
ํ›„์† ์—ฐ๊ตฌ
120์€ ๋ฉ€ํ‹ฐ์—์ด์ „ํŠธ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ด์šฉํ•œ LLM ์‘์šฉ ํ™•์žฅ ์‚ฌ๋ก€๋กœ, 815์˜ ๋‹จ์ผ ์ž‘์—… ์ค‘์‹ฌ ๋„๊ตฌ ์‚ฌ์šฉ์„ ๋ณตํ•ฉ ์—์ด์ „ํŠธ ์‹œ์Šคํ…œ์œผ๋กœ ๋„“ํž™๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Executable Code Actions ๋…ผ๋ฌธ์€ ์—ฌ๋Ÿฌ ๋„๊ตฌ ์‚ฌ์šฉ ์‹œ๋‚˜๋ฆฌ์˜ค์—์„œ LLM ์—์ด์ „ํŠธ์˜ API ๊ฒฐํ•ฉยทํ‰๊ฐ€ ๊ธฐ์ˆ ์„ ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
LLM์— ๋‹ค์–‘ํ•œ ํˆด ์‚ฌ์šฉ ์—ญ๋Ÿ‰์„ ํ™•์žฅ์‹œ์ผœ ์‹ค์ œ ๋ณต์žกํ•œ ์ฝ”๋”ฉยท๋””๋ฒ„๊น… ๊ณผ์ œ ํ•ด๊ฒฐ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ์ฐจ์„ธ๋Œ€ ๋ฒค์น˜๋งˆํฌ์ž…๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •