์ ์: Yujia Qin, Shihao Liang, Yining Ye, Kunlun Zhu, Lan Yan, Yaxi Lu, Yankai Lin, Xin Cong, Xiangru Tang, Bill Qian, Sihan Zhao, Lauren Hong, Runchu Tian, Ruobing Xie, Jie Zhou, Mark Gerstein, Dahai Li, Zhiyuan Liu, Maosong Sun | ๋ ์ง: 2023-10-03 | DOI: 10.48550/arXiv.2307.16789 📄 PDF
Essence
์คํ์์ค LLM๋ค์ API ํ์ฉ ๋ฅ๋ ฅ์ ๋ํญ ํฅ์์ํค๊ธฐ ์ํด 16,464๊ฐ์ ์ค์ REST API๋ฅผ ํฌํจํ ๋๊ท๋ชจ ๋๊ตฌ ์ฌ์ฉ ์ง์ํ๋ ๋ฐ์ดํฐ์
(ToolBench)๊ณผ ๊น์ด ์ฐ์ ํ์ ๊ธฐ๋ฐ ์์ฌ๊ฒฐ์ ํธ๋ฆฌ(DFSDT) ์๊ณ ๋ฆฌ์ฆ์ ์ ์ํ๋ฉฐ, ChatGPT์ ๋น์ทํ ์ฑ๋ฅ์ ToolLLaMA๋ฅผ ๊ฐ๋ฐํ๋ค.
Evaluation
์ดํ: ToolLLM์ ์คํ์์ค LLM์ ๋๊ท๋ชจ ์ค์ API ํ์ฉ ๋ฅ๋ ฅ์ ์ฒด๊ณ์ ์ผ๋ก ํ๋ณดํ ์ค์ํ ์ฐ๊ตฌ๋ก, ํฌ๊ด์ ์ธ ๋ฐ์ดํฐ์
, ๊ฐํ๋ ์ถ๋ก ์๊ณ ๋ฆฌ์ฆ, ์๋ ํ๊ฐ ํ๋ ์์ํฌ๋ฅผ ํตํด ๋๊ตฌ ํ์ต ๋ถ์ผ์ ์ค์ง์ ๊ธฐ์ฌ๋ฅผ ์ ์ํ๋ค. ChatGPT ์์ค์ ์ฑ๋ฅ ๋ฌ์ฑ๊ณผ ๊ฐ๋ ฅํ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ์ค๋ฌด ์ ์ฉ ๊ฐ๋ฅ์ฑ์ ๋์ด๋, ๋ฐ์ดํฐ ๊ตฌ์ถ์ ChatGPT ์์กด๋์ ์ด๋ก ์ ๋ถ์ ๊น์ด์์๋ ๊ฐ์ ์ฌ์ง๊ฐ ์๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
Code llama ๋
ผ๋ฌธ์ ์ฝ๋ ์์ฑยทAPI ํ์ฉ ์คํ์์ค LLM์ ํต์ฌ ๊ธฐ๋ฐ์ ์ ๊ณตํ์ฌ ToolLLM์ ๊ธฐ๋ณธ ํ ๋๋ฅผ ์ด๋ฃน๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
813 'Toolformer' ๋
ผ๋ฌธ์ LLM ์ค์ค๋ก ๋๊ตฌ์ฌ์ฉ๋ฒ์ ํ์ตํ๋ ๋ฐฉ๋ฒ๋ก ์ ๊ทผ๊ฐ์ ์ ๊ณตํ์ฌ, 815 ToolLLM์์ ๋๊ท๋ชจ ๋๊ตฌ ํ๋์ ์ถ๋ฐ์ ์ ์ค๋ช
ํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
815์์ ์ ์ํ๋ LLM ๋๊ตฌ ํ์ฉ/์ง์ํ๋ ์์
์ 499์ LLM With Tools ๊ด๋ จ ์๋ฒ ์ด ๋ด์ฉ๊ณผ ์ด๋ก ์ ์ผ๋ก ์ฐ๊ด๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
815๋ 16,000๊ฐ ์ด์์ API์ LLM ์ฐ๋์ ๋ค๋ฃจ๊ณ ์์ด, AnyTool์ ๊ณ์ธต์ API ๊ด๋ฆฌ ์ ๋ต๊ณผ ์ง์ ์ ์ผ๋ก ๊ด๋ จ์ด ๊น์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋์ผ ๋
ผ๋ฌธ์ด์ง๋ง, ToolLLM์ ๋๊ตฌ ์ฌ์ฉ ๋ฅ๋ ฅ์ ํนํ๋ ๋ฐ๋ฉด, 066(Agentic Personas for Adaptive Scientific Explanations)์ ์ ์ํ ์ค๋ช
์์ฑ์ด๋ผ๋ ๋๊ตฌ ์ฌ์ฉ๊ณผ ๋๋ค๋ฅธ ์คํ์ ๊ธฐ๋ฅ์ ๊ฐ์กฐํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
815๋ฒ ๋
ผ๋ฌธ์ LLM์ด 16,000๊ฐ ์ด์์ ํด์ ์ฌ์ฉํ๋๋ก ํ์ตํ๋ ๋ฐฉ๋ฒ์ ๋ค๋ฃจ๋ฉฐ, 499๋ฒ์ ๋๊ตฌ ํตํฉ ํ๋ ์์ํฌ์ ๋น๊ตํด ๋ค์ํ LLM+ํด ์ฌ์ฉ ๋ฐฉ์์ ์ ์ํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
544๋ LLM ์ฝ๋ ๋๋ฒ๊น
๋ฐ ๋ฉํฐ ์ธ์ด ์ฒ๋ฆฌ ๋ฒค์น๋งํฌ๋ฅผ ์ ๊ณตํ๋ฉฐ, 815์ ๋น์ทํ LLM ๊ธฐ๋ฐ ์ฝ๋ ๋๊ตฌ ์ฌ์ฉ ํ๊ฐ๋ฅผ ๋ค๋ฅธ ๋ฐ์ดํฐ๋ก ์๋ํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋๊ท๋ชจ ๋๊ตฌ ๋ง์คํฐ๋ฆฌ(16,000+ ํด)์ LLM์ด ๋๋ฌํ๋ ํ๋ ์์ํฌ๋ก, Search-R1์ ๊ฒ์ ๋ฐ ๋๊ตฌ ์ํธ์์ฉ ์ฑ๋ฅ๊ณผ ๋น๊ต ๊ฐ๋ฅ.
ํ์ ์ฐ๊ตฌ
120์ ๋ฉํฐ์์ด์ ํธ ํ๋ ์์ํฌ๋ฅผ ์ด์ฉํ LLM ์์ฉ ํ์ฅ ์ฌ๋ก๋ก, 815์ ๋จ์ผ ์์
์ค์ฌ ๋๊ตฌ ์ฌ์ฉ์ ๋ณตํฉ ์์ด์ ํธ ์์คํ
์ผ๋ก ๋ํ๋๋ค.
ํ์ ์ฐ๊ตฌ
Executable Code Actions ๋
ผ๋ฌธ์ ์ฌ๋ฌ ๋๊ตฌ ์ฌ์ฉ ์๋๋ฆฌ์ค์์ LLM ์์ด์ ํธ์ API ๊ฒฐํฉยทํ๊ฐ ๊ธฐ์ ์ ํ์ฅํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
LLM์ ๋ค์ํ ํด ์ฌ์ฉ ์ญ๋์ ํ์ฅ์์ผ ์ค์ ๋ณต์กํ ์ฝ๋ฉยท๋๋ฒ๊น
๊ณผ์ ํด๊ฒฐ๋ ฅ์ ํ๊ฐํ๋ ์ฐจ์ธ๋ ๋ฒค์น๋งํฌ์
๋๋ค.