Executable Code Actions Elicit Better LLM Agents

์ €์ž: Xingyao Wang, Yangyi Chen, Lifan Yuan, Yizhe Zhang, Yunzhu Li | ๋‚ ์งœ: 2024 | DOI: 10.48550/arXiv.2402.01030 📄 PDF


Essence

Figure 1

CodeAct์™€ Text/JSON ์•ก์…˜์˜ ๋น„๊ต: (์ƒ) ๋‹ค์–‘ํ•œ ์•ก์…˜ ํ˜•์‹ ๊ฐ„ ์˜ˆ์‹œ ๋น„๊ต, (ํ•˜) M3ToolEval ๋ฒค์น˜๋งˆํฌ์—์„œ์˜ ์ •๋Ÿ‰์  ๊ฒฐ๊ณผ

LLM ์—์ด์ „ํŠธ์˜ ์•ก์…˜ ๊ณต๊ฐ„์„ ํ†ตํ•ฉํ•˜๊ธฐ ์œ„ํ•ด ์‹คํ–‰ ๊ฐ€๋Šฅํ•œ Python ์ฝ”๋“œ๋ฅผ ์ง์ ‘ ์‚ฌ์šฉํ•˜๋Š” CodeAct ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•˜๋ฉฐ, ๊ธฐ์กด์˜ JSON/ํ…์ŠคํŠธ ๊ธฐ๋ฐ˜ ์•ก์…˜ ๋ฐฉ์‹ ๋Œ€๋น„ ์ตœ๋Œ€ 20% ๋†’์€ ์„ฑ๊ณต๋ฅ ์„ ๋‹ฌ์„ฑํ•œ๋‹ค.

Motivation

Achievement

Figure 2

LLM ์—์ด์ „ํŠธ์˜ ์ผ๋ฐ˜์  ๋‹ค์ค‘ํ„ด ์ƒํ˜ธ์ž‘์šฉ ํ”„๋ ˆ์ž„์›Œํฌ: ์—์ด์ „ํŠธ, ์‚ฌ์šฉ์ž, ํ™˜๊ฒฝ์˜ ์—ญํ• ์„ ๋‚˜ํƒ€๋‚ด๋ฉฐ CodeAct์˜ ์—ญํ• ๊ณผ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘์˜ ๋™๊ธฐ๋ฅผ ์„ค๋ช…ํ•œ๋‹ค.

  1. ๊ด‘๋ฒ”์œ„ํ•œ ์‹ค์ฆ์  ๊ฒ€์ฆ: 17๊ฐœ LLM(์˜คํ”ˆ์†Œ์Šค ๋ฐ ํ์‡„ํ˜•)์— ๋Œ€ํ•œ ์‹คํ—˜์œผ๋กœ CodeAct์˜ ์šฐ์ˆ˜์„ฑ ์ž…์ฆ. ๊ธฐ๋ณธ ๋„๊ตฌ ํ˜ธ์ถœ ์ž‘์—…(API-Bank)์—์„œ๋Š” ๋Œ€๋ถ€๋ถ„์˜ ๋ชจ๋ธ์ด ๊ธฐ์ค€์„ ๊ณผ ๋™๋“ฑํ•˜๊ฑฐ๋‚˜ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ ๋‹ฌ์„ฑ.
  2. ๋ณต์žกํ•œ ์ž‘์—…์—์„œ์˜ ์„ฑ๋Šฅ ํ–ฅ์ƒ: ์ƒˆ๋กœ์šด ๋ฒค์น˜๋งˆํฌ M3ToolEval (82๊ฐœ ์ธ๊ฐ„ ํ๋ ˆ์ด์…˜ ์ž‘์—…)์—์„œ ์ตœ๋Œ€ 20% ์ ˆ๋Œ€ ์„ฑ๊ณต๋ฅ  ํ–ฅ์ƒ ๋ฐ ์•ก์…˜ ์ˆ˜ 30% ๊ฐ์†Œ. ๋ชจ๋ธ ๋Šฅ๋ ฅ์ด ์ฆ๊ฐ€ํ• ์ˆ˜๋ก ์„ฑ๋Šฅ ๊ฒฉ์ฐจ ํ™•๋Œ€.
  3. ์‹ค์šฉ์  ์—์ด์ „ํŠธ ๊ฐœ๋ฐœ: CodeActInstruct (7k ๋‹ค์ค‘ํ„ด ์ƒํ˜ธ์ž‘์šฉ) ๋ฐ์ดํ„ฐ์…‹ ์ˆ˜์ง‘ ๋ฐ ์ด๋ฅผ ํ™œ์šฉํ•œ CodeActAgent (Llama2, Mistral ๊ธฐ๋ฐ˜) ๊ฐœ๋ฐœ. ๋ชจ๋ธ ํ•™์Šต, ๋ฐ์ดํ„ฐ ์‹œ๊ฐํ™” ๋“ฑ ๊ณ ๋„ํ™”๋œ ์ž‘์—…์„ ๊ธฐ์กด Python ํŒจํ‚ค์ง€๋กœ ์ž๋™ ๋””๋ฒ„๊น… ๋Šฅ๋ ฅ๊ณผ ํ•จ๊ป˜ ์ˆ˜ํ–‰.
  4. ์ผ๋ฐ˜ ๋Šฅ๋ ฅ ๋ณด์กด: ๊ธฐ์กด ์ง€์‹œ ํŠœ๋‹ ๋ฐ์ดํ„ฐ์™€ ํ•จ๊ป˜ ์‚ฌ์šฉํ•˜์—ฌ ์—์ด์ „ํŠธ ์ž‘์—… ์„ฑ๋Šฅ ๊ฐœ์„  ๋™์‹œ์— ์ผ๋ฐ˜ ๋Šฅ๋ ฅ(QA, ์ฝ”๋”ฉ, ์ง€์‹œ ๋”ฐ๋ฅด๊ธฐ) ์œ ์ง€.

How

Figure 3

CodeActAgent (Mistral-7b)์™€์˜ Python ํŒจํ‚ค์ง€ ๋‹ค์ค‘ํ„ด ์ƒํ˜ธ์ž‘์šฉ ์˜ˆ์‹œ: ์ปจํ…์ŠคํŠธ ๋‚ด ์‹œ์—ฐ ์—†์ด ๊ณ ๋„ํ™”๋œ ์ž‘์—… ์ˆ˜ํ–‰

Originality

Limitation & Further Study

Evaluation

Novelty: 4.5/5 Technical Soundness: 4/5 Significance: 4.5/5 Clarity: 4/5 Overall: 4.3/5

์ดํ‰: CodeAct๋Š” LLM ์—์ด์ „ํŠธ์˜ ์•ก์…˜ ๊ณต๊ฐ„ ํ‘œํ˜„์— ๋Œ€ํ•œ ํŒจ๋Ÿฌ๋‹ค์ž„ ์ „ํ™˜์„ ์ œ์‹œํ•˜๋ฉฐ, ๊ด‘๋ฒ”์œ„ํ•œ ์‹ค์ฆ์  ๊ฒ€์ฆ๊ณผ ์‹ค์šฉ์  ์—์ด์ „ํŠธ ๊ฐœ๋ฐœ์„ ํ†ตํ•ด ๋†’์€ ์‹ค์šฉ ๊ฐ€์น˜๋ฅผ ์ž…์ฆํ–ˆ๋‹ค. ๋‹ค๋งŒ ๋ณด์•ˆ, ์‹ ๋ขฐ์„ฑ, ํ”„๋กœ๊ทธ๋ž˜๋ฐ ์–ธ์–ด ๋‹ค์–‘์„ฑ ์ธก๋ฉด์˜ ๊ฐœ์„ ๊ณผ ๋ฌผ๋ฆฌ์  ํ™˜๊ฒฝ์—์„œ์˜ ์ถ”๊ฐ€ ๊ฒ€์ฆ์ด ํ•„์š”ํ•˜๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
์ฝ”๋“œ ์‹คํ–‰ ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ ์„ฑ๋Šฅ ํ–ฅ์ƒ ๊ธฐ๋ฒ•์„ ์„ค๋ช…ํ•จ์œผ๋กœ์จ, Openhands์˜ ์‹ค์ œ ์†Œํ”„ํŠธ์›จ์–ด ๊ฐœ๋ฐœ/๋””๋ฒ„๊น… ์ž๋™ํ™”์˜ ํ•ต์‹ฌ ๊ธฐ์ˆ ์— ๊ธฐ์—ฌํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Executable Code Actions ๋…ผ๋ฌธ์€ ์‹คํ–‰ ๊ฐ€๋Šฅํ•œ ์ฝ”๋“œ ๊ธฐ๋ฐ˜ ๋ฒค์น˜๋งˆํฌ๋ฅผ ํ™œ์šฉํ•ด OpenDevin๊ณผ ๊ฐ™์€ ๊ฐœ๋ฐœ์ž ๋„๊ตฌํ˜• ๋ฉ€ํ‹ฐ์—์ด์ „ํŠธ ํ‰๊ฐ€์— ์ด๋ก , ๋ฐฉ๋ฒ•์  ํ† ๋Œ€๋ฅผ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
LLM ์—์ด์ „ํŠธ์˜ ๋„๊ตฌ ํ™œ์šฉ ๋ฐ ์•ก์…˜ ์„ค๊ณ„์— ๊ด€ํ•œ ์ด๋ก ์  ๋ฐ”ํƒ•์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
754๋ฒˆ ๋…ผ๋ฌธ์˜ LLM ๊ธฐ๋ฐ˜ ์ฝ”๋“œ ์ƒ์„ฑ, ๋””๋ฒ„๊น…๊ณผ ํ”„๋กœ๊ทธ๋žจ ์ง„ํ™” ํ‰๊ฐ€๋Š” LLM์˜ ์ฝ”๋“œ ๋Šฅ๋ ฅ ๋ฒค์น˜๋งˆํ‚น์— ๊ด€ํ•œ 325 ๋…ผ๋ฌธ์˜ ๊ฒฐ๊ณผ์™€ ๋ฐ€์ ‘ํ•˜๊ฒŒ ์—ฐ๊ด€๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
325 ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜ ์ฝ”๋“œ ์—์ด์ „ํŠธ๊ฐ€ ์‹ค์ œ๋กœ ์ฝ”๋“œ ์ƒ์„ฑยท์ˆ˜์ •ยท์‹คํ–‰์—์„œ ์–ด๋А ์ •๋„ ์‹คํ–‰ ๊ฐ€๋Šฅ์„ฑ๊ณผ ๋ฌธ์ œ ํ•ด๊ฒฐ ๋Šฅ๋ ฅ์„ ๋ณด์ด๋Š”์ง€ ์ •๋Ÿ‰์ ์œผ๋กœ ๊ฒ€์ฆํ•˜๋ฉฐ, ResearchCodeBench์˜ ์ฝ”๋“œ ๋ณ€ํ™˜ ์„ฑ๋Šฅ ํ‰๊ฐ€์— ์ด๋ก ์  ํ† ๋Œ€๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๋ฌธ์„œ ๋‚ด ์•ก์…˜ ๊ธฐ๋ฐ˜ ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ(CodeAct)๋Š” ๋‹ค์–‘ํ•œ ํ‘œ ๋ฐ์ดํ„ฐ ์ž‘์—…์—์„œ LLM์˜ ํ‘œ ๋ฐ์ดํ„ฐ reasoning ๋ฐ ํ–‰๋™ ํ‰๊ฐ€์— ์ด๋ก ์  ๊ทผ๊ฑฐ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
StableToolBench์˜ ๋ฒค์น˜๋งˆํฌ ํ™˜๊ฒฝ์€ ์‹คํ–‰ ๊ฐ€๋Šฅํ•œ ์ฝ”๋“œ ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ ํ‰๊ฐ€ ๋ฐฉ์‹(CodeAct)์˜ ์‹ ๋ขฐ์„ฑ๊ณผ ์žฌํ˜„์„ฑ ๋ณด์žฅ์„ ์œ„ํ•œ ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
325 ๋…ผ๋ฌธ์€ ์ฝ”๋“œ ์ž‘์„ฑ ๋ฐ ์‹คํ–‰์ด LLM ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ์˜ ์„ฑ๋Šฅ์— ๋ฏธ์น˜๋Š” ์˜ํ–ฅ๊ณผ ์„ค๊ณ„ ์ „๋žต์„ ์ƒ์„ธํžˆ ๋ถ„์„ํ•˜๋ฏ€๋กœ MatClaw(3160)์— ๊ธฐ์ˆ ์  ๋ฐฐ๊ฒฝ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
LLM ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ์˜ ์ฝ”๋“œ ์ƒ์„ฑ ๋ฐ ์‹คํ—˜ ์ž๋™ํ™” ๋Šฅ๋ ฅ ํ™•๋ณด์— ํ•„์š”ํ•œ ํ•ต์‹ฌ ์ด๋ก ๊ณผ ํ‰๊ฐ€ ๋ฐฉ๋ฒ•์„ ์ œ์‹œํ•ด 3288 ์‹œ์Šคํ…œ์˜ ๊ธฐ์ดˆ๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
813 ๋…ผ๋ฌธ๋„ LLM ์—์ด์ „ํŠธ์˜ ๋„๊ตฌ ์‚ฌ์šฉ์„ ์ž๊ฐ€ ์ง€๋„ํ•™์Šต์œผ๋กœ ๊ฐœ์„ ํ•˜๋‚˜, 325๋Š” ์‹คํ–‰ ๊ฐ€๋Šฅํ•œ ์ฝ”๋“œ ์ค‘์‹ฌ์˜ ํ”„๋ ˆ์ž„์›Œํฌ๋ผ๋Š” ์ ์ด ์ฐจ๋ณ„์ ์ž…๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Executable Code Actions ๋…ผ๋ฌธ์€ ๋‹ค์–‘ํ•œ ์‹ค์„ธ๊ณ„ ์ฝ”๋”ฉ ์ž‘์—…์—์„œ LLM ์—์ด์ „ํŠธ ์„ฑ๋Šฅ์„ ์‹œํ—˜ํ•ด HYPERAGENT์™€ ์œ ์‚ฌ๋ฌธ์ œ๋ฅผ ๋‹ค๋ฃจ์ง€๋งŒ ์ ‘๊ทผ ๋ฐฉ์‹์ด ๋‹ค๋ฆ…๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋‘ ๋…ผ๋ฌธ ๋ชจ๋‘ LLM ํ™œ์šฉ ์›Œํฌํ”Œ๋กœ์šฐ์—์„œ ๋ชจ๋ธ์˜ ๋Šฅ๋™์  ์ž๊ธฐ์ˆ˜์ •ยท์ž๊ธฐํ‰๊ฐ€๋ฅผ ๋‹ค๋ฃจ๋‚˜, 598์€ ๊ฒ€์ฆ-์ˆ˜์ • RL ๊ตฌ์กฐ, 325๋Š” ์‹คํ–‰ ๊ฐ€๋Šฅํ•œ ์ฝ”๋“œ ๊ธฐ๋ฐ˜ LLM ์—์ด์ „ํŠธ์˜ ์„ฑ๋Šฅ์„ ๊ณ ๋„ํ™”ํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์œ ์ „์ž ๋ถ„์„ ๋“ฑ ์ƒ๋ช…๊ณผํ•™ ์ค‘์‹ฌ์˜ AI ์—์ด์ „ํŠธ ์›Œํฌํ”Œ๋กœ์šฐ ์‚ฌ๋ก€์™€ ์žฌ๋ฃŒ๊ณผํ•™ ๋‚ด LLM ํ™œ์šฉ๋ฒ•์„ ๋น„๊ตํ•ด ์ฐธ๊ณ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Executable Code Actions ๋…ผ๋ฌธ์€ ์ฝ”๋“œ ์ƒ์„ฑ ๊ณผ์ •์—์„œ ์‹คํ–‰ ๊ฐ€๋Šฅ์„ฑ๊ณผ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ์œ„ํ•œ LLM ์—์ด์ „ํŠธ ๋ฐฉ๋ฒ•์„ ๋‹ค๋ฃจ์–ด ์ง์ ‘ ๋น„๊ตํ•  ๋งŒํ•˜๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
325 ๋…ผ๋ฌธ์€ ํ•ฉ๊ธˆ ์„ค๊ณ„ยท๋ฐœ๊ฒฌ์—์„œ physics-aware agentic ์‹œ์Šคํ…œ์„ ๋„์ž…ํ•ด, SpbNet๊ณผ ๋ฌผ์งˆ ์„ค๊ณ„ ๋ฌธ์ œ ํ•ด๊ฒฐ ๋ฐฉ์‹์—์„œ ๋น„๊ต๋ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
์‹คํ–‰๊ฐ€๋Šฅ ์ฝ”๋“œ(Action)๋ฅผ ํ†ตํ•œ LLM ์—์ด์ „ํŠธ ์„ฑ๋Šฅ ํ–ฅ์ƒ ์—ฐ๊ตฌ๋กœ, ์ž๊ธฐ ๋””๋ฒ„๊น…์˜ ์‹ค์šฉ์  ํ™•์žฅ ์‚ฌ๋ก€๊ฐ€ ์ œ์‹œ๋ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Executable Code Actions ๋…ผ๋ฌธ์€ ์—ฌ๋Ÿฌ ๋„๊ตฌ ์‚ฌ์šฉ ์‹œ๋‚˜๋ฆฌ์˜ค์—์„œ LLM ์—์ด์ „ํŠธ์˜ API ๊ฒฐํ•ฉยทํ‰๊ฐ€ ๊ธฐ์ˆ ์„ ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Executable Code Actions Elicit Better LLM Agents ๋…ผ๋ฌธ์—์„œ ๊ณผํ•™ ์‹คํ—˜์— ํ•„์š”ํ•œ ์ฝ”๋“œ ์ƒ์„ฑ ๋ฐ ์‹คํ–‰ ๋Šฅ๋ ฅ์„ ์ƒˆ๋กญ๊ฒŒ ๋ถ„์„ํ•˜์—ฌ, LLM ๊ธฐ๋ฐ˜ ์ž๋™ ํ˜„๋ฏธ๊ฒฝ ์›Œํฌํ”Œ๋กœ์šฐ์˜ ์‹ค์ œ ์ž‘๋™๊ฐ€๋Šฅ์„ฑ๊ณผ ์—ฐ๊ฒฐ๋œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Executable Code Actions ๋…ผ๋ฌธ์€ LLM ์—์ด์ „ํŠธ์˜ ์ฝ”๋“œ ์‹คํ–‰ ๋Šฅ๋ ฅ์ด ๋ฐ์ดํ„ฐ ๊ณผ์ œ ํ•ด๊ฒฐ์„ ์–ด๋–ป๊ฒŒ ํ–ฅ์ƒ์‹œํ‚ค๋Š”์ง€ ๋ถ„์„ํ•ด DSBench ํ‰๊ฐ€์˜ ํ•ด์„์„ ๋ณด์™„ํ•ด์ค๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
์ฝ”๋“œ ์‹คํ–‰ ๊ธฐ๋ฐ˜ LLM agent ํ‰๊ฐ€๋ฅผ ํ†ตํ•ด ๊ณผํ•™๋„๊ตฌ ์ƒ์„ฑ ์—์ด์ „ํŠธ์˜ ์‹ค์งˆ์  ์„ฑ๋Šฅ ๋ถ„์„์„ ๋”ํ•จ.
ํ›„์† ์—ฐ๊ตฌ
Executable Code Actions ๋…ผ๋ฌธ์€ RL ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ์˜ ์ฝ”๋“œ ์‹คํ–‰ยทํ‰๊ฐ€ ๊ธฐ๋ฒ•์„ ํ†ตํ•ด ๊ฐ•ํ™”ํ•™์Šต์˜ ์ผ๋ฐ˜ํ™” ์‹ค์ฆ์  ์‚ฌ๋ก€๋ฅผ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Executable Code Actions ๋…ผ๋ฌธ์€ LLM์ด ์ฝ”๋“œ ์‹คํ–‰์„ ๋‚ดํฌํ•œ ์ž‘์—…์—์„œ ์–ด๋–ป๊ฒŒ ๋” ๋‚˜์€ ๊ฒฐ๊ณผ๋ฅผ ์–ป๋Š”์ง€๋ฅผ ๋ถ„์„ํ•˜์—ฌ, AutoP2C์˜ ์‹คํ–‰ ๊ฐ€๋Šฅํ•œ ์ฝ”๋“œ ์ €์žฅ์†Œ ๊ตฌ์„ฑ ๋Šฅ๋ ฅ๊ณผ ์ง์ ‘์ ์œผ๋กœ ์—ฐ๊ฒฐ๋ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
์ฝ”๋“œ ๊ธฐ๋ฐ˜ LLM ์—์ด์ „ํŠธ๋ฅผ ํ†ตํ•œ ์‹คํ–‰์„ฑ๊ณผ ์‹ ๋ขฐ๋„ ํ‰๊ฐ€ ๋ฐฉ๋ฒ•์„ ๋‹ค๋ฃจ๋ฉฐ, MLIP ์‹ ๋ขฐ์„ฑ ํ‰๊ฐ€์™€ ์œ ์‚ฌํ•œ ์ž๋™ํ™” ๋ฐฉ์‹์„ ์ทจํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
ํ”„๋กœ๊ทธ๋ž˜๋จธ๋ธ” ์ฝ”๋“œ ์•ก์…˜ ์‹คํ–‰์œผ๋กœ ๊ฐ•ํ™”ํ•™์Šต์  ์ตœ์ ํ™”๋ฅผ ๋„์ž…ํ•œ ๋Œ€๊ทœ๋ชจ ๋ชจ๋ธ์˜ ํšจ์œจ์„ฑ ๋ฒค์น˜๋งˆํ‚น ๋…ผ๋ฌธ์ž…๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
์‹คํ–‰ ๊ฐ€๋Šฅํ•œ ์ฝ”๋“œ ๊ธฐ๋ฐ˜ ํ–‰์œ„์˜ ์‹œ๋ฒ” ์‚ฌ๋ก€๋ฅผ ํ†ตํ•ด, ML ์ž‘์—… ์†”๋ฃจ์…˜ ์ž๋™ ์ƒ์„ฑ์—์„œ LLM์˜ ๋„๊ตฌ ์‚ฌ์šฉ/ํ–‰๋™ ์—ฐ๊ณ„ ๋ฐฉ๋ฒ•์„ ์‹ค๋ฌด์— ์ ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
325๋ฒˆ ๋…ผ๋ฌธ์€ ์‹คํ–‰ ๊ฐ€๋Šฅํ•œ ์ฝ”๋“œ ์•ก์…˜ ์—ฐ๊ณ„๊ฐ€ LLM ์—์ด์ „ํŠธ์˜ ์„ฑ๋Šฅ์„ ๊ฐœ์„ ํ•˜๋Š” ์‹ค์ œ ์‚ฌ๋ก€๋ฅผ ๋ณด์—ฌ์ฃผ์–ด, 231์˜ ๋ฉ€ํ‹ฐํ„ด ํ•ฉ์„ฑ ํŒจ๋Ÿฌ๋‹ค์ž„ ํšจ๊ณผ๋ฅผ ์‘์šฉ ๊ด€์ ์—์„œ ํ™•์žฅ์‹œ์ผœ์ค๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
594 ๋…ผ๋ฌธ์€ 325์˜ ์ฝ”๋“œ ์‹คํ–‰ ์—์ด์ „ํŠธ ์•ก์…˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ํ™”ํ•™ ๊ตฌ์กฐ ์„ค๊ณ„ ์‹ค๋ฌธ์ œ์— ์ ์šฉํ•˜๋Š” ์—ฐ๊ตฌ ์‚ฌ๋ก€์ž…๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
StableToolBench๋Š” ToolBench์˜ ์‹คํ–‰ยทํ‰๊ฐ€ ๋ถˆ์•ˆ์ •์„ฑ ๊ฐœ์„  ์ ‘๊ทผ์ด CodeAct ๋ฐฉ์‹์˜ ์—์ด์ „ํŠธ ํ‰๊ฐ€์™€ ์‹ค์ œ ๊ฒ€์ฆ ํ™˜๊ฒฝ์—์„œ ์–ด๋–ป๊ฒŒ ์—ฐ๊ณ„๋  ์ˆ˜ ์žˆ๋Š”์ง€ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •