LLM Agents Making Agent Tools

์ €์ž: G. Wรถlflein, Dyke Ferber, D. Truhn, Ognjen Arandjelovi'c, J. Kather | ๋‚ ์งœ: 2025 | DOI: 10.48550/arXiv.2502.11705 📄 PDF


Essence

TOOLMAKER๋Š” ๊ณผํ•™ ๋…ผ๋ฌธ์˜ ๊ณต๊ฐœ ์ฝ”๋“œ ์ €์žฅ์†Œ๋กœ๋ถ€ํ„ฐ LLM ํ˜ธํ™˜ ๋„๊ตฌ๋ฅผ ์ž๋™์œผ๋กœ ์ƒ์„ฑํ•˜๋Š” ์—์ด์ „ํŠธ ํ”„๋ ˆ์ž„์›Œํฌ๋กœ, ๊ธฐ์กด์— ์‚ฌ๋žŒ์ด ์ˆ˜๋™์œผ๋กœ ๊ตฌํ˜„ํ•ด์•ผ ํ–ˆ๋˜ ๋ณต์žกํ•œ ๊ณผํ•™ ๋„๊ตฌ๋“ค์„ ์ž๋™ํ™”ํ•œ๋‹ค.

Motivation

Achievement

Figure 2

TOOLMAKER์˜ ์ž…๋ ฅ(์ž‘์—… ์„ค๋ช…, ๋…ผ๋ฌธ, GitHub URL, ์‚ฌ์šฉ ์˜ˆ์‹œ)๊ณผ ์ถœ๋ ฅ(Docker ์ปจํ…Œ์ด๋„ˆ, Python ํ•จ์ˆ˜)

  1. ๋ฒค์น˜๋งˆํฌ ๊ตฌ์ถ•:
    • TM-BENCH: ์˜๋ฃŒ(๋ณ‘๋ฆฌํ•™, ๋ฐฉ์‚ฌ์„ ํ•™, ์˜ค๋ฏน์Šค) ๋ฐ ๋น„์˜๋ฃŒ(LLM, 3D ๋น„์ „) ๋ถ„์•ผ์˜ 15๊ฐœ ๋ณต์žกํ•œ ๊ณ„์‚ฐ ์ž‘์—…๊ณผ 100๊ฐœ ์ด์ƒ์˜ ๋‹จ์œ„ ํ…Œ์ŠคํŠธ๋กœ ๊ตฌ์„ฑ
    • ๊ธฐ์กด ๋ฒค์น˜๋งˆํฌ์™€ ๋‹ฌ๋ฆฌ ์˜์กด์„ฑ ์‚ฌ์ „ ์„ค์น˜ ๊ฐ€์ • ์—†์ด ์™„์ „ ๊ฐœ๋ฐฉํ˜• ํ™˜๊ฒฝ์—์„œ ํ‰๊ฐ€
  2. ์šฐ์ˆ˜ํ•œ ์„ฑ๊ณผ:
    • 80% ์ž‘์—… ์„ฑ๊ณต๋ฅ ๋กœ ํ˜„์กด ์ตœ๊ณ  ์ˆ˜์ค€์˜ ์†Œํ”„ํŠธ์›จ์–ด ๊ณตํ•™ ์—์ด์ „ํŠธ(OpenHands ๋“ฑ)๋ฅผ ํฌ๊ฒŒ ์ƒํšŒ
    • ์ข…๋‹จ๊ฐ„(end-to-end) ์›Œํฌํ”Œ๋กœ์šฐ ์ง€์›: ๋ฆฌ์†Œ์Šค ๋‹ค์šด๋กœ๋“œ, ์˜์กด์„ฑ ๊ด€๋ฆฌ, ๋Œ€๊ทœ๋ชจ ์ฝ”๋“œ๋ฒ ์ด์Šค ํƒ์ƒ‰, ์ฝ”๋“œ ๊ตฌํ˜„/ํ…Œ์ŠคํŠธ/๋””๋ฒ„๊น…

How

Figure 3

TOOLMAKER ์›Œํฌํ”Œ๋กœ์šฐ: ํ™˜๊ฒฝ ์„ค์ • โ†’ ๋„๊ตฌ ๊ตฌํ˜„ ๋‹จ๊ณ„์˜ 2๋‹จ๊ณ„ ํ”„๋กœ์„ธ์Šค

ํ•ต์‹ฌ ์„ค๊ณ„ ์š”์†Œ

1) ์›Œํฌํ”Œ๋กœ์šฐ ์ƒํƒœ ํ‘œํ˜„

2) ์›Œํฌํ”Œ๋กœ์šฐ ์ปดํฌ๋„ŒํŠธ

3) 2๋‹จ๊ณ„ ์›Œํฌํ”Œ๋กœ์šฐ

Stage 1: ํ™˜๊ฒฝ ์„ค์ • (Environment Setup)

Stage 2: ๋„๊ตฌ ๊ตฌํ˜„ (Tool Implementation)

4) ์ž๊ธฐ ์ˆ˜์ • ๋ฉ”์ปค๋‹ˆ์ฆ˜

5) ์ตœ์†Œํ•œ์˜ ๋„๊ตฌ ์ •์˜

Originality

Limitation & Further Study

Evaluation

์ดํ‰: TOOLMAKER๋Š” ๊ณต๊ฐœ ๊ณผํ•™ ์ฝ”๋“œ ์žฌํ™œ์šฉ์ด๋ผ๋Š” ํ˜„์‹ค์ ์ธ ๋ฌธ์ œ๋ฅผ ํƒ€๊นƒํ•˜์—ฌ LLM ์—์ด์ „ํŠธ์˜ ์‹ค์šฉ์„ฑ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œํ‚จ ๋…ผ๋ฌธ์œผ๋กœ, ํŠนํžˆ ์˜๋ฃŒ/๊ณผํ•™ ๋ถ„์•ผ์—์„œ์˜ ๋„๊ตฌ ์ ‘๊ทผ์„ฑ ๋ฏผ์ฃผํ™”๋ผ๋Š” ์ค‘์š”ํ•œ ์‚ฌํšŒ์  ์ž„ํŒฉํŠธ๋ฅผ ์ œ์‹œํ•œ๋‹ค. ๋‹ค๋งŒ ์ด๋ก ์  ๊ธฐ์—ฌ๋Š” ์ œํ•œ์ ์ด๋ฉฐ, ๋ฒค์น˜๋งˆํฌ ๊ทœ๋ชจ ํ™•๋Œ€์™€ ์‹ค์ œ ๋ฐฐํฌ ํ™˜๊ฒฝ์—์„œ์˜ ์‹ ๋ขฐ์„ฑ ๊ฒ€์ฆ์ด ํ–ฅํ›„ ๊ณผ์ œ์ด๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๋ฒ”์šฉ ์†Œํ”„ํŠธ์›จ์–ด ๊ฐœ๋ฐœ ์›Œํฌํ”Œ๋กœ์šฐ์™€ ์—์ด์ „ํŠธ ์‹œ์Šคํ…œ์„ ๊ตฌ์„ฑํ•˜๋Š” ๊ตฌ์กฐ์  ์š”์†Œ๋“ค์„ ์ž๋™ํ™” ๋„๊ตฌ ์ƒ์„ฑ์— ์ „์ดํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
LLM ์—์ด์ „ํŠธ์˜ ๋„๊ตฌ ํ™œ์šฉ ๋ฐ ์•ก์…˜ ์„ค๊ณ„์— ๊ด€ํ•œ ์ด๋ก ์  ๋ฐ”ํƒ•์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
LLM ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ ์‹œ์Šคํ…œ์„ ์ด์šฉํ•œ ๊ณผํ•™์  ์žฌํ˜„์„ฑ ํ‰๊ฐ€์˜ ์ด๋ก ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋…ผ๋ฌธ์—์„œ ์ถœ๋ฐœํ•œ ์ฝ”๋“œ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•œ ์ž๋™ํ™” ๋„๊ตฌ ๊ฐœ๋ฐœ๊ณผ ํฌ์Šคํ„ฐ ์ž๋™ ์ƒ์„ฑ ๋“ฑ ์—ฐ๊ตฌ ์ƒ์‚ฐ์„ฑ ์ž๋™ํ™” ๋ฐฉ๋ฒ•๋ก  ๋น„๊ต๊ฐ€ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋…ผ๋ฌธ์œผ๋กœ๋ถ€ํ„ฐ AI ์‹คํ—˜ ์žฌํ˜„ ์ž๋™ํ™”๋ฅผ ์ง€ํ–ฅํ•˜๋Š” Autoreproduce๊ฐ€ ์ฝ”๋“œ ๊ตฌํ˜„ ์ž๋™ํ™”์™€ ๋ฌธ์ œ์‹์ด ์œ ์‚ฌํ•จ.
๋‹ค๋ฅธ ์ ‘๊ทผ
ํ•™์ˆ  ๋…ผ๋ฌธ์˜ ์ž๋™ ๊ตฌํ˜„ ๋ฐ ์ฝ”๋“œ ์ €์žฅ์†Œ ์ƒ์„ฑ์˜ ๊ด€๋ จ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
AI ์ƒ์„ฑ ๋ถ„์„ ๋ณด๊ณ ์„œ์˜ ์‚ฌ์‹ค์„ฑ ๊ฒ€์ฆ ๋ฐฉ๋ฒ•์„ ๋‹ค๋ฃจ๋Š” ์œ ์‚ฌํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
672(ResearchGym)๋Š” LLM ๊ธฐ๋ฐ˜ ๊ณผํ•™ ์‹คํ—˜ ์—์ด์ „ํŠธ์˜ ์‹ค์ œ์  ๋ฒค์น˜๋งˆํฌ ํ™˜๊ฒฝ์„ ์ œ์‹œํ•˜์—ฌ, 496์˜ ์ž๋™๋„๊ตฌ ์ƒ์„ฑ๊ณผ์ •์˜ ์„ฑ๋Šฅํ‰๊ฐ€ ๊ด€์ ์—์„œ ๋น„๊ต๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
LLM Agents Making Agent Tools ๋…ผ๋ฌธ์€ LLM์˜ ๋„๊ตฌ ์กฐํ•ฉ ๋ฐ ์ž๋™ํ™” ๊ธฐ๋ฒ•์„ ์ถ”๊ฐ€ ํ™•์žฅํ•˜์—ฌ, HuggingGPT ์‹ค์šฉํ™” ์ดํ›„์˜ ์—ฐ๊ตฌ๋ฅผ ์‚ดํŽด๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
์ฝ”๋“œ ์‹คํ–‰ ๊ธฐ๋ฐ˜ LLM agent ํ‰๊ฐ€๋ฅผ ํ†ตํ•ด ๊ณผํ•™๋„๊ตฌ ์ƒ์„ฑ ์—์ด์ „ํŠธ์˜ ์‹ค์งˆ์  ์„ฑ๋Šฅ ๋ถ„์„์„ ๋”ํ•จ.
ํ›„์† ์—ฐ๊ตฌ
๊ณต๊ฐœ๋œ ๋…ผ๋ฌธ ์ฝ”๋“œ ์ €์žฅ์†Œ๋กœ๋ถ€ํ„ฐ LLM ๋„๊ตฌ๋ฅผ ์ž๋™ ์ƒ์„ฑํ•˜๋Š” ์—์ด์ „ํŠธ ํ”„๋ ˆ์ž„์›Œํฌ๋กœ, HYPERAGENT์˜ ์ž๋™ํ™”๋œ ์ฝ”๋”ฉ workflow ์ง„ํ™”์— ์ ํ•ฉํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
LLM ๊ธฐ๋ฐ˜ ๋„๊ตฌ ์„ค๊ณ„ ์ž๋™ํ™” ํ”„๋ ˆ์ž„์›Œํฌ๊ฐ€ ์‹ค์ œ ๊ณผํ•™ ์†”๋ฃจ์…˜ ๋นŒ๋“œ์— ํ™œ์šฉ๋˜๋Š” ์‚ฌ๋ก€๋ฅผ ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •