Essence
TOOLMAKER๋ ๊ณผํ ๋
ผ๋ฌธ์ ๊ณต๊ฐ ์ฝ๋ ์ ์ฅ์๋ก๋ถํฐ LLM ํธํ ๋๊ตฌ๋ฅผ ์๋์ผ๋ก ์์ฑํ๋ ์์ด์ ํธ ํ๋ ์์ํฌ๋ก, ๊ธฐ์กด์ ์ฌ๋์ด ์๋์ผ๋ก ๊ตฌํํด์ผ ํ๋ ๋ณต์กํ ๊ณผํ ๋๊ตฌ๋ค์ ์๋ํํ๋ค.
How
TOOLMAKER ์ํฌํ๋ก์ฐ: ํ๊ฒฝ ์ค์ โ ๋๊ตฌ ๊ตฌํ ๋จ๊ณ์ 2๋จ๊ณ ํ๋ก์ธ์ค
ํต์ฌ ์ค๊ณ ์์
1) ์ํฌํ๋ก์ฐ ์ํ ํํ
- ์ํ s = โจh, eโฉ๋ก ์ ์ (h: ๋ํ ์ด๋ ฅ, e: ํ๊ฒฝ ์ํ)
- ๋ชจ๋ ์ปดํฌ๋ํธ๋ S โ S ร R ํจ์๋ก ๋ชจ๋ธ๋ง (์ํ ๋ณํ + ๋ฐํ๊ฐ)
2) ์ํฌํ๋ก์ฐ ์ปดํฌ๋ํธ
- LLM ํธ์ถ: ๋ํ ์ด๋ ฅ๋ง ์
๋ฐ์ดํธ (ํ๊ฒฝ ๋ฏธ๋ณ๊ฒฝ)
- OpenAI gpt-4o-2024-08-06 ๋ชจ๋ธ ์ฌ์ฉ
- ํ๊ฒฝ ์ํธ์์ฉ: Docker ์ปจํ
์ด๋์์ bash ๋ช
๋ น ์คํ, ํ์ผ ์ฝ/์ฐ๊ธฐ, ์คํ ๊ฒฐ๊ณผ ๊ด์ฐฐ
- ์์กด์ฑ ์ค์น, ๋ชจ๋ธ ๋ค์ด๋ก๋, ํ๊ฒฝ ๋ณ์ ์ค์ ๋ฑ OS ์กฐ์ ๊ฐ๋ฅ
- ์์ด์ ํธ: ๋ ์์ ์กฐํฉ์ผ๋ก ์๋ ๊ฒฐ์ ๋ฐ ์คํ
3) 2๋จ๊ณ ์ํฌํ๋ก์ฐ
Stage 1: ํ๊ฒฝ ์ค์ (Environment Setup)
- GitHub ์ ์ฅ์ ํด๋ก , requirements ํ์ผ ๋ถ์
- ์์กด์ฑ ์ค์น ์๋ ๋ฐ ์ถฉ๋ ํด๊ฒฐ
- ์ฒดํฌํฌ์ธํธ๋ Docker ์ด๋ฏธ์ง๋ก ์ฌํ ๊ฐ๋ฅํ ์ค๋
์ท ์์ฑ
Stage 2: ๋๊ตฌ ๊ตฌํ (Tool Implementation)
- ์ฝ๋๋ฒ ์ด์ค ํ์ ๋ฐ ๊ด๋ จ ํจ์/ํด๋์ค ์๋ณ
- ์์
์ค๋ช
๊ณผ ์
์ถ๋ ฅ ์ธ์ ๊ธฐ๋ฐ์ผ๋ก Python ํจ์ ์์ฑ
- ๋จ์ ํ
์คํธ ์คํ ๋ฐ ์ค๋ฅ ์์ ์ ์ํ ํ์ ๋ฃจํ ์๊ธฐ ์์ (self-correction)
4) ์๊ธฐ ์์ ๋ฉ์ปค๋์ฆ
- ํ
์คํธ ์คํจ ์ ์๋ฌ ๋ฉ์์ง ๋ถ์
- LLM์ด ์ฝ๋ ์์ ๋ฐฉ์ ์ฌ์์ฑ
- ์ต๋ ๋ฐ๋ณต ํ์๊น์ง ์ฌ์๋
5) ์ต์ํ์ ๋๊ตฌ ์ ์
- ์์
์ค๋ช
(ํ
์คํธ)
- GitHub URL
- ํ์ ์
๋ ฅ ์ธ์ ๋ชฉ๋ก + ์์๊ฐ
Evaluation
์ดํ: TOOLMAKER๋ ๊ณต๊ฐ ๊ณผํ ์ฝ๋ ์ฌํ์ฉ์ด๋ผ๋ ํ์ค์ ์ธ ๋ฌธ์ ๋ฅผ ํ๊นํ์ฌ LLM ์์ด์ ํธ์ ์ค์ฉ์ฑ์ ํฌ๊ฒ ํฅ์์ํจ ๋
ผ๋ฌธ์ผ๋ก, ํนํ ์๋ฃ/๊ณผํ ๋ถ์ผ์์์ ๋๊ตฌ ์ ๊ทผ์ฑ ๋ฏผ์ฃผํ๋ผ๋ ์ค์ํ ์ฌํ์ ์ํฉํธ๋ฅผ ์ ์ํ๋ค. ๋ค๋ง ์ด๋ก ์ ๊ธฐ์ฌ๋ ์ ํ์ ์ด๋ฉฐ, ๋ฒค์น๋งํฌ ๊ท๋ชจ ํ๋์ ์ค์ ๋ฐฐํฌ ํ๊ฒฝ์์์ ์ ๋ขฐ์ฑ ๊ฒ์ฆ์ด ํฅํ ๊ณผ์ ์ด๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
๋ฒ์ฉ ์ํํธ์จ์ด ๊ฐ๋ฐ ์ํฌํ๋ก์ฐ์ ์์ด์ ํธ ์์คํ
์ ๊ตฌ์ฑํ๋ ๊ตฌ์กฐ์ ์์๋ค์ ์๋ํ ๋๊ตฌ ์์ฑ์ ์ ์ดํ ์ ์์ต๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
LLM ์์ด์ ํธ์ ๋๊ตฌ ํ์ฉ ๋ฐ ์ก์
์ค๊ณ์ ๊ดํ ์ด๋ก ์ ๋ฐํ์ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
LLM ๊ธฐ๋ฐ ์์ด์ ํธ ์์คํ
์ ์ด์ฉํ ๊ณผํ์ ์ฌํ์ฑ ํ๊ฐ์ ์ด๋ก ์ ๊ธฐ๋ฐ์ ์ ๊ณตํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋
ผ๋ฌธ์์ ์ถ๋ฐํ ์ฝ๋๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ ์๋ํ ๋๊ตฌ ๊ฐ๋ฐ๊ณผ ํฌ์คํฐ ์๋ ์์ฑ ๋ฑ ์ฐ๊ตฌ ์์ฐ์ฑ ์๋ํ ๋ฐฉ๋ฒ๋ก ๋น๊ต๊ฐ ๊ฐ๋ฅํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋
ผ๋ฌธ์ผ๋ก๋ถํฐ AI ์คํ ์ฌํ ์๋ํ๋ฅผ ์งํฅํ๋ Autoreproduce๊ฐ ์ฝ๋ ๊ตฌํ ์๋ํ์ ๋ฌธ์ ์์ด ์ ์ฌํจ.
๋ค๋ฅธ ์ ๊ทผ
ํ์ ๋
ผ๋ฌธ์ ์๋ ๊ตฌํ ๋ฐ ์ฝ๋ ์ ์ฅ์ ์์ฑ์ ๊ด๋ จ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
AI ์์ฑ ๋ถ์ ๋ณด๊ณ ์์ ์ฌ์ค์ฑ ๊ฒ์ฆ ๋ฐฉ๋ฒ์ ๋ค๋ฃจ๋ ์ ์ฌํ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
672(ResearchGym)๋ LLM ๊ธฐ๋ฐ ๊ณผํ ์คํ ์์ด์ ํธ์ ์ค์ ์ ๋ฒค์น๋งํฌ ํ๊ฒฝ์ ์ ์ํ์ฌ, 496์ ์๋๋๊ตฌ ์์ฑ๊ณผ์ ์ ์ฑ๋ฅํ๊ฐ ๊ด์ ์์ ๋น๊ต๊ฐ ํ์ํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
LLM Agents Making Agent Tools ๋
ผ๋ฌธ์ LLM์ ๋๊ตฌ ์กฐํฉ ๋ฐ ์๋ํ ๊ธฐ๋ฒ์ ์ถ๊ฐ ํ์ฅํ์ฌ, HuggingGPT ์ค์ฉํ ์ดํ์ ์ฐ๊ตฌ๋ฅผ ์ดํด๋ณผ ์ ์์ต๋๋ค.
ํ์ ์ฐ๊ตฌ
์ฝ๋ ์คํ ๊ธฐ๋ฐ LLM agent ํ๊ฐ๋ฅผ ํตํด ๊ณผํ๋๊ตฌ ์์ฑ ์์ด์ ํธ์ ์ค์ง์ ์ฑ๋ฅ ๋ถ์์ ๋ํจ.
ํ์ ์ฐ๊ตฌ
๊ณต๊ฐ๋ ๋
ผ๋ฌธ ์ฝ๋ ์ ์ฅ์๋ก๋ถํฐ LLM ๋๊ตฌ๋ฅผ ์๋ ์์ฑํ๋ ์์ด์ ํธ ํ๋ ์์ํฌ๋ก, HYPERAGENT์ ์๋ํ๋ ์ฝ๋ฉ workflow ์งํ์ ์ ํฉํฉ๋๋ค.
์์ฉ ์ฌ๋ก
LLM ๊ธฐ๋ฐ ๋๊ตฌ ์ค๊ณ ์๋ํ ํ๋ ์์ํฌ๊ฐ ์ค์ ๊ณผํ ์๋ฃจ์
๋น๋์ ํ์ฉ๋๋ ์ฌ๋ก๋ฅผ ๋ณผ ์ ์์ต๋๋ค.