Agent Laboratory: Using LLM Agents as Research Assistants

์ €์ž: Samuel Schmidgall, Yusheng Su, Ze Wang, Ximeng Sun, Jialian Wu, Xiaodong Yu, Jiang Liu, Michael Moor, Zicheng Liu, Emad Barsoum | ๋‚ ์งœ: 2025-06-17 | DOI: 10.48550/arXiv.2501.04227 📄 PDF


Essence

Figure 1

Agent Laboratory๋Š” ์ธ๊ฐ„์˜ ์—ฐ๊ตฌ ์•„์ด๋””์–ด๋ฅผ ์ž…๋ ฅ๋ฐ›์•„ ํŠนํ™”๋œ LLM ์—์ด์ „ํŠธ ํŒŒ์ดํ”„๋ผ์ธ์„ ํ†ตํ•ด ์—ฐ๊ตฌ ๋ณด๊ณ ์„œ์™€ ์ฝ”๋“œ ์ €์žฅ์†Œ๋ฅผ ์ƒ์„ฑํ•œ๋‹ค.

Agent Laboratory๋Š” ์ธ๊ฐ„์˜ ์—ฐ๊ตฌ ์•„์ด๋””์–ด ์‹คํ–‰์„ ์ง€์›ํ•˜๋Š” ์ž์œจ์  LLM ๊ธฐ๋ฐ˜ ํ”„๋ ˆ์ž„์›Œํฌ๋กœ, ๋ฌธํ—Œ ๊ฒ€ํ† , ์‹คํ—˜ ์ˆ˜ํ–‰, ๋ณด๊ณ ์„œ ์ž‘์„ฑ์˜ ์„ธ ๋‹จ๊ณ„๋ฅผ ๊ฑฐ์ณ ์™„์ „ํ•œ ์—ฐ๊ตฌ ์„ฑ๊ณผ๋ฌผ์„ ์ƒ์„ฑํ•œ๋‹ค. ๊ธฐ์กด ์ž๋™ํ™” ์—ฐ๊ตฌ ๋ฐฉ๋ฒ• ๋Œ€๋น„ 84% ๋น„์šฉ ๊ฐ์ถ•์„ ๋‹ฌ์„ฑํ•˜๋ฉด์„œ๋„ ๋†’์€ ํ’ˆ์งˆ์˜ ๊ธฐ๊ณ„ํ•™์Šต ์—ฐ๊ตฌ๋ฅผ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ค€๋‹ค.

Motivation

Achievement

Figure 2

Agent Laboratory์˜ ์„ธ ๊ฐ€์ง€ ํ•ต์‹ฌ ๋‹จ๊ณ„: ๋ฌธํ—Œ ๊ฒ€ํ† (Literature Review), ์‹คํ—˜ ์ˆ˜ํ–‰(Experimentation), ๋ณด๊ณ ์„œ ์ž‘์„ฑ(Report Writing) ๋ฐ ๊ฐ ๋‹จ๊ณ„์˜ ์—ญํ• ๊ณผ ๋„๊ตฌ.

  1. ๋ชจ๋ธ ์„ฑ๋Šฅ ๋น„๊ต: o1-preview ๊ธฐ๋ฐ˜ Agent Laboratory๊ฐ€ ๊ฐ€์žฅ ์šฐ์ˆ˜ํ•œ ์—ฐ๊ตฌ ์„ฑ๊ณผ๋ฌผ ์ƒ์„ฑ. o1-mini๋Š” ์‹คํ—˜ ํ’ˆ์งˆ ์ ์ˆ˜์—์„œ ์ตœ๊ณ  ๋‹ฌ์„ฑ. gpt-4o๋Š” ๋ชจ๋“  ์ง€ํ‘œ์—์„œ ๋’ค์ฒ˜์ง.
  2. ์ž๋™ํ™”๋œ ์‹คํ—˜ ์ˆ˜ํ–‰: mle-solver๋ฅผ ํ†ตํ•ด MLE-Bench ๊ณผ์ œ์˜ ๋ถ€๋ถ„์ง‘ํ•ฉ์—์„œ ์ตœ์ฒจ๋‹จ(SOTA) ์„ฑ๋Šฅ ๋‹ฌ์„ฑ. MLAB, OpenHands, AIDE ๋Œ€๋น„ ๋” ๋งŽ์€ ๊ธˆ๋ฉ”๋‹ฌยท์€๋ฉ”๋‹ฌ ํš๋“. ์ƒ์„ฑ๋œ ๋จธ์‹ ๋Ÿฌ๋‹ ์ฝ”๋“œ๊ฐ€ ๊ธฐ์กด ๋ฐฉ๋ฒ• ๋Œ€๋น„ ๊ฒฝ์Ÿ๋ ฅ ์žˆ๋Š” ์„ฑ๋Šฅ ๋ฐœํœ˜.
  3. ์ธ๊ฐ„-AI ํ˜‘๋ ฅ ํšจ๊ณผ: Co-pilot ๋ชจ๋“œ(์‚ฌ์šฉ์ž ํ”ผ๋“œ๋ฐฑ ํฌํ•จ)์—์„œ ์ž์œจ ๋ชจ๋“œ๋ณด๋‹ค ๋†’์€ ์ ์ˆ˜ ๋‹ฌ์„ฑ. ์‚ฌ์šฉ์ž ๋งŒ์กฑ๋„ ๋†’์Œ(๊ณ„์† ์‚ฌ์šฉ ์˜ํ–ฅ ํ‘œ์‹œ).
  4. ๊ฒฝ์ œ์„ฑ: ๋‹จ $2.33 USD (gpt-4o ๋ฐฑ์—”๋“œ)๋กœ 1ํŽธ์˜ ๋…ผ๋ฌธ ์ƒ์„ฑ. ๊ธฐ์กด ์ž๋™ ์—ฐ๊ตฌ ๋ฐฉ๋ฒ• ๋Œ€๋น„ 84% ๋น„์šฉ ์ ˆ๊ฐ.
  5. ํ‰๊ฐ€ ๋ถˆ์ผ์น˜ ๋ฐœ๊ฒฌ: ์ž๋™ํ™”๋œ ํ‰๊ฐ€ vs. ์ธ๊ฐ„ ํ‰๊ฐ€์˜ ๊ฒฉ์ฐจ ๋ฐœ์ƒ(6.1/10 vs. 3.8/10). ์ž๋™ํ™” ํ‰๊ฐ€๊ฐ€ ํ’ˆ์งˆ์„ ๊ณผ๋Œ€ํ‰๊ฐ€ํ•˜๋Š” ๊ฒฝํ–ฅ.

How

Figure 3

mle-solver์˜ ๋ฐ˜๋ณต์  ์›Œํฌํ”Œ๋กœ์šฐ: ์‹คํ—˜ ์ฝ”๋“œ ์ƒ์„ฑ, ์‹คํ–‰, ์˜ค๋ฅ˜ ์ฒ˜๋ฆฌ, ๊ฒฐ๊ณผ ํ•ด์„์˜ ์ˆœํ™˜ ๊ณผ์ •.

Originality

Limitation & Further Study

Evaluation

์ดํ‰: Agent Laboratory๋Š” ์ธ๊ฐ„์˜ ์ฐฝ์˜์„ฑ์„ ์กด์ค‘ํ•˜๋ฉด์„œ LLM ์—์ด์ „ํŠธ์˜ ์ž๋™ํ™” ๋Šฅ๋ ฅ์„ ํ™œ์šฉํ•˜๋Š” ์‹ค์šฉ์ ์ด๊ณ  ๊ฒฝ์ œ์ ์ธ ์—ฐ๊ตฌ ์ง€์› ์‹œ์Šคํ…œ์„ ์ œ์‹œํ•œ๋‹ค. ํŠนํžˆ co-pilot ๋ชจ๋“œ์™€ ๋น„์šฉ ํšจ์œจ์„ฑ์€ ์‹ค์งˆ์  ๊ธฐ์—ฌ๋„๊ฐ€ ๋†’์œผ๋‚˜, ์ƒ์„ฑ๋œ ์—ฐ๊ตฌ์˜ ๊ณผํ•™์  ์˜ํ–ฅ๋ ฅ, ํ‰๊ฐ€ ๋ฐฉ๋ฒ•๋ก ์˜ ์‹ ๋ขฐ์„ฑ, ๋‹ค์–‘ํ•œ ๊ณผํ•™ ๋ถ„์•ผ๋กœ์˜ ์ผ๋ฐ˜ํ™” ๊ฐ€๋Šฅ์„ฑ ์ธก๋ฉด์—์„œ ์ถ”๊ฐ€ ๊ฒ€์ฆ๊ณผ ๊ฐœ์„ ์ด ์š”๊ตฌ๋œ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Agent Laboratory(059)๋Š” ์—์ด์ „ํŠธ ๊ธฐ๋ฐ˜ ๊ณผํ•™์  ์—ฐ๊ตฌ ์ž๋™ํ™”์™€ ํ˜‘์—… ํ™˜๊ฒฝ ์„ค๊ณ„ ์›๋ก ์„ ์ œ์‹œํ•˜์—ฌ, WebAgent-R1(871)์ด ์‹ค์ œ๋กœ ๊ตฌํ˜„ํ•˜๋Š” ์—ฐ๊ตฌ ํ™˜๊ฒฝ์— ์ด๋ก ์  ๋ฐฐ๊ฒฝ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ ๊ธฐ๋ฐ˜ ๊ณผํ•™ ์ž๋™ํ™”์˜ ์ด๋ก ์  ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ํญ๋„“๊ฒŒ ๋‹ค๋ฃจ์–ด Agent Laboratory์˜ ๋ฐฉ๋ฒ•๋ก ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
์—ฐ๊ตฌ ๋ณด์กฐ์šฉ LLM ์—์ด์ „ํŠธ ํ™œ์šฉ์— ๋Œ€ํ•œ ๊ทผ๋ณธ์ ์ธ ๋ฐฉ๋ฒ•๋ก ๊ณผ, ์‹คํ—˜ ์ž๋™ํ™”์˜ ๊ธฐ์ดˆ ํ‹€์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Agent Laboratory ๋…ผ๋ฌธ์€ LLM ์—์ด์ „ํŠธ์˜ ์—ฐ๊ตฌ ๋ณด์กฐ ํ™œ์šฉ ๊ฐ€๋Šฅ์„ฑ์„ ์‹ค์ œ ํ”„๋ ˆ์ž„์›Œํฌ๋กœ ๊ตฌํ˜„ํ•˜์—ฌ, AutoGen์˜ general-purpose multi-agent ํ˜‘์—… ํ”Œ๋žซํผ๊ณผ ๋Œ€์•ˆ์  ํ•ด๊ฒฐ์ฑ…์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Agent Laboratory ๋…ผ๋ฌธ์€ ๋‹ค์ค‘ ์—์ด์ „ํŠธ ์‹œ์Šคํ…œ์˜ ํ˜‘๋ ฅ/์‹คํ—˜ ์ž๋™ํ™” ์ธก๋ฉด์„ ์‹ค์ œ์  ์—ฐ๊ตฌ ํ™œ๋™์— ์ ์šฉํ•œ ์‚ฌ๋ก€๋กœ ์ƒˆ๋กœ์šด ์‹œ๊ฐ์„ ์ œ๊ณตํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM์„ ์ด์šฉํ•œ ์‹คํ—˜ ์ˆ˜ํ–‰ ๋ฐ ๋ณด๊ณ ์„œ ์ž๋™ ์ƒ์„ฑ์„ ๋‹ค๋ฅธ ๋ฐฉ์‹์œผ๋กœ ๊ตฌํ˜„ํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
817์€ ์ž์œจ์  AI ๊ณผํ•™์ž ํŒ€์„ ํ†ตํ•œ ๊ณผํ•™์  ๋ฐœ๊ฒฌ์„ ๋‹ค๋ฃจ๋ฉฐ, 059์˜ Agent Laboratory์™€ ์œ ์‚ฌํ•˜๊ฒŒ ์‹คํ—˜-๋ณด๊ณ ์„œ ์ž๋™ํ™”์— ์ค‘์ ์„ ๋‘”๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
AI ์—์ด์ „ํŠธ๋ฅผ ํ™œ์šฉํ•œ ์—ฐ๊ตฌ ์ž๋™ํ™”๋ฅผ ๋‹ค๋ฅธ ์•„ํ‚คํ…์ฒ˜๋‚˜ ์ ‘๊ทผ๋ฒ•์œผ๋กœ ๊ตฌํ˜„ํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
AI ๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ ์ง€์› ์‹œ์Šคํ…œ์„ ๋‹ค๋ฅธ ๋ฐฉ๋ฒ•๋ก ์œผ๋กœ ์ ‘๊ทผํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
059๋Š” ๋จธ์‹ ๋Ÿฌ๋‹ ์—ฐ๊ตฌ ์ž๋™ํ™”๋ฅผ ๋ชฉํ‘œ๋กœ ํ•œ ์—์ด์ „ํŠธ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ๋ณด์—ฌ์ฃผ๋ฉฐ, 1094์˜ ์ž„์ƒ ์—ฐ๊ตฌ ์ž๋™ํ™” ๋ฐฉํ–ฅ์„ฑ๊ณผ ๋‹ค๋ฅธ ๋„๋ฉ”์ธ ์ ์šฉ๋ก€๋ฅผ ์ œ์‹œํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
LLM ๊ธฐ๋ฐ˜ ๋‹ค์ค‘์—์ด์ „ํŠธ ํ™œ์šฉ์„ ํ†ตํ•œ ์ž๋™ ์—ฐ๊ตฌ Life Cycle ํ”„๋ ˆ์ž„์›Œํฌ์˜ ์‹ค์ œ ๊ตฌํ˜„ ์˜ˆ์‹œ๋ฅผ ๋ณด์—ฌ์ค€๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
840์€ LLM ๊ธฐ๋ฐ˜ ๊ณผํ•™ ํ˜์‹  ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ํฌ๊ด„์ ์œผ๋กœ ์„œ๋ฒ ์ดํ•ด, 059์˜ ๊ฐœ๋ณ„ ์‹œ์Šคํ…œ์„ ์ƒ์œ„ ๊ฐœ๋…์—์„œ ์žฌ์ •์˜ํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
828์€ AI์—ฐ๊ตฌ์˜ ์—”๋“œ ํˆฌ ์—”๋“œ ์ž๋™ํ™” ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•˜์—ฌ 059์˜ ๊ตฌํ˜„์‚ฌ๋ก€์— ํ•œ์ธต ๋ฒ”์šฉ์  ์‹œ์‚ฌ์ ์„ ๋”ํ•œ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
AI ๊ธฐ๋ฐ˜ ์ž๋™ ๊ฒ€์‚ฌ ๋ฐ ๋ฐ˜์ฆ์„ ํ†ตํ•œ ๊ณผํ•™ ์‹คํ—˜ ์ž๋™ํ™” ์‚ฌ๋ก€๋กœ Agent Laboratory ์‘์šฉ์˜ ์‹ค์ œ ์˜ˆ๋ฅผ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
๊ณผํ•™์  ๋ฐฉ์ •์‹ ์ž๋™ ๋ฐœ๊ฒฌ์„ ์œ„ํ•œ LLM ๊ธฐ๋ฐ˜ ํŒŒ์ดํ”„๋ผ์ธ์ด Agent Laboratory์˜ ์—ฐ๊ตฌ ์ˆ˜ํ–‰, ๊ฒ€ํ†  ๊ธฐ๋Šฅ๊ณผ ํ˜„์‹ค ์ ์šฉ์—์„œ ๋งŒ๋‚  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •