ResearchCodeAgent: An LLM Multi-Agent System for Automated Codification of Research Methodologies

์ €์ž: Shubham Gandhi, Dhruv Shah, Manasi Patwardhan, Lovekesh Vig, Gautam Shroff | ๋‚ ์งœ: 2025-04-28 | DOI: ๋ฏธ๊ณต๊ฐœ 📄 PDF


Essence

Figure 1

ResearchCodeAgent ์‹œ์Šคํ…œ ์•„ํ‚คํ…์ฒ˜: (a) ๊ณ„ํš(Planning), ์—ฐ๊ตฌ ๋กœ๊ทธ(Research Logs), ์›Œ์ปค(Workers), ํ™˜๊ฒฝ(Environment), (b) LLM ์บ์Šค์ผ€์ด๋“œ๋ฅผ ํฌํ•จํ•œ ๊ณ„ํš ๋ฉ”์ปค๋‹ˆ์ฆ˜, (c) ์ „๋ฌธ๊ฐ€ ํ˜ธ์ถœ ๋ฐ ์›Œ์ปค ๊ตฌ์กฐ

์—ฐ๊ตฌ ๋…ผ๋ฌธ์— ๊ธฐ์ˆ ๋œ ๋จธ์‹ ๋Ÿฌ๋‹ ๋ฐฉ๋ฒ•๋ก ์„ ์ž๋™์œผ๋กœ ์ฝ”๋“œ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ๋‹ค์ค‘ ์—์ด์ „ํŠธ LLM ์‹œ์Šคํ…œ์„ ์ œ์‹œํ•œ๋‹ค. ์ƒ์œ„ ๋ ˆ๋ฒจ์˜ ์ถ”์ƒ์ ์ธ ์—ฐ๊ตฌ ์„ค๋ช…๊ณผ ์‹ค์ œ ์‹คํ–‰ ๊ฐ€๋Šฅํ•œ ๊ตฌํ˜„ ๊ฐ„์˜ ๊ฒฉ์ฐจ๋ฅผ ํ•ด์†Œํ•˜์—ฌ ์—ฐ๊ตฌ์ž์˜ ๊ตฌํ˜„ ์‹œ๊ฐ„์„ ๋‹จ์ถ•ํ•œ๋‹ค.

Motivation

Achievement

  1. ํšจ๊ณผ์ ์ธ ์ฝ”๋“œ ์ƒ์„ฑ: ์ƒ์„ฑ๋œ ์ฝ”๋“œ์˜ 46.9%๊ฐ€ ๊ณ ํ’ˆ์งˆ์ด๋ฉฐ ์˜ค๋ฅ˜ ์—†์Œ(near-perfect). 18.75%๋Š” ๊ฒฝ๋ฏธํ•œ ์ˆ˜์ •๋งŒ ํ•„์š”, 34.38%๋Š” ์ƒ๋‹นํ•œ ๊ฐœ์„  ํ•„์š”
  2. ์‹ค์งˆ์  ์‹œ๊ฐ„ ์ ˆ๊ฐ: ์ˆ˜๋™ ๊ตฌํ˜„ ๋Œ€๋น„ ํ‰๊ท  57.86%์˜ ์ฝ”๋”ฉ ์‹œ๊ฐ„ ๋‹จ์ถ• ๋‹ฌ์„ฑ. ๋ณต์žกํ•œ ์ž‘์—…์ผ์ˆ˜๋ก ํšจ์œจ ์ด๋“์ด ๋” ํผ
  3. ์„ฑ๋Šฅ ๊ฐœ์„  ์‚ฌ๋ก€: ์ƒ์„ฑ๋œ ์ฝ”๋“œ์˜ 25%๊ฐ€ ๊ธฐ์ค€์„ (baseline) ๊ตฌํ˜„๋ณด๋‹ค ์„ฑ๋Šฅ ๊ฐœ์„  ๋ณด์ž„
  4. ์ผ๋ฐ˜ํ™” ๊ฐ€๋Šฅ์„ฑ: ๋ฐ์ดํ„ฐ ์ฆ๊ฐ•(data augmentation), ์ตœ์ ํ™”(optimization), ๋ฐ์ดํ„ฐ ๋ฐฐ์น˜(data batching)์˜ 3๊ฐœ ์„œ๋กœ ๋‹ค๋ฅธ ML ํŒŒ์ดํ”„๋ผ์ธ ์ž‘์—…์—์„œ ์œ ํšจ์„ฑ ์ž…์ฆ
  5. ๋ฐ˜๋ณต์  ๊ฐœ์„  ํšจ๊ณผ: ์—ฐ์†๋œ ์‹œ๋„๋ฅผ ํ†ตํ•ด 46.15%์˜ ์˜ค๋ฅ˜ ๊ฐ์†Œ์œจ ๊ด€์ฐฐ

How

ResearchCodeAgent์˜ ์ž‘๋™ ๋ฉ”์ปค๋‹ˆ์ฆ˜:

ํ™˜๊ฒฝ ๋ฐ ์ž…๋ ฅ

ํ–‰๋™ ๊ณต๊ฐ„(Action Space)

๊ณ„ํš ๋ฉ”์ปค๋‹ˆ์ฆ˜

์ฆ๋ถ„์  ๊ตฌํ˜„(Incremental Implementation)

Originality

Limitation & Further Study

ํ•œ๊ณ„

ํ›„์† ์—ฐ๊ตฌ

Evaluation

Novelty: 4/5 Technical Soundness: 3.5/5 Significance: 3.5/5 Clarity: 3/5 Overall: 3.5/5

์ดํ‰: ResearchCodeAgent๋Š” ๋จธ์‹ ๋Ÿฌ๋‹ ์—ฐ๊ตฌ์˜ ๊ตฌํ˜„ ์ž๋™ํ™”๋ผ๋Š” ์‹ค์šฉ์  ๋ฌธ์ œ์— ์ฒ˜์Œ ์ •๋ฉด์œผ๋กœ ๋„์ „ํ•œ ์ ๊ณผ 45%๋Œ€์˜ ์„ฑ๊ณต๋ฅ ์—์„œ ๊ฐ€๋Šฅ์„ฑ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ๋‹ค๋งŒ ํ‰๊ฐ€ ๋ฒ”์œ„์˜ ํ˜‘์†Œํ•จ, ํ†ต๊ณ„์  ๊ฒ€์ฆ ๋ถ€์žฌ, ๊ทธ๋ฆฌ๊ณ  ์—ฌ์ „ํžˆ ๋†’์€ ์ˆ˜์ • ํ•„์š”์œจ(34%)์€ ์‹ค์ œ ๋ฐฐํฌ ์ „ ๊ฐ•ํ™”๊ฐ€ ํ•„์š”ํ•จ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค. ์›Œํฌ์ˆ ๋…ผ๋ฌธ์œผ๋กœ์„œ์˜ ๊ฐ€์น˜๋Š” ์ถฉ๋ถ„ํ•˜์ง€๋งŒ, AI4Research ์ปค๋ฎค๋‹ˆํ‹ฐ์˜ ๊ตฌ์ฒด์  ํ”ผ๋“œ๋ฐฑ๊ณผ ์ถ”๊ฐ€ ์‹คํ—˜์„ ํ†ตํ•œ ์ •๊ตํ™”๊ฐ€ ๊ถŒ์žฅ๋ฉ๋‹ˆ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
499 ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜ ์™ธ๋ถ€ ๋„๊ตฌ ์—ฐ๋™ ๋ฐ ์›Œํฌํ”Œ๋กœ์šฐ ์ž๋™ํ™”๋ฅผ ์ฒด๊ณ„์ ์œผ๋กœ ์ •๋ฆฌํ•ด, 670์˜ ๋…ผ๋ฌธ-to-์ฝ”๋“œ ์ž๋™ ๋ณ€ํ™˜ ์‹œ์Šคํ…œ ์„ค๊ณ„์— ์ด๋ก ์  ๊ทผ๊ฐ„์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
368์˜ Gemini 1.5์™€ ๊ฐ™์€ ๋Œ€์šฉ๋Ÿ‰ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ LLM์€ 670์˜ ์ž๋™ ์ฝ”๋“œํ™” ์‹œ์Šคํ…œ์— ํ•„์š”ํ•œ ๋Œ€๊ทœ๋ชจ ๋งฅ๋ฝ ์ดํ•ด์™€ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ฒ˜๋ฆฌ๋ฅผ ๊ธฐ์ˆ ์ ์œผ๋กœ ๋’ท๋ฐ›์นจํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
712๋ฒˆ ๋…ผ๋ฌธ์€ ๋จธ์‹ ๋Ÿฌ๋‹ ๋ฐ ๊ณผํ•™์  ์ฝ”๋“œ ๊ตฌํ˜„ ์ž๋™ํ™”๋ฅผ ๋ฒค์น˜๋งˆํฌํ•˜๋ฉฐ, 670๋ฒˆ์˜ ์ž๋™ํ™”๋œ ๋…ผ๋ฌธโ†’์ฝ”๋“œ ๋ณ€ํ™˜ ํ”„๋ ˆ์ž„์›Œํฌ์˜ ์„ฑ๋Šฅํ‰๊ฐ€ ์ง€ํ‘œ ๋ฐ ๊ตฌ์กฐ์  ์„ค๊ณ„์— ์ฐธ์กฐ๊ฐ€ ๋œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
205๋ฒˆ ๋…ผ๋ฌธ์€ ์ปค๋ฎค๋‹ˆ์ผ€์ด์…˜ ๊ธฐ๋ฐ˜ ์†Œํ”„ํŠธ์›จ์–ด ๊ฐœ๋ฐœ ์—์ด์ „ํŠธ ์‹œ์Šคํ…œ์„ ์†Œ๊ฐœํ•ด, 670๋ฒˆ Multi-Agent Code System๊ณผ ์ƒํ˜ธ์ž‘์šฉ ๊ตฌ์กฐ์ƒ ๋น„๊ตํ•  ์ˆ˜ ์žˆ๋Š” ๋Œ€์•ˆ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
670์€ ์ฝ”๋”ฉ ์ž๋™ํ™”์— ์ค‘์ ์„ ๋‘๋Š” ๋ฐ˜๋ฉด, 714๋Š” LLM์„ ํ™œ์šฉํ•œ ์—ฐ๊ตฌ ์•„์ด๋””์–ด ์ƒ์„ฑ ๋ฐ ์ฐฝ์˜์„ฑ ์ง€์›์— ์ค‘์ ์„ ๋‘ก๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Executable Code Actions ๋…ผ๋ฌธ์€ ์ฝ”๋“œ ์ƒ์„ฑ ๊ณผ์ •์—์„œ ์‹คํ–‰ ๊ฐ€๋Šฅ์„ฑ๊ณผ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ์œ„ํ•œ LLM ์—์ด์ „ํŠธ ๋ฐฉ๋ฒ•์„ ๋‹ค๋ฃจ์–ด ์ง์ ‘ ๋น„๊ตํ•  ๋งŒํ•˜๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM ์—์ด์ „ํŠธ๋ฅผ ํ™œ์šฉํ•œ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ๋ฐ ๋ถ„์„ ์ž๋™ํ™”์—์„œ ์œ ์‚ฌํ•œ ์ ‘๊ทผ๋ฒ•์„ ์‚ฌ์šฉํ•˜๋Š” ๋Œ€์•ˆ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
ResearchCodeAgent๋Š” LLM ๋ฉ€ํ‹ฐ์—์ด์ „ํŠธ๋กœ ๋…ผ๋ฌธ ์ฝ”๋“œ ๊ตฌํ˜„ ์ž๋™ํ™” ๋„์ „๊ณผ์ œ๋ฅผ ๋‹ค๋ฃจ์–ด, ์ฝ”๋“œ ์ƒ์„ฑ ๋ฌธ์ œ์—์„œ ๋Œ€์กฐ์  ์ ‘๊ทผ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
ResearchCodeAgent ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜ ๋‹ค์ค‘ ์—์ด์ „ํŠธ ์‹œ์Šคํ…œ์œผ๋กœ ๋…ผ๋ฌธ์—์„œ ์ฝ”๋“œ ์ €์žฅ์†Œ ์ž๋™ ์ƒ์„ฑ์„ ๋‹ค๋ฃจ์–ด AutoP2C ์‹œ์Šคํ…œ๊ณผ ๊ทผ๋ณธ์ ์œผ๋กœ ์œ ์‚ฌํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
DS-Agent์˜ ๋ฐ˜๋ณต์  ๊ฐœ์„  ๋ฐ ๋ฐฐํฌ ๋‹จ๊ณ„ ์ตœ์ ํ™”๋ฅผ ํ™•์žฅํ•˜๋Š” ๊ด€๋ จ ๋ฐฉ๋ฒ•๋ก ์„ ์ œ๊ณตํ•œ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
803์€ ๋…ผ๋ฌธ-ํ”ผ์–ด๋ฆฌ๋ทฐ ๋ฐ์ดํ„ฐ์…‹์„ ์ œ๊ณตํ•˜์—ฌ 670์—์„œ ๋ชจ๋ธ์ด ์—ฐ๊ตฌ ๋ฐฉ๋ฒ•๋ก ๊ณผ ์‹ค์ œ ์ฝ”๋“œ ๊ตฌํ˜„์„ ์—ฐ๊ฒฐํ•˜๋Š” ํ›ˆ๋ จ ์ž๋ฃŒ๋กœ ํ™œ์šฉ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •