R&D-Agent: Automating Data-Driven AI Solution Building Through LLM-Powered Automated Research, Development, and Evolution

์ €์ž: Xu Yang, Xiao Yang, Shikai Fang, Bowen Xian, Yuante Li, Jian Wang, Minrui Xu, Haoran Pan, Xinpeng Hong, Weiqing Liu, Yelong Shen, Weizhu Chen, Jiang Bian | ๋‚ ์งœ: 2025-05-20 | DOI: 10.48550/arXiv.2505.14738 📄 PDF


Essence

Figure 1

R&D-Agent ํ”„๋ ˆ์ž„์›Œํฌ: ์—ฐ๊ตฌ์ž(Researcher) ์—์ด์ „ํŠธ์™€ ๊ฐœ๋ฐœ์ž(Developer) ์—์ด์ „ํŠธ๊ฐ€ ํ˜‘๋ ฅํ•˜์—ฌ ๋‹ค์ค‘ ํƒ์ƒ‰ ๊ฒฝ๋กœ๋ฅผ ๋ณ‘๋ ฌ๋กœ ์‹คํ–‰ํ•˜๊ณ  ์ƒํ˜ธ ๊ฐ•ํ™”ํ•˜๋Š” ๊ตฌ์กฐ

๋ณธ ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜์˜ ์ด์ค‘ ์—์ด์ „ํŠธ ํ”„๋ ˆ์ž„์›Œํฌ์ธ R&D-Agent๋ฅผ ์ œ์•ˆํ•˜์—ฌ, ๋ฐ์ดํ„ฐ ๊ณผํ•™ ์†”๋ฃจ์…˜ ๊ฐœ๋ฐœ์„ ์ž๋™ํ™”ํ•˜๊ณ  ์ „๋ฌธ๊ฐ€ ์ˆ˜์ค€์˜ ์„ฑ๋Šฅ์— ๊ทผ์ ‘ํ•˜๋„๋ก ์„ค๊ณ„ํ–ˆ๋‹ค. ์—ฐ๊ตฌ์ž ์—์ด์ „ํŠธ๋Š” ์„ฑ๋Šฅ ํ”ผ๋“œ๋ฐฑ์„ ๋ฐ”ํƒ•์œผ๋กœ ์•„์ด๋””์–ด๋ฅผ ์ƒ์„ฑํ•˜๊ณ , ๊ฐœ๋ฐœ์ž ์—์ด์ „ํŠธ๋Š” ์˜ค๋ฅ˜ ํ”ผ๋“œ๋ฐฑ์„ ๋ฐ”ํƒ•์œผ๋กœ ์ฝ”๋“œ๋ฅผ ๊ฐœ์„ ํ•˜๋Š” ํ˜‘๋ ฅ์  ํƒ์ƒ‰ ๊ณผ์ •์„ ํ†ตํ•ด ๊ธฐ์กด ์ž๋™ํ™” ์†”๋ฃจ์…˜์˜ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•œ๋‹ค.

Motivation

Achievement

  1. ์ตœ๊ณ  ์„ฑ๋Šฅ ๋‹ฌ์„ฑ: MLE-Bench ๋ฒค์น˜๋งˆํฌ์—์„œ ๊ธฐ๊ณ„ ํ•™์Šต ์—”์ง€๋‹ˆ์–ด๋ง ์—์ด์ „ํŠธ ์ค‘ ์ตœ์šฐ์ˆ˜ ์„ฑ๋Šฅ ๋‹ฌ์„ฑ
  2. ์ด์ค‘ ์—์ด์ „ํŠธ ์„ค๊ณ„์˜ ํšจ์œจ์„ฑ: ์—ญํ•  ๋ถ„๋‹ด์„ ํ†ตํ•ด ์ ํ•ฉํ•œ LLM ๋ชจ๋ธ ํ• ๋‹น ๊ฐ€๋Šฅ (์˜ˆ: o1์€ ์ถ”๋ก /์•„์ด๋””์–ด ์ƒ์„ฑ, GPT-4.1์€ ๋ช…๋ น ์ถ”์ข…/๊ตฌํ˜„)
  3. ๋‹ค์ค‘ ํƒ์ƒ‰ ๊ฒฝ๋กœ์˜ ์ƒํ˜ธ ๊ฐ•ํ™”: ํ‰ํ–‰ ํƒ์ƒ‰ ํ”์ (traces)์˜ ์„ ํƒ์  ๋ณ‘ํ•ฉ(fusion)์„ ํ†ตํ•ด ๊ฐœ๋ณ„ ํ•ด๋ณด๋‹ค ์šฐ์ˆ˜ํ•œ ํ•ฉ์„ฑ ์†”๋ฃจ์…˜(composite solution) ์ƒ์„ฑ
  4. ๊ฐœ๋ฐœ ํšจ์œจ์„ฑ ํ–ฅ์ƒ: ์ƒ˜ํ”Œ ๋ฐ์ดํ„ฐ์…‹์—์„œ์˜ ๋ฐ˜๋ณต ๋””๋ฒ„๊น… โ†’ ์ „์ฒด ๋ฐ์ดํ„ฐ์…‹ ์‹คํ–‰์˜ ์ด๋‹จ๊ณ„ ์ ‘๊ทผ์œผ๋กœ ๊ฐœ๋ฐœ ์†๋„ ๋Œ€ํญ ๊ฐœ์„ 
  5. ์˜คํ”ˆ์†Œ์Šค ๊ณต๊ฐœ: GitHub์—์„œ ์ฝ”๋“œ ๊ณต๊ฐœ๋กœ ์žฌํ˜„์„ฑ ๋ฐ ์ ‘๊ทผ์„ฑ ํ™•๋ณด

How

์ด์ค‘ ์—ญํ•  ์ „๋‹ด(Dedicated R&D Role)

๋‹ค์ค‘ ํƒ์ƒ‰ ๊ฒฝ๋กœ ํƒ์ƒ‰(Multi-Trace Idea Exploration)

๋‹ค์ค‘ ํƒ์ƒ‰ ๊ฒฝ๋กœ ์œตํ•ฉ(Multi-Trace Fusion for Stronger Solutions)

์œ ์—ฐํ•œ ์ œ์–ด

Originality

Limitation & Further Study

Evaluation

์ดํ‰: R&D-Agent๋Š” LLM ๊ธฐ๋ฐ˜ ๋ฐ์ดํ„ฐ ๊ณผํ•™ ์ž๋™ํ™”์˜ ์ค‘์š”ํ•œ ์ง„์ „์„ ์ด๋ฃจ์—ˆ์œผ๋ฉฐ, ์ด์ค‘ ์—์ด์ „ํŠธ ์„ค๊ณ„์™€ ๋‹ค์ค‘ ์ถ”์  ๋ณ‘ํ•ฉ์ด๋ผ๋Š” ์ฐฝ์‹ ์  ๊ฐœ๋…์„ ํ†ตํ•ด ๊ธฐ์กด ์†”๋ฃจ์…˜์˜ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๋ ค๋Š” ์‹œ๋„๊ฐ€ ๋†’์ด ํ‰๊ฐ€๋œ๋‹ค. ๋‹ค๋งŒ, ๊ณ„์‚ฐ ๋น„์šฉ ๋ถ„์„, ์‹ค๋ฌด ์ ์šฉ ์‚ฌ๋ก€, ํ•ต์‹ฌ ๋ฉ”์ปค๋‹ˆ์ฆ˜์˜ ์„ธ๋ถ€ ๊ธฐ์ˆ  ์„ค๋ช…์ด ๋ณด๊ฐ•๋˜๋ฉด ๋…ผ๋ฌธ์˜ ์‹ค์šฉ์„ฑ๊ณผ ์™„์„ฑ๋„๊ฐ€ ๋”์šฑ ํ–ฅ์ƒ๋  ๊ฒƒ์œผ๋กœ ์˜ˆ์ƒ๋œ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๋‹ค์ค‘ ์—์ด์ „ํŠธ LLM ํ™œ์šฉ ํ”„๋ ˆ์ž„์›Œํฌ์˜ ๋™ํ–ฅ๊ณผ ๊ตฌ์กฐ์  ๊ฐœ๋…์— ๋Œ€ํ•œ ์„œ๋ฒ ์ด ๋…ผ๋ฌธ์ž…๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๊ณผํ•™ ์—ฐ๊ตฌ ์ž๋™ํ™” ๋ชฉ์ ์˜ LLM ์—์ด์ „ํŠธ ์„œ๋ฒ ์ด๋กœ ๋ณธ ๋…ผ๋ฌธ์˜ ๋ฐฉ๋ฒ•๋ก ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
294๋ฒˆ ๋…ผ๋ฌธ์€ ๊ณผํ•™ ๋ฐ์ดํ„ฐ ๋ถ„์„ ๋Šฅ๋ ฅ ์ฐจ์ด ๋ฐ ์ž๋™ํ™”์˜ ํ•œ๊ณ„ ๋ถ„์„์„ ๋‹ด์•„, 650๋ฒˆ์ด ์ œ์•ˆํ•œ ํ˜‘๋ ฅ์  ์†”๋ฃจ์…˜์˜ ํ•„์š”์„ฑ๊ณผ ํšจ๊ณผ๋ฅผ ์ดํ•ดํ•˜๋Š” ๋ฐ ๋ฐฐ๊ฒฝ์ด ๋œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๊ณผํ•™ ์ž๋™ํ™”์˜ ๊ธฐํšŒ์™€ ๋„์ „ ๊ณผ์ œ์— ๋Œ€ํ•œ ์ด๋ก ์ ยท๋ฐฉ๋ฒ•๋ก ์  ๋ฐฐ๊ฒฝ์„ ์ œ๊ณตํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
CFD ๋ถ„์•ผ์—์„œ LLM ๊ธฐ๋ฐ˜ ๋‹ค์ค‘ ์—์ด์ „ํŠธ ์ž๋™ํ™” ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•ด, ์ž๋™ํ™” ์—์ด์ „ํŠธ ๊ตฌ์กฐ์˜ ๋˜๋‹ค๋ฅธ ์‚ฌ๋ก€๋ฅผ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋ฐ์ดํ„ฐ ํ•ด์„ ๋ฐ ์ „๋ฌธ๊ฐ€ ์ˆ˜์ค€ ์ž๋™ํ™” ์†”๋ฃจ์…˜ ๊ฐœ๋ฐœ์—์„œ LLM ์—์ด์ „ํŠธ๊ฐ€ ์–ด๋–ป๊ฒŒ ํ™œ์šฉ๋˜๋Š”์ง€์— ๋Œ€ํ•œ ๋‹ค๋ฅธ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์‹œํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋ฐ์ดํ„ฐ ์ฃผ๋„ํ˜• ๊ณผํ•™ ๋ฐœ๊ฒฌ ์ž๋™ํ™”๋ฅผ ์œ„ํ•œ ์œ ์‚ฌํ•œ ์ ‘๊ทผ ๋ฐฉ์‹์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
259๋ฒˆ์€ ๋ฐ์ดํ„ฐ ๋ถ„์„ ์ž๋™ํ™”๋ฅผ LLM ๋‹จ์ผ ์—์ด์ „ํŠธ ๊ธฐ๋ฐ˜์œผ๋กœ ์ ‘๊ทผํ•˜์—ฌ, 650๋ฒˆ์˜ ์ด์ค‘ ์—์ด์ „ํŠธ ํ˜‘๋ ฅ ํ”„๋ ˆ์ž„์›Œํฌ์™€ ์„ค๊ณ„ ๋ฐฉ์‹ ์ฐจ์ด๋ฅผ ์•Œ ์ˆ˜ ์žˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
R&D-Agent ๋…ผ๋ฌธ์€ ์‹ค์ œ ์‚ฐ์—…ํ˜• AI ์†”๋ฃจ์…˜ ๊ฐœ๋ฐœ์— ์ดˆ์ ์„ ๋งž์ถ˜ ์—์ด์ „ํŠธ ๋ฒค์น˜๋งˆํ‚น์„ ๋‹ค๋ฃจ๋ฉฐ, MLE-bench ์ดํ›„์˜ ์‹ค์šฉ์  ํ™•์žฅ์„ฑ์„ ๋ณด์—ฌ์ค€๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Towards an AI co-scientist ๋…ผ๋ฌธ์€ ์ธ๊ฐ„ ์ „๋ฌธ๊ฐ€์— ์ค€ํ•˜๋Š” AI ์—์ด์ „ํŠธ์˜ R&D ํ™œ์šฉ ๊ฐ€๋Šฅ์„ฑ์— ๋Œ€ํ•ด ํ†ตํ•ฉ์  ์‹œ๊ฐ์„ ์ œ๊ณตํ•˜์—ฌ 650์˜ ์‹œ์Šคํ…œ์  ์„ฑ๊ณผ๋ฅผ ๋„“ํ˜€์ค๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
LLM ๊ธฐ๋ฐ˜ ๋„๊ตฌ ์„ค๊ณ„ ์ž๋™ํ™” ํ”„๋ ˆ์ž„์›Œํฌ๊ฐ€ ์‹ค์ œ ๊ณผํ•™ ์†”๋ฃจ์…˜ ๋นŒ๋“œ์— ํ™œ์šฉ๋˜๋Š” ์‚ฌ๋ก€๋ฅผ ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •