AI-Researcher: Autonomous Scientific Innovation

์ €์ž: Jiabin Tang, Lianghao Xia, Zhonghang Li, Chao Huang | ๋‚ ์งœ: 2025-05-24 | DOI: N/A 📄 PDF


Essence

Figure 1: AI-Researcher์˜ ์•„ํ‚คํ…์ฒ˜ ๊ฐœ์š”

Figure 1: ๋ฌธํ—Œ ํƒ์ƒ‰์—์„œ ์ถœํŒ ์ค€๋น„๊นŒ์ง€ ์™„์ „ ์ž๋™ํ™”๋œ ๊ณผํ•™ ํ˜์‹  ํŒŒ์ดํ”„๋ผ์ธ์˜ ์ข…๋‹จ ๊ฐ„ ์•„ํ‚คํ…์ฒ˜

๋ณธ ๋…ผ๋ฌธ์€ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์˜ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ํ™œ์šฉํ•˜์—ฌ ๋ฌธํ—Œ ๊ฒ€ํ† , ๊ฐ€์„ค ์ƒ์„ฑ, ์•Œ๊ณ ๋ฆฌ์ฆ˜ ๊ตฌํ˜„, ๋…ผ๋ฌธ ์ž‘์„ฑ๊นŒ์ง€ ์ „์ฒด ์—ฐ๊ตฌ ํŒŒ์ดํ”„๋ผ์ธ์„ ์ž๋™ํ™”ํ•˜๋Š” AI-Researcher ์‹œ์Šคํ…œ์„ ์ œ์•ˆํ•˜๊ณ , ์ด๋ฅผ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•œ Scientist-Bench ๋ฒค์น˜๋งˆํฌ๋ฅผ ๊ฐœ๋ฐœํ–ˆ๋‹ค.

Motivation

Achievement

Figure 2: AI-Researcher์˜ ์‹œ์Šคํ…œ ์•„ํ‚คํ…์ฒ˜

Figure 2: ์™„์ „ ์ž๋™ํ™”๋œ ๋‹ค์ค‘ ์—์ด์ „ํŠธ ์‹œ์Šคํ…œ์˜ ํฌ๊ด„์  ํ”„๋ ˆ์ž„์›Œํฌ

  1. ์™„์ „ ์ž๋™ํ™”๋œ ์—ฐ๊ตฌ ํŒŒ์ดํ”„๋ผ์ธ: ์ตœ์†Œํ•œ์˜ ์ธ๊ฐ„ ๊ฐœ์ž…์œผ๋กœ ๋ฌธํ—Œ ๊ฒ€ํ† ๋ถ€ํ„ฐ ์ถœํŒ ์ˆ˜์ค€์˜ ๋…ผ๋ฌธ ์ž‘์„ฑ๊นŒ์ง€ ์ „์ฒด ์—ฐ๊ตฌ ์‚ฌ์ดํด์„ ์ž๋™ํ™” ๋‹ฌ์„ฑ
  2. ๋†’์€ ๊ตฌํ˜„ ์„ฑ๊ณต๋ฅ : AI-Researcher๊ฐ€ ๋ฒค์น˜๋งˆํฌ ๋…ผ๋ฌธ๋“ค์— ๋Œ€ํ•ด ์ƒ๋‹นํ•œ ๊ตฌํ˜„ ์„ฑ๊ณต๋ฅ ์„ ๋‹ฌ์„ฑํ–ˆ์œผ๋ฉฐ, ์ƒ์„ฑ๋œ ๋…ผ๋ฌธ์ด ์ธ๊ฐ„ ์ˆ˜์ค€์— ์ ‘๊ทผํ•˜๋Š” ํ’ˆ์งˆ ์ž…์ฆ
  3. ์—ญ์ง๊ด€์  ์„ฑ๊ณผ: ๋ช…ํ™•ํ•œ ์ง€์‹œ์‚ฌํ•ญ์ด ์ฃผ์–ด์ง„ ๊ฐ€์ด๋“œ ํ˜์‹ (Level-1) ๊ณผ์ œ๋ณด๋‹ค ๊ฐœ๋ฐฉํ˜• ํƒ์ƒ‰(Level-2) ๊ณผ์ œ์—์„œ ๋” ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ ๋‹ฌ์„ฑ
  4. ํฌ๊ด„์  ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ: ๋‹ค์–‘ํ•œ AI ์—ฐ๊ตฌ ๋ถ„์•ผ์—์„œ ๊ฐ€์ด๋“œ ํ˜์‹ ๊ณผ ๊ฐœ๋ฐฉํ˜• ํƒ์ƒ‰ ๊ณผ์ œ๋ฅผ ๋ชจ๋‘ ํฌํ•จํ•œ ํ‘œ์ค€ํ™”๋œ ๋ฒค์น˜๋งˆํฌ ๊ฐœ๋ฐœ

How

Figure 3: ๋‹ค๋‹จ๊ณ„ ๊ตฌํ˜„ ๊ฐœ์„  ํ”„๋กœ์„ธ์Šค

Figure 3: Resource Analyst ์—์ด์ „ํŠธ์˜ ๋ฐ˜๋ณต์  ์ •์ œ ๋ฉ”์ปค๋‹ˆ์ฆ˜

Originality

Limitation & Further Study

Evaluation

์ดํ‰: AI-Researcher๋Š” LLM ๊ธฐ๋ฐ˜ ์ž์œจ ๊ณผํ•™ ์—ฐ๊ตฌ์˜ ์ƒˆ๋กœ์šด ๊ฒฝ๊ณ„๋ฅผ ๊ฐœ์ฒ™ํ•˜๋Š” ์•ผ์‹ฌ์ฐจ๊ณ  ํฅ๋ฏธ๋กœ์šด ์‹œ๋„์ด๋ฉฐ, ํŠนํžˆ Scientist-Bench๋Š” ํ–ฅํ›„ ์ž์œจ ๊ณผํ•™ ์—์ด์ „ํŠธ ํ‰๊ฐ€์˜ ์ค‘์š”ํ•œ ๊ธฐ์ค€์ด ๋  ์ˆ˜ ์žˆ์œผ๋‚˜, ๋ณด๋‹ค ๊ด‘๋ฒ”์œ„ํ•œ ๋ฐ์ดํ„ฐ์…‹ ๊ฒ€์ฆ๊ณผ ์‹ค์ œ ํ•™์ˆ  ์ปค๋ฎค๋‹ˆํ‹ฐ๋กœ๋ถ€ํ„ฐ์˜ ํ™•์ธ์ด ํ•„์ˆ˜์ ์œผ๋กœ ์š”๊ตฌ๋œ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
AI Idea Bench ๋…ผ๋ฌธ์€ ์•„์ด๋””์–ด ์ƒ์„ฑ ๋Šฅ๋ ฅ ์ •๋Ÿ‰ํ‰๊ฐ€์˜ ๋ฒค์น˜๋งˆํฌ ์ฒด๊ณ„๋ฅผ ์ œ๊ณตํ•˜์—ฌ, AI-Researcher๊ฐ€ ์•„์ด๋””์–ด ์ƒ์„ฑ ๋ชจ๋“ˆ ์„ฑ๋Šฅ ๋ถ„์„์— ๊ธฐ์ดˆ ์ž๋ฃŒ๋กœ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
์ž„๋ฒ ๋”ฉ ๊ณต๊ฐ„์—์„œ ์˜๋ฏธ๋ก ์  ๋ฐ€๋„๋ฅผ ๋ถ„์„ํ•˜๋Š” ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•๋ก ์„ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Towards end-to-end automation of AI research ๋…ผ๋ฌธ์€ AI ์—ฐ๊ตฌ ์ž๋™ํ™”์˜ ์ „์ฒด์ ์ธ ์ฒญ์‚ฌ์ง„์„ ์ œ์‹œํ•˜์—ฌ, AI-Researcher์˜ ์‹œ์Šคํ…œ ์„ค๊ณ„์— ์ด๋ก ์  ๊ฐ€์ด๋“œ๊ฐ€ ๋œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
086 ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜ ์ž๋™ ๊ณผํ•™ ํ˜์‹  ์‹œ์Šคํ…œ์˜ ํ‰๊ฐ€์™€ ํ•œ๊ณ„๋ฅผ ๋ถ„์„ํ•˜์—ฌ, 810์—์„œ ์ œ์‹œํ•œ LLM ํ•ต์‹ฌ ์—ญ๋Ÿ‰ ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ์™€ ๋‹ค๋ฅธ ์‹œ๊ฐ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
The AI Scientist ๋…ผ๋ฌธ์€ ์™„์ „ ์ž๋™ ๊ณผํ•™ ์—ฐ๊ตฌ ์‹œ์Šคํ…œ์„ ๋‹ค๋ฃจ๊ณ  ์žˆ์–ด AI-Researcher์™€ ์ค‘์š”ํ•œ ๋น„๊ต ๋Œ€์ƒ์ด ๋œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
AI๋ฅผ ํ™œ์šฉํ•œ ๊ณผํ•™์  ๋ฐœ๊ฒฌ ๋ฐ ์—ฐ๊ตฌ ์ƒ์‚ฐ์„ฑ ํ–ฅ์ƒ์„ ๋‹ค๋ฅธ ๋ฐฉ์‹์œผ๋กœ ๋‹ค๋ฃจ๋Š” ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM์˜ ์ถ”๋ก  ํ•œ๊ณ„๋ฅผ ์‹ค์ฆ์ ์œผ๋กœ ํ‰๊ฐ€ํ•˜๋Š” ์œ ์‚ฌํ•œ ์—ฐ๊ตฌ๋กœ, ๋‹ค๋ฅธ ์ถ”๋ก  ๊ณผ์ œ๋ฅผ ๋‹ค๋ฃฌ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
086์€ ์™„์ „ ์ž๋™ํ™”๋œ AI ์—ฐ๊ตฌ ์—์ด์ „ํŠธ๋กœ ํ”„๋ก ํ‹ฐ์–ด ๊ณผํ•™ ํ˜์‹  ๋„๋‹ฌ ๊ฐ€๋Šฅ์„ฑ์„ ์‹ค์ฆ์ ์œผ๋กœ ๋ถ„์„ํ•˜์—ฌ, 922์˜ AI-์กฐ๊ต ๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ ์‚ฌ๋ก€์™€ ์ผ๋งฅ์ƒํ†ตํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
The AI Scientist-v2 ๋…ผ๋ฌธ์€ AI ์—ฐ๊ตฌ์ž ์—์ด์ „ํŠธ๊ฐ€ ์‹ค์ œ ๋…ผ๋ฌธ ์ง‘ํ•„๊นŒ์ง€ ์ˆ˜ํ–‰ํ•˜๋Š” ์ „์ฒด ์ž๋™ ์—ฐ๊ตฌ ํŒŒ์ดํ”„๋ผ์ธ ๊ตฌํ˜„ ์‚ฌ๋ก€๋กœ, AI-Researcher์™€ ์ฒด๊ณ„๋ณ„ ์„ฑ๋Šฅยทํ•œ๊ณ„๋ฅผ ๋น„๊ตํ•  ์ˆ˜ ์žˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ธ์ง€๊ณผํ•™ ์‹คํ—˜ ์„ค๊ณ„ ์ž๋™ํ™”๋ฅผ ์œ„ํ•œ LLM ํ™œ์šฉ ๋ฐฉ๋ฒ•๋ก ์„ ๋‹ค๋ฃจ๋Š” ๊ด€๋ จ ์—ฐ๊ตฌ์ด๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
AI-Researcher ๋…ผ๋ฌธ๋„ ๊ณผํ•™ ์—ฐ๊ตฌ ์ „์ฒด ํŒŒ์ดํ”„๋ผ์ธ์„ ์ž๋™ํ™”ํ•˜๋Š” AI ์‹œ์Šคํ…œ์„ ๋‹ค๋ฃจ์–ด AI Scientist๊ฐ€ ์ œ์‹œํ•˜๋Š” ์˜คํ”ˆ์—”๋””๋“œ ์ž๋™ํ™”์™€ ์ผ๋งฅ์ƒํ†ตํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Exp-bench๋Š” AI ์—์ด์ „ํŠธ์˜ ๊ณผํ•™ ์‹คํ—˜ ์ „์ฒด ์ž๋™ํ™” ์‹œ๋„์™€ ํ•œ๊ณ„๋ฅผ ํ‰๊ฐ€ํ•˜์—ฌ, AI-Researcher๊ฐ€ ์ œ์‹œํ•œ ๋ฒค์น˜๋งˆํฌ์™€ ์‹œ๋„ˆ์ง€ ํšจ๊ณผ๋ฅผ ์ค€๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
AI-Researcher ๋…ผ๋ฌธ์€ ์ƒ์„ฑ์  AI์˜ ์—ฐ๊ตฌ ์•„์ด๋””์–ด ์ƒ์„ฑ๋ถ€ํ„ฐ ํ†ตํ•ฉ ์‹คํ˜„๊นŒ์ง€ ์ „์ฒด ํŒŒ์ดํ”„๋ผ์ธ์„ ๊ตฌํ˜„ํ•˜๋ฉฐ, AI Idea Bench์˜ ํ‰๊ฐ€ ๋ฒค์น˜๋งˆํฌ ํ•œ๊ณ„๋ฅผ ์‹ค์ œ ํ™œ์šฉ ์ธก๋ฉด์—์„œ ํ™•์žฅํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
AI-Researcher ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜ ์ „์ฒด ์—ฐ๊ตฌ ์ž๋™ํ™” ํŒŒ์ดํ”„๋ผ์ธ์„ ์‹คํ˜„ํ•˜๊ณ , Gemini ๋…ผ๋ฌธ์˜ ์‹ค์ œ ์ ์šฉ ์‚ฌ๋ก€์™€ ์ฒด๊ณ„์  ๋ฐฉ๋ฒ•๋ก ์— ์‹ค์งˆ์  ์‹œ์‚ฌ์ ์„ ์ œ๊ณตํ•œ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
์ž์œจ์  ๊ณผํ•™ ํ˜์‹  ์‹œ์Šคํ…œ(AI-Researcher)์˜ ์‹ค์ œ์  ๊ตฌํ˜„ ๋ฐ ๋‹ค์–‘ํ•œ ์ž๋™ํ™” ์‹œ๋‚˜๋ฆฌ์˜ค๋ฅผ ํ†ตํ•ด agentic science ๊ฐœ๋…์˜ ์‹ค์šฉ์  ์˜ํ–ฅ๋ ฅ์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •