Evaluating Sakana's AI Scientist for Autonomous Research: Wishful Thinking or an Emerging Reality Towards 'Artificial Research Intelligence'(ARI)? arXiv preprint arXiv:2502.14297, 2025.

์ €์ž: Joeran Beel, Min-Yen Kan, Moritz Baumgart | ๋‚ ์งœ: 2025 | DOI: N/A


Essence

Sakana.ai์˜ AI Scientist๋Š” ์—ฐ๊ตฌ ์ „์ฒด ์ƒ๋ช…์ฃผ๊ธฐ(์•„์ด๋””์–ด ์ƒ์„ฑ, ์‹คํ—˜ ์„ค๊ณ„ ๋ฐ ์‹คํ–‰, ๋…ผ๋ฌธ ์ž‘์„ฑ, ํ”ผ์–ด ๋ฆฌ๋ทฐ)๋ฅผ ์ž๋™ํ™”ํ•˜๊ฒ ๋‹ค๊ณ  ์ฃผ์žฅํ•˜๋Š” ์‹œ์Šคํ…œ์ด์ง€๋งŒ, ๋ณธ ๋…ผ๋ฌธ์˜ ์ฒด๊ณ„์  ํ‰๊ฐ€ ๊ฒฐ๊ณผ ๋ฌธํ—Œ ๊ฒ€ํ† , ์‹คํ—˜ ์‹คํ–‰, ์›๊ณ  ์ž‘์„ฑ ๋“ฑ ์—ฌ๋Ÿฌ ์˜์—ญ์—์„œ ์‹ฌ๊ฐํ•œ ๊ฒฐํ•จ์„ ๋ฐœ๊ฒฌํ–ˆ๋‹ค.

Motivation

Achievement

  1. ๋ฌธํ—Œ ๊ฒ€ํ† ์˜ ๊ทผ๋ณธ์  ๊ฒฐํ•จ: AI Scientist๋Š” ๋‹จ์ˆœ ํ‚ค์›Œ๋“œ ๊ฒ€์ƒ‰์—๋งŒ ์˜์กดํ•˜์—ฌ ๋ฌธํ—Œ์„ ํ‘œ๋ฉด์ ์œผ๋กœ ๊ฒ€ํ† ํ•˜๋ฉฐ, ๋งˆ์ดํฌ๋กœ-๋ฐฐ์นญ(micro-batching for SGD) ๊ฐ™์€ ํ™•๋ฆฝ๋œ ๊ฐœ๋…์„ "์ƒˆ๋กœ์šด ์•„์ด๋””์–ด"๋กœ ์ž˜๋ชป ๋ถ„๋ฅ˜ํ•จ.
  2. ์‹คํ—˜ ์‹คํ–‰์˜ ๋ถˆ์•ˆ์ •์„ฑ: ์ œ์•ˆ๋œ 12๊ฐœ ์‹คํ—˜ ์ค‘ 5๊ฐœ(42%)๊ฐ€ ์ฝ”๋”ฉ ์˜ค๋ฅ˜๋กœ ์‹คํŒจํ–ˆ์œผ๋ฉฐ, ์‹คํ–‰๋œ ์‹คํ—˜๋“ค๋„ ๋…ผ๋ฆฌ์  ๊ฒฐํ•จ์„ ํฌํ•จ. ์˜ˆ๋ฅผ ๋“ค์–ด ์—๋„ˆ์ง€ ํšจ์œจ์„ฑ ์ตœ์ ํ™” ์‹คํ—˜์ด ๋” ๋งŽ์€ ๊ณ„์‚ฐ ๋ฆฌ์†Œ์Šค๋ฅผ ์†Œ๋น„ํ•˜๋ฉด์„œ ์ •ํ™•๋„ ๊ฐœ์„ ์„ ๋ณด๊ณ ํ•˜๋Š” ๋ชจ์ˆœ ๋ฐœ์ƒ.
  3. ๋‚ฎ์€ ๋…ผ๋ฌธ ํ’ˆ์งˆ: ์ƒ์„ฑ๋œ ๋…ผ๋ฌธ๋“ค์˜ ์ค‘์•™๊ฐ’ ์ธ์šฉ ์ˆ˜๋Š” 5๊ฐœ์— ๋ถˆ๊ณผํ•˜๊ณ , ๋Œ€๋ถ€๋ถ„ ๊ตฌ์‹(2020๋…„ ์ดํ›„๋Š” 34๊ฐœ ์ค‘ 5๊ฐœ๋งŒ), ๊ตฌ์กฐ์  ์˜ค๋ฅ˜(๋ˆ„๋ฝ๋œ ๊ทธ๋ฆผ, ๋ฐ˜๋ณต๋œ ์„น์…˜, "Conclusions Here" ๊ฐ™์€ ํ”Œ๋ ˆ์ด์Šคํ™€๋”), ํ• ๋ฃจ์‹œ๋„ค์ด์…˜๋œ ์ˆ˜์น˜ ๊ฒฐ๊ณผ ํฌํ•จ.
  4. ์ œํ•œ๋œ ์ ์‘์„ฑ: ๋ฐ˜๋ณต ์‹คํ—˜์—์„œ ์ฝ”๋“œ๋Š” ํ‰๊ท  8% ์ •๋„๋งŒ ์ฆ๊ฐ€ํ•˜์—ฌ ์ตœ์†Œํ•œ์˜ ๊ฐœ์„  ์‹œ๋„๋งŒ ํ•จ.
  5. ๋น„์šฉ-์‹œ๊ฐ„ ํšจ์œจ์„ฑ์˜ ํ˜„์‹คํ™”: ์™„์ „ํ•œ ์—ฐ๊ตฌ ๋…ผ๋ฌธ ์ƒ์„ฑ์— $6-$15, 3.5์‹œ๊ฐ„์˜ ์ธ๊ฐ„ ๊ฐœ์ž…๋งŒ ์†Œ์š”๋˜์–ด ๊ธฐ์กด ์—ฐ๊ตฌ์ž ๋Œ€๋น„ ํ˜„์ €ํžˆ ๋น ๋ฅด๊ณ  ์ €๋ ดํ•จ.

How

Originality

Limitation & Further Study

Evaluation

์ดํ‰: ๋ณธ ๋…ผ๋ฌธ์€ ๊ณผ๋Œ€ ๊ด‘๊ณ ๋œ AI ์‹œ์Šคํ…œ์— ๋Œ€ํ•œ ์ฒซ ์ฒด๊ณ„์  ๋น„ํŒ์  ํ‰๊ฐ€๋กœ์„œ ํ•™์ˆ  ๊ณต๋™์ฒด์— ์ค‘์š”ํ•œ ํ˜„์‹ค ๊ฒ€์ฆ์„ ์ œ๊ณตํ•˜๋ฉฐ, ๋ฌธํ—Œ ๊ฒ€ํ† ๋ถ€ํ„ฐ ์‹คํ—˜ ์‹คํ–‰๊นŒ์ง€ ๊ตฌ์ฒด์ ์ธ ๊ฒฐํ•จ์„ ์ž…์ฆํ•จ์œผ๋กœ์จ ARI ๊ธฐ์ˆ ์˜ ํ˜„์ฃผ์†Œ๋ฅผ ๋ช…ํ™•ํžˆ ํ•˜๊ณ  ํ–ฅํ›„ ๋ฐœ์ „ ๋ฐฉํ–ฅ์„ ์ œ์‹œํ•œ๋‹ค๋Š” ์ ์—์„œ ๋งค์šฐ ๊ฐ€์น˜ ์žˆ๋Š” ์—ฐ๊ตฌ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
3376์€ AI ๊ธฐ๋ฐ˜ ๊ณผํ•™ ์ž๋™ํ™”์˜ ์—ญ์‚ฌ์ /๊ฐœ๋…์  ํŒจ๋Ÿฌ๋‹ค์ž„ ์ „ํ™˜์„ ์ œ์‹œํ•˜์—ฌ 321์˜ ์‹คํ—˜ํ‰๊ฐ€ ๋…ผ์˜์— ์ด๋ก ์  ํ† ๋Œ€๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
์ž์œจ AI ๊ณผํ•™ ์—ฐ๊ตฌ ์‹œ์Šคํ…œ ๊ฐœ๋ฐœ์˜ ๊ธฐ๋ฐ˜์ด ๋˜๋Š” ๋ฐฉ๋ฒ•๋ก  ์—ฐ๊ตฌ์ด๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๊ฑด์„ค ์‚ฐ์—… AI ์—ฐ๊ตฌ์˜ ์ง€์  ๊ตฌ์กฐ ๋ถ„์„์— ํ•„์š”ํ•œ ๋ฐฉ๋ฒ•๋ก ์  ๊ธฐ์ดˆ๋ฅผ ์ œ๊ณตํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM์˜ ๊ณผํ•™ ์—ฐ๊ตฌ ์ž๋™ํ™” ๋Šฅ๋ ฅ์— ๋Œ€ํ•œ ํ‰๊ฐ€๋ฅผ ๋‹ค๋ฃจ๋Š” ๊ด€๋ จ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
DOLPHIN ๋…ผ๋ฌธ์€ AI ๊ณผํ•™์ž ์—์ด์ „ํŠธ์˜ ์•„์ด๋””์–ด ์ƒ์„ฑ-๊ฒ€์ฆ-๋ณด๊ณ  ๋ฃจํ”„๋ฅผ ์ž๋™ํ™”ํ•˜๋Š” ๊ตฌ์กฐ๋ฅผ ์ œ์•ˆํ•˜์—ฌ, 321 ๋…ผ๋ฌธ์ด ํ‰๊ฐ€ํ•œ Sakana์˜ AI Scientist์™€ ๋น„๊ต ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Enabling AI Scientists to Recognize Innovation ๋…ผ๋ฌธ์€ AI๊ฐ€ ์—ฐ๊ตฌ ์•„์ด๋””์–ด ํ˜์‹ ์„ฑ ํ‰๊ฐ€ ์—ญ๋Ÿ‰์„ ์ž๋™ํ™”ํ•˜๋Š” ๋ฐฉ์‹์„ ํƒ์ƒ‰ํ•˜์—ฌ, 321์˜ ์—ฐ๊ตฌ ์•„์ด๋””์–ดยท์ดˆ๋ก ์ž๋™ํ™” ํ‰๊ฐ€ ํ•œ๊ณ„์™€ ๋Œ€๋น„ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Sakana์˜ AI Scientist ํ‰๊ฐ€ ๋…ผ๋ฌธ์€ ์ž๋™ํ™” ์—ฐ๊ตฌ์‹œ์Šคํ…œ์˜ ์„ฑ๋Šฅ ๊ฒ€์ฆ ํ†ต์ฐฐ์„ ์ œ๊ณตํ•˜์—ฌ, ์ธ๊ฐ„-์ธ๊ณต์ง€๋Šฅ ํ˜‘์—…ํ˜• ํ”„๋ ˆ์ž„์›Œํฌ์™€ ์ฐจ๋ณ„์ ์„ ๋น„๊ตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
AI ๊ธฐ๋ฐ˜ ์ž์œจ ๊ณผํ•™ ์—ฐ๊ตฌ ์‹œ์Šคํ…œ์˜ ๋Šฅ๋ ฅ๊ณผ ํ•œ๊ณ„๋ฅผ ํ‰๊ฐ€ํ•˜๋Š” ์œ ์‚ฌํ•œ ์ฃผ์ œ์˜ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
AI ์—ฐ๊ตฌ ๋ณด์กฐ ์‹œ์Šคํ…œ์˜ ์„ฑ๋Šฅ ํ‰๊ฐ€์™€ ํ•œ๊ณ„๋ฅผ ๋ถ„์„ํ•˜๋Š” ๊ด€๋ จ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
321 ๋…ผ๋ฌธ์€ ๋‹ค์–‘ํ•œ ๊ณผํ•™ ๋„๋ฉ”์ธ์—์„œ AI Scientist์˜ ์‹ค์ œ ์—ฐ๊ตฌ ๊ตฌํ˜„ ์„ฑ๋Šฅ์˜ ํ•œ๊ณ„๋ฅผ ๋‹ค๋ฃจ๊ธฐ์—, 694์˜ ์ˆ˜ํผ์ปด ํ™˜๊ฒฝ ๊ฒ€์ฆ ๋งฅ๋ฝ์—์„œ ์œ ์˜๋ฏธํ•œ ๋น„๊ต๊ฐ€ ๊ฐ€๋Šฅํ•˜๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
AI ์‹œ์Šคํ…œ์˜ ๊ณผํ•™์  ๋ฐœ๊ฒฌ ๋ฐ ์—ฐ๊ตฌ ์ž๋™ํ™” ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ์œ ์‚ฌํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
aiXiv ๋…ผ๋ฌธ์€ ์ธ๊ฐ„/AI ๊ณผํ•™์ž ํ˜‘์—… ์˜คํ”ˆ ์•ก์„ธ์Šค ์—์ฝ”์‹œ์Šคํ…œ ๊ตฌ์ถ•์œผ๋กœ Sakana์™€ ์œ ์‚ฌํ•œ ์ž๋™ํ™” ์—ฐ๊ตฌ ํ”„๋ ˆ์ž„์›Œํฌ์˜ ํ™•์žฅ์  ์ ์šฉ์„ ๋ณด์—ฌ์ค€๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
3284์˜ ์ธ๊ฐ„ ํ•„์ˆ˜๋ก ์„ 321์˜ AI Scientist ์‹ค์ฆ์  ํ•œ๊ณ„ ๋ถ„์„ ์‚ฌ๋ก€์™€ ๊ฒฐํ•ฉํ•˜๋ฉด ๊ณผํ•™์—์„œ AI์˜ ์‹ค์ œ ์—ญํ• ๊ณผ ํ•œ๊ณ„๋ฅผ ๋”์šฑ ์ž…์ฒด์ ์œผ๋กœ ์ดํ•ดํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
AI Scientist ํ‰๊ฐ€๋ฅผ ํ†ตํ•ด ์ž๋™ํ™”, ์ฆ๊ฐ•, ์ง์—…์  ์˜ํ–ฅ ๋“ฑ์„ ์‹ค์ œ ์—ฐ๊ตฌ ์‹คํ—˜ ๊ฒฐ๊ณผ๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ๋ถ„์„ํ•  ์ˆ˜ ์žˆ๋‹ค.
๋ฐ˜๋ก /๋น„ํŒ
๋‘˜ ๋‹ค AI Scientist์˜ ํ•œ๊ณ„์™€ ๊ฐ€๋Šฅ์„ฑ์„ ๋น„ํŒ์ ์œผ๋กœ ํ‰๊ฐ€ํ•˜๋Š” ๋…ผ๋ฌธ์œผ๋กœ, ๊ฐ์ž์˜ ์‹คํ—˜์  ๋ถ„์„์— ๊ธฐ๋ฐ˜ํ•ด ์„œ๋กœ์˜ ๊ฒฐ๋ก ์„ ํ™•์ธยท๋ณด์™„ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋ฐ˜๋ก /๋น„ํŒ
AI Scientist์˜ ๊ตฌํ˜„ ํ•œ๊ณ„์™€ ๊ฒฐํ•จ์„ ์ง‘์ค‘ ๋ถ„์„ํ•œ ๋ณธ ๋…ผ๋ฌธ๊ณผ ๋‹ฌ๋ฆฌ, ์„ฑ๊ณต์ ์ธ AI ๊ธฐ๋ฐ˜ ๊ณผํ•™ ์ž๋™ํ™”์˜ ์‹ค์งˆ์  ์กฐ๊ฑด๊ณผ ์‹คํŒจ ์š”์ธ์„ ๊ตฌ์ฒด์ ์œผ๋กœ ์ง€์ ํ•œ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •