AI Scientists Fail Without Strong Implementation Capability

์ €์ž: Min Zhu, Qiujie Xie, Yixuan Weng, Jian Wu, Zhen Lin, Linyi Yang, Yue Zhang | ๋‚ ์งœ: 2025 | DOI: ๋ฏธ์ œ๊ณต 📄 PDF


Essence

Figure 1

AI Scientist์˜ ๋ฐœ์ „ ๋กœ๋“œ๋งต(2024~๋ฏธ๋ž˜)์—์„œ ๊ตฌํ˜„ ๊ฒฉ์ฐจ(Implementation Gap) ํ•ด๊ฒฐ์˜ ์ค‘์š”์„ฑ์„ ๊ฐ•์กฐ

๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ(LLM) ๊ธฐ๋ฐ˜ AI Scientist๋Š” ์šฐ์ˆ˜ํ•œ ์•„์ด๋””์–ด ์ƒ์„ฑ ๋Šฅ๋ ฅ์„ ๋ณด์œ ํ–ˆ์œผ๋‚˜, ์‹ค์ œ ๊ณผํ•™์  ๊ฒ€์ฆ๊ณผ ์‹คํ—˜ ๊ตฌํ˜„ ๋Šฅ๋ ฅ์ด ์‹ฌ๊ฐํ•˜๊ฒŒ ๋ถ€์กฑํ•˜์—ฌ ์ง„์ •ํ•œ ์ž๋™ํ™” ๊ณผํ•™ ์—ฐ๊ตฌ ๋‹ฌ์„ฑ์— ์‹คํŒจํ•˜๊ณ  ์žˆ๋‹ค๋Š” ์ž…์žฅ ๋…ผ๋ฌธ์ด๋‹ค.

Motivation

Achievement

Figure 3

arXiv AI Scientist ๋…ผ๋ฌธ ๋ถ„์„: ๊ตฌํ˜„ ์„ธ๋ถ€์‚ฌํ•ญ ํฌํ•จ ๋…ผ๋ฌธ์˜ ์ธ์šฉ๋„๊ฐ€ 2.4๋ฐฐ ๋†’์Œ(25.0 vs 10.3)

  1. ๊ตฌํ˜„ ๊ฒฉ์ฐจ์˜ ์ •๋Ÿ‰์  ์ž…์ฆ:
    • Claude 3.5 Sonnet์ด PaperBench์—์„œ 1.8% ์ •ํ™•๋„๋งŒ ๋‹ฌ์„ฑ
    • OpenAI o1-preview๊ฐ€ MLE-Bench์—์„œ 16.90% ์„ฑ๋Šฅ์œผ๋กœ ์‹ฌ๊ฐํ•œ ์ฝ”๋“œ ๊ตฌํ˜„ ๋Šฅ๋ ฅ ๋ถ€์กฑ ์‹ค์ฆ
  2. ์ถœํŒ ์ถ”์„ธ์™€ ์˜ํ–ฅ๋„ ๋ถˆ์ผ์น˜ ๊ทœ๋ช…:
    • ๊ตฌํ˜„ ์ƒ์„ธ ํฌํ•จ ๋…ผ๋ฌธ์ด ์ด ์ธ์šฉ ์ˆ˜ 325ํšŒ(ํ‰๊ท  25.0ํšŒ)
    • ๊ตฌํ˜„ ๋ฏธ์ƒ์„ธ ๋…ผ๋ฌธ์ด ์ด ์ธ์šฉ ์ˆ˜ 216ํšŒ(ํ‰๊ท  10.3ํšŒ)๋กœ 2.4๋ฐฐ ๊ฒฉ์ฐจ ํ™•์ธ
    • ๋†’์€ ์˜ํ–ฅ๋„์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  ๊ตฌํ˜„ ์ค‘์‹ฌ ์—ฐ๊ตฌ๊ฐ€ ์ƒ๋Œ€์ ์œผ๋กœ ์ ์Œ์€ ์‹คํ–‰์˜ ์–ด๋ ค์›€์„ ์‹œ์‚ฌ
  3. AI Scientist์˜ ์—„๊ฒฉํ•œ ๊ฐœ๋… ์ •์˜ ์ œ์‹œ:
    • AI Scientist = ์•„์ด๋””์–ด ์ƒ์„ฑ + ๊ฒ€์ฆ ์‹คํ–‰์˜ ์ด์ค‘ ๋Šฅ๋ ฅ ํ•„์š”
    • ๊ธฐ์กด ๊ณผํ•™ ๋„๊ตฌ(scientific tools)์™€ ๊ทผ๋ณธ์  ์ฐจ์ด ๋ช…ํ™•ํ™”

How

Figure 2

๊ณผํ•™ ๋„๊ตฌ vs AI Scientist: ๊ณผํ•™ ๋„๊ตฌ๋Š” ์ธ๊ฐ„ ๊ฐ๋… ํ•˜์— ๋ฐ์ดํ„ฐโ†’๊ฒฐ๊ณผ ์ฒ˜๋ฆฌ, AI Scientist๋Š” ์ž์œจ์ ์œผ๋กœ ์—ฐ๊ตฌ ์งˆ๋ฌธโ†’์†”๋ฃจ์…˜ ๋„์ถœ

๋ฐฉ๋ฒ•๋ก  ๋ฐ ํ‰๊ฐ€ ๊ธฐ๋ฒ•:

Originality

Limitation & Further Study

Evaluation

Novelty: 4/5 Technical Soundness: 4/5 Significance: 5/5 Clarity: 4/5 Overall: 4.25/5

์ดํ‰: ์ด ๋…ผ๋ฌธ์€ AI Scientist์˜ ํ˜„์ฃผ์†Œ๋ฅผ ๊ฐ๊ด€์  ๋ฐ์ดํ„ฐ๋กœ ์ง„๋‹จํ•œ ์ค‘์š”ํ•œ ๋น„ํŒ์  ๋ถ„์„ ์—ฐ๊ตฌ๋กœ, ์•„์ด๋””์–ด ์ƒ์„ฑ์˜ ์„ฑ๊ณต์ด ์‹คํ–‰์˜ ์‹คํŒจ๋กœ ๊ท€๊ฒฐ๋˜๋Š” ๊ทผ๋ณธ ๋ฌธ์ œ๋ฅผ ๋ช…ํ™•ํžˆ ๋“œ๋Ÿฌ๋‚ธ๋‹ค. ์ปค๋ฎค๋‹ˆํ‹ฐ๊ฐ€ ๊ณผ์žฅ๋œ ๋‚™๊ด€๋ก ์„ ๋ฒ—๊ณ  ๊ธฐ์ˆ ์  ํ˜„์‹ค์„ ์ง์‹œํ•˜๊ฒŒ ํ•˜๋Š” ๊ฐ’์ง„ ๊ธฐ์—ฌ์ด๋‚˜, ํ•ด๊ฒฐ์ฑ… ์ œ์‹œ ๊ฐ•ํ™”๋กœ ๋”์šฑ ๊ฑด์„ค์  ์˜ํ–ฅ๋ ฅ์„ ๋ฐœํœ˜ํ•  ์ˆ˜ ์žˆ์„ ๊ฒƒ์œผ๋กœ ๊ธฐ๋Œ€๋œ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
081์˜ ๋…ผ์ง€๋Š” 835 ๋…ผ๋ฌธ์˜ ๋Œ€๊ทœ๋ชจ LLM ๊ธฐ๋ฐ˜ ๊ณผํ•™ ์—ฐ๊ตฌ ์ž๋™ํ™” ํ”„๋ ˆ์ž„์›Œํฌ ํ˜„ํ™ฉ๊ณผ ํ‰๊ฐ€๋ฅผ ๊ธฐ๋ฐ˜ ์‚ผ์•„ ๋น„ํŒ์ ์œผ๋กœ ์ฝ์–ด์•ผ ํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
081์€ LLM ๊ธฐ๋ฐ˜ AI Scientist์˜ ํ•œ๊ณ„๋ฅผ, 718์€ ์ตœ๊ทผ 10๋…„๊ฐ„ AI ๊ธฐ๋ฐ˜ ๊ณผํ•™ ๋ฐœ๊ฒฌ ๊ธ์ • ์‚ฌ๋ก€๋ฅผ ํ†ตํ•ด ์ƒ๋ฐ˜๋œ ๊ด€์ ์„ ์ œ์‹œํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
AI for social science and social science of AI ๋…ผ๋ฌธ์€ AI ๊ธฐ๋ฐ˜ ๊ณผํ•™ ์—ฐ๊ตฌ์˜ ๊ธฐํšŒ์™€ ํ•œ๊ณ„๋ฅผ ๋‹ค์–‘ํ•œ ๋ถ„์•ผ ๊ด€์ ์—์„œ ๋ถ„์„ํ•ด ๋ณด์™„์  ์‹œ๊ฐ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM ๊ธฐ๋ฐ˜ ๊ณผํ•™ ์—ฐ๊ตฌ ์‹œ์Šคํ…œ์˜ ๊ฐ•์ ๊ณผ ์•ฝ์ ์„ ํ‰๊ฐ€ํ•˜๋Š” ์œ ์‚ฌํ•œ ๋น„ํŒ์  ๋ถ„์„ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
AI ๊ณผํ•™ ์—ฐ๊ตฌ ์ž๋™ํ™” ์‹œ์Šคํ…œ์˜ ์‹ค์ œ ๊ตฌํ˜„ ๋Šฅ๋ ฅ๊ณผ ํ•œ๊ณ„๋ฅผ ๋ถ„์„ํ•˜๋Š” ์œ ์‚ฌํ•œ ๊ด€์ ์˜ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ž๋™ํ™”๋œ AI ์—ฐ๊ตฌ ์‹œ์Šคํ…œ์˜ ์‹คํ—˜ ๊ฒ€์ฆ ๋Šฅ๋ ฅ ๋ถ€์กฑ์„ ๋…ผ์˜ํ•˜๋Š” ์œ ์‚ฌํ•œ ์ž…์žฅ์˜ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ž๋™ํ™”๋œ ์ƒ๋ฌผํ•™์  ๋ฐ์ดํ„ฐ ๋ถ„์„ ๋ฐ ๋ฐœ๊ฒฌ ์‹œ์Šคํ…œ์˜ ๊ด€๋ จ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM ๊ธฐ๋ฐ˜ AI ๊ณผํ•™์ž ์‹œ์Šคํ…œ์˜ ๋Šฅ๋ ฅ๊ณผ ํ•œ๊ณ„๋ฅผ ๋‹ค๋ฃจ๋Š” ์œ ์‚ฌํ•œ ํ‰๊ฐ€ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Open Datasets ํ™œ์šฉ์— ๋Œ€ํ•œ ์‹ฌ๋„ ๋ถ„์„๊ณผ ๋‹ฌ๋ฆฌ, ์ž๋™ํ™”๋œ AI ์—ฐ๊ตฌ ์—์ด์ „ํŠธ์— ๊ด€ํ•œ ์‹œ๊ฐ์„ ์ œ์‹œํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
AI ๊ณผํ•™์ž๊ฐ€ ์ธ๊ฐ„์˜ ์—ญํ•  ์—†์ด ์‹คํŒจํ•˜๋Š” ์ด์œ ๋ฅผ ์‹ค์ฆ์ ์œผ๋กœ ๋‹ค๋ฃจ์–ด, ์ธ๊ฐ„ ์ฐธ์—ฌ์˜ ํ•„์š”์„ฑ ๋…ผ์˜์™€ ์ƒ๋ฐ˜๋˜๋Š” ์‚ฌ๋ก€๋ฅผ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
From intention to implementation ๋…ผ๋ฌธ์€ ์ƒ์˜ํ•™ ์—ฐ๊ตฌ์—์„œ AI์˜ ์‹คํ—˜ ๊ตฌํ˜„ ์ œํ•œ์„ ๋ถ„์„ํ•˜์—ฌ, AI Scientist์˜ ๊ตฌํ˜„๋ ฅ ๋ถ€์กฑ ์ฃผ์žฅ๊ณผ ์ง์ ‘์ ์œผ๋กœ ์—ฐ๊ฒฐ๋ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
213๋ฒˆ ๋…ผ๋ฌธ์€ LLM ์‹œ์Šคํ…œ์˜ ๊ตฌ์ƒยทํƒ์ƒ‰์—์„œ ์‹ค์ œ ๊ณผํ•™์  ์‹คํ—˜ ๊ตฌํ˜„๊นŒ์ง€ ์—ฐ๊ณ„๊ฐ€ ์ค‘์š”ํ•จ์„ ์‹ค์ฆ์ ์œผ๋กœ ๊ฐ•์กฐํ•˜์—ฌ, 081๋ฒˆ ์ž…์žฅ์— ๋‹ต๋ณ€์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
๋ฐ˜๋ก /๋น„ํŒ
081 ๋…ผ๋ฌธ์€ LLM์˜ ๊ตฌํ˜„๋ ฅ๊ณผ ํ•œ๊ณ„์— ๋Œ€ํ•œ ๋น„ํŒ์  ์‹œ๊ฐ์„ ์ œ์‹œํ•˜์—ฌ 678 ๋…ผ๋ฌธ์˜ LLM ์‹คํšจ์„ฑ ๋…ผ์˜์— ๊ท ํ˜•์„ ๋”ํ•ฉ๋‹ˆ๋‹ค.
๋ฐ˜๋ก /๋น„ํŒ
AI Scientist์˜ ๊ตฌํ˜„ ํ•œ๊ณ„์™€ ๊ฒฐํ•จ์„ ์ง‘์ค‘ ๋ถ„์„ํ•œ ๋ณธ ๋…ผ๋ฌธ๊ณผ ๋‹ฌ๋ฆฌ, ์„ฑ๊ณต์ ์ธ AI ๊ธฐ๋ฐ˜ ๊ณผํ•™ ์ž๋™ํ™”์˜ ์‹ค์งˆ์  ์กฐ๊ฑด๊ณผ ์‹คํŒจ ์š”์ธ์„ ๊ตฌ์ฒด์ ์œผ๋กœ ์ง€์ ํ•œ๋‹ค.
๋ฐ˜๋ก /๋น„ํŒ
AI ๊ณผํ•™์ž์˜ ์‹ค์ œ ๊ตฌํ˜„ ์—ญ๋Ÿ‰ ํ•œ๊ณ„๋ฅผ ๋น„ํŒ์ ์œผ๋กœ ๋‹ค๋ฃฌ 81๋ฒˆ ๋…ผ๋ฌธ๊ณผ ๋Œ€์กฐ์ ์œผ๋กœ, 680๋ฒˆ ๋…ผ๋ฌธ์€ LLM์˜ ์‹ค์ œ ๋…ผ๋ฌธ ์˜ค๋ฅ˜ ๊ฒ€์ถœ ๊ฐ€๋Šฅ์„ฑ์„ ๋ถ„์„ํ•ฉ๋‹ˆ๋‹ค.
๋ฐ˜๋ก /๋น„ํŒ
081์—์„œ AI Scientist์˜ ์‹คํ—˜์  ๊ตฌํ˜„ ํ•œ๊ณ„๊ฐ€ ์ง€์ ๋˜์ง€๋งŒ, 794์—์„œ๋Š” ์—์ด์ „ํ‹ฑ ์ž๋™์—ฐ๊ตฌ ์‹คํ˜„ ๊ฐ€๋Šฅ์„ฑ์„ ๊ธ์ •์ ์œผ๋กœ ํ‰๊ฐ€ํ•œ๋‹ค.
๋ฐ˜๋ก /๋น„ํŒ
137๋ฒˆ ๋…ผ๋ฌธ์€ AI Scientist์˜ ์ด์ƒ์  ์ž๋™ํ™” ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์‹œํ•˜๋Š” ๋ฐ˜๋ฉด, 081๋ฒˆ์€ ์‹คํ–‰๋ ฅ ๋ถ€์กฑ์˜ ํ•œ๊ณ„๋ฅผ ๋น„ํŒ์ ์œผ๋กœ ๋ถ„์„ํ•ฉ๋‹ˆ๋‹ค.
๋ฐ˜๋ก /๋น„ํŒ
AI Scientist์˜ ๋Šฅ๋ ฅ์„ ๊ธ์ •์ ์œผ๋กœ ํ‰๊ฐ€ํ•˜๋Š” ์ž…์žฅ์œผ๋กœ, AI ๊ณผํ•™ ์—ฐ๊ตฌ ๊ตฌํ˜„ ๋Šฅ๋ ฅ ๋ถ€์กฑ์„ ๋น„ํŒํ•˜๋Š” ๋ณธ ๋…ผ๋ฌธ๊ณผ ๋Œ€๋น„๋˜๋Š” ๊ด€์ ์„ ์ œ์‹œํ•œ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •