Evaluating sakana’s ai scientist for autonomous research: Wishful thinking or an emerging reality towards’ artificial research intelligence’(ari)? arXiv preprint arXiv:2502.14297, 2025.

Essence

본 논문은 Sakana.ai의 AI Scientist 시스템에 대한 독립적인 평가를 수행하며, 연구 자동화를 통한 Artificial Research Intelligence (ARI)의 현재 수준을 체계적으로 분석한다. 완전한 연구 생명주기 자동화를 약속하는 AI Scientist가 실제로는 문헌 검토의 부적절성, 실험 실행의 강건성 부족, 낮은 인용 품질 등 심각한 한계를 가지고 있음을 밝힌다.

Motivation

Known: AI를 통한 과학 발견 자동화는 최근 활발한 연구 분야로, LLMs가 인간 과학자와 비교할 수 있는 연구 아이디어를 생성할 수 있다는 선행 연구가 존재한다. Google의 AI Co-Scientist, ICLR 2025의 agentic AI for science 워크숍 등 이 분야의 성장을 보여주는 움직임들이 있다.
Gap: AI Scientist의 과장된 주장들에도 불구하고 이를 직접 실험을 통해 종합적이고 독립적으로 평가한 연구가 부족했다. 특히 system이 실제로 문헌 검토, 실험 설계 및 실행, 원고 작성을 얼마나 효과적으로 수행하는지에 대한 신뢰성 있는 평가가 없었다.
Why: AI Scientist는 연구 자동화에 있어 가장 야심 찬 주장을 하고 있으며 광범위한 관심을 받고 있다. 정보검색(IR) 커뮤니티를 포함한 학계 전체에 AI가 자동으로 연구를 수행하게 될 가능성이 있기 때문에, 이에 대한 객관적이고 체계적인 평가가 시급하다.
Approach: AI Scientist를 직접 운영하여 연구 아이디어 생성, 실험 설계 및 실행, 원고 작성, 동료 평가 등 전체 연구 생명주기에 걸쳐 시스템의 성능을 평가한다. 생성된 논문들의 질, 인용 수와 출판년도, 코딩 오류율, 수치 결과의 신뢰성, 원고 구조의 완성도 등을 정량적·정성적으로 분석한다.

Achievement

성과 목록:

AI Scientist의 문헌 검토 프로세스가 단순한 keyword search에 의존하며 깊이 있는 종합이 부족함을 입증
12개 제안 실험 중 5개(42%)가 코딩 오류로 실패함을 확인
생성된 원고들의 median citation이 5개로 매우 낮으며 대부분 구식임을 지적
에너지 효율 최적화를 목표로 한 실험이 정작 더 많은 계산 자원을 소비하면서 정확도 개선을 주장하는 등 논리적 모순 사례 적시
하지만 $6-15의 비용으로 3.5시간의 인간 개입만으로 완전한 연구 논문을 생산하는 뛰어난 속도와 비용 효율성을 인정

How

AI Scientist 시스템을 직접 구동하여 여러 연구 주제에 대해 실험 수행
생성된 원고들의 인용, 구조, 수치 결과의 타당성을 정성적으로 검토
제안된 실험들의 코드 분석 및 실행 결과 검증
각 iteration에서 코드 변경량(평균 8% 문자 증가)을 측정하여 시스템의 적응성 평가
생성된 결과들의 재현성과 논리적 일관성 확인

Originality

Artificial Research Intelligence (ARI)라는 새로운 개념을 제안하여 완전 자동화는 아니지만 인간과 구별 불가능한 수준의 AI 연구 능력을 정의
AI Scientist에 대한 첫 번째 종합적인 독립 평가 연구를 수행함으로써 기업의 마케팅 주장 검증
IR 커뮤니티의 관점에서 AI가 자동으로 연구를 수행할 때의 함의를 조직적으로 분석
연구 로그(research log)와 markup languages 같은 표준화된 attribution framework 제안

Limitation & Further Study

평가 대상이 AI Scientist 단일 시스템에 한정되어 다른 경쟁 도구들과의 비교 분석 부재
생성된 논문의 수(n=12)가 상대적으로 작아 통계적 일반화에 한계
특정 ml 도메인에 집중되어 다른 연구 분야(생물학, 화학 등)에서의 시스템 성능 확인 불가
후속 연구: AI Scientist의 개선 버전이나 다른 자동화 연구 도구들에 대한 평가, 더 많은 샘플 크기로의 재평가, 다학제적 연구 분야에서의 성능 평가가 필요함

Evaluation

Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

총평: 본 논문은 Sakana의 AI Scientist에 대한 첫 번째 종합적 독립 평가로서, 과장되지 않은 객관적 분석을 제공한다. 시스템의 현재 한계를 분명히 보여주면서도 연구 자동화 분야에서의 상당한 진전을 인정하며, IR 및 AI 커뮤니티에 중요한 통찰력과 거버넌스 제안을 제시한다.

같이 보면 좋은 논문

기반 연구

The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery

AI Scientist의 개념적 기반이 되는 'The AI Scientist' 논문을 통해 전반적인 fully-automated research 방향성을 이해할 수 있습니다.

다른 접근

The AI Scientist-v2: Workshop-Level Automated Scientific Discovery via Agentic Tree Search

The AI Scientist-v2는 완전 자동화된 과학 발견 시스템의 한계와 강점을 테스트하는 벤치마크로, Sakana.ai AI Scientist의 독립적 평가와 상호 보완적으로 비교할 수 있습니다.

후속 연구

Enabling AI Scientists to Recognize Innovation: A Domain-Agnostic Algorithm for Assessing Novelty

Evaluating sakana’s ai scientist 등 AI 에이전트 기반 혁신성 자동평가 실험에 상대적 이웃 밀도 방법론을 접목해 확장 연구가 이뤄진다.

반론/비판

SciTrust: Evaluating the Trustworthiness of Large Language Models for Science

SciTrust는 대형 언어모델의 신뢰성 문제를 중점적으로 평가하여 AI Scientist의 한계(강건성, 신뢰성 부족) 관련 토론에 이론적 근거를 더합니다.

반론/비판

AutoSOTA: An End-to-End Automated Research System for State-of-the-Art AI Model Discovery

Sakana.ai의 AI Scientist 평가 결과가 연구 자동화 시스템(AutoSOTA)와의 성능 및 한계를 비교하는 데 도움이 됩니다.

반론/비판

Why AI cannot do good science without humans

Why AI cannot do good science without humans 논문은 AI Scientist와 같은 자동화 시스템의 한계를 인간 협력 측면에서 강조하며, Sakana.ai 평가 논문의 비판적 분석을 보완합니다.

Evaluating sakana’s ai scientist for autonomous research: Wishful thinking or an emerging reality towards’ artificial research intelligence’(ari)? arXiv preprint arXiv:2502.14297, 2025.

Essence

Motivation

Achievement

How

Originality

Limitation & Further Study

Evaluation

같이 보면 좋은 논문

🎧 Audio Overview