SciReplicate-Bench: Benchmarking LLMs in Agent-driven Algorithmic Reproduction from Research Papers

Motivation

Known: 기존의 ML 소프트웨어 엔지니어링 벤치마크(MLE-BENCH, MLAgentBench, ML-BENCH)는 주로 알고리즘 설계나 간단한 구현을 평가하며, Kaggle이나 GitHub 저장소를 기반으로 한다. 최근 LLM 기반 코드 생성이 발전했으나, 학술 논문에서 직접 알고리즘을 재현하는 능력을 평가하는 전용 데이터셋은 부재했다.
Gap: 기존 벤치마크들은 학술 논문의 알고리즘 이해와 저장소의 복잡한 의존성 관리를 동시에 평가하지 못한다. 논문에서 정보 추출, 외부 문헌 참조, 파일 간 의존성 파악 등을 통합적으로 평가할 수 있는 벤치마크가 필요했다.
Why: LLM이 과학 발견을 가속화하는 도구로서 논문의 알고리즘을 실행 가능한 코드로 변환할 수 있다면 재현성을 높이고 과학 발견을 촉진할 수 있다. 이는 계산 검증이 필수적인 많은 분야에서 중요하다.
Approach: 두 단계의 과제: (1) 논문에서 워크플로우, 알고리즘 설명, 하이퍼파라미터 값 등의 필수 정보 추출, (2) 제공된 저장소 내에서 추출된 정보와 논문의 LaTeX 표현을 사용하여 함수나 메서드 구현. Paper Agent와 Code Agent로 구성된 Sci-Reproducer라는 이중 에이전트 시스템을 제안한다.

Achievement

Figure 2: A grouped bar chart illustrating the frequency of tool usage by different models.

SciReplicate-Bench: 2024년 발행된 36개 NLP 논문에서 추출한 100개의 알고리즘 재현 과제로 구성된 벤치마크 구축
Reasoning Graph Accuracy 메트릭: 코드 주석과 구조로부터 생성된 추론 그래프와 참조 그래프 간의 유사도를 정량화하여 알고리즘 이해도 평가
Sci-Reproducer 시스템: Paper Agent와 Code Agent로 구성된 이중 에이전트 프레임워크 제안
종합 평가: 최고 성능 LLM도 39% 실행 정확도만 달성하여 벤치마크의 높은 난이도 입증
분석 결과: 알고리즘 설명 누락이나 불일치가 재현 실패의 주요 원인임을 식별

같이 보면 좋은 논문

기반 연구

MLRC-Bench: Can Language Agents Solve Machine Learning Research Challenges?

AI 에이전트의 알고리즘 재현성과 실험자동화 평가에 초점을 둔 벤치마크와의 비교를 통해 평가방식 진화를 분석할 수 있습니다.

기반 연구

Why AI cannot do good science without humans

Why AI cannot do good science without humans 논문은 AI가 연구 재현성 자동화에서 겪는 인간적 한계를 논의하여, SciReplicate의 알고리즘 재현 평가와 연결된다.

다른 접근

Evaluating large language models trained on code

Evaluating large language models trained on code 논문은 LLM이 논문 기반 알고리즘에서 새로운 코드 생성 작업을 해결하는 역량을 측정하는 대안적 접근을 취합니다.

다른 접근

SciCode: A Research Coding Benchmark Curated by Scientists

SciCode는 과학 연구에서 코드 구현 능력에 대한 벤치마크 데이터셋을 제시하여 SciReplicate-Bench와 직접 비교할 수 있다.

다른 접근

SWE-bench: Can Language Models Resolve Real-World GitHub Issues?

SWE-bench는 실제 소프트웨어 구현 및 문제 해결 과제에서 LLM의 코드 생성 및 이해 역량을 평가하여, SciReplicate-Bench와 코드기반 평가축을 공유한다.

다른 접근

Dynamic Search for Inference-Time Alignment in Diffusion Models

Dynamic multi-agent orchestration and retrieval 논문은 다중 에이전트 기반의 복잡한 AI 연구 작업 자동화에 중점을 두며, 코드 기반 재현성 평가와 상호보완적 접근법을 제시한다.

다른 접근

Autoreproduce: Automatic AI Experiment Reproduction with Paper Lineage

Autoreproduce 논문도 AI 기반의 실험 재현 자동화와 벤치마크 구축을 다루므로, SciReplicate-Bench와 유사 관점에서 정책·기술적 비교가 가능하다.

다른 접근

WebAgent-R1: Training Web Agents via End-to-End Multi-Turn Reinforcement Learning

에이전트 기반 학술적 실험 및 강화학습 실력 평가를 다루어, 웹환경 기반 에이전트의 실제 적용 예시와 성능 비교가 가능하다.

다른 접근

Can language models falsify? evaluating algorithmic reasoning with counterexample creation

언어 모델의 코드 추론 및 알고리즘적 문제 해결 능력을 평가하는 유사한 벤치마크 연구이다.

다른 접근

AutoP2C: An LLM-Based Agent Framework for Code Repository Generation from Multimodal Content in Academic Papers

논문으로부터 코드를 자동으로 생성하는 유사한 접근 방식을 다루는 연구이다.

후속 연구

BioBERT: a pre-trained biomedical language representation model for biomedical text mining

오믹스 데이터 기반 작업에서 AI 과학자 벤치마크로 바이오텍스트 마이닝 및 BioBERT 활용 사례가 범용 모델 평가에 직결됩니다.

후속 연구

Exp-bench: Can ai conduct ai research experiments? arXiv preprint arXiv:2505.24785, 2025.

Exp-bench는 AI가 완전 종료형 연구 실험을 수행할 수 있는지를 평가하므로, SciReplicate-Bench의 알고리즘 재현평가를 확장한 사례이다.

후속 연구

Reimagining urban science: Scaling causal inference with large language models

SciReplicate-Bench는 알고리즘적 재현 실험을 벤치마크화하여, 도시 인과 추론 연구 자동화 시스템의 객관적 평가 및 확장에 참고할 만합니다.

응용 사례

Towards LLM-based Fact Verification on News Claims with a Hierarchical Step-by-Step Prompting Method

Towards LLM-based Fact Verification on News Claims 논문에서 단계적 프롬프트 기반 증거 검증 방식을 활용하여 논문 알고리즘 재현 평가 방식에도 영감을 줄 수 있습니다.

응용 사례

Phi-4 technical report

617(Phi-4)처럼 LLM의 STEM/실험 평가를 다루는 731(SciReplicate-Bench)은 실제 실험적 복제성 검증에 LLM을 적용한 구체적 사례입니다.

SciReplicate-Bench: Benchmarking LLMs in Agent-driven Algorithmic Reproduction from Research Papers

Essence

Motivation

Achievement

How

Originality

Limitation & Further Study

Evaluation

같이 보면 좋은 논문

SciReplicate-Bench: Benchmarking LLMs in Agent-driven Algorithmic Reproduction from Research Papers

Essence

Motivation

Achievement

How

Originality

Limitation & Further Study

Evaluation

같이 보면 좋은 논문

🎧 Audio Overview