SciCode: A Research Coding Benchmark Curated by Scientists

같이 보면 좋은 논문

기반 연구

SciBERT: A Pretrained Language Model for Scientific Text

SciBERT와 같은 도메인 특화 언어모델의 사전학습이 SciCode의 과학코딩 벤치마크 기반을 형성합니다.

기반 연구

Evaluating large language models trained on code

코드 생성 언어모델 평가에서 HumanEval 벤치마크는 SciCode 과학자 큐레이션 코딩문제 데이터셋 개발의 이론적·실용적 기반이 됩니다.

기반 연구

Can large language models provide useful feedback on research papers? A large-scale empirical analysis

712의 SciCode 벤치마크는 184의 논문과 같이 LLM이 실제 연구 지원(피드백, 코딩 등) 역할을 평가하는 근거 자료가 된다.

기반 연구

CodePDE: An Inference Framework for LLM-driven PDE Solver Generation

LLM을 활용한 코드 생성 및 과학적 문제 해결의 방법론적 기반을 제공한다.

기반 연구

Can language models falsify? evaluating algorithmic reasoning with counterexample creation

언어 모델의 알고리즘적 추론 능력 평가를 위한 방법론적 기반을 제공하는 연구이다.

기반 연구

ResearchCodeAgent: An LLM Multi-Agent System for Automated Codification of Research Methodologies

712번 논문은 머신러닝 및 과학적 코드 구현 자동화를 벤치마크하며, 670번의 자동화된 논문→코드 변환 프레임워크의 성능평가 지표 및 구조적 설계에 참조가 된다.

기반 연구

Systematic Framework of Application Methods for Large Language Models in Language Sciences

Systematic Framework of Application Methods for Large Language Models 논문은 LLM의 응용법 평가와 연계하여 SciCode 벤치마크 활용 기반을 제공합니다.

다른 접근

SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models

SciBench는 대학 수준 과학 문제 해결 벤치마크로, SciCode의 연구 수준 과학 코딩 평가와 함께 과학 AI 능력 평가의 두 가지 중요한 관점을 제공한다.

다른 접근

Streamlining the review process: AI-generated annotations in research manuscripts

776 논문은 AI 기반 논문 리뷰 자동화 방법을 다루며, SciCode(712)와 함께 AI가 실제 연구·리뷰 업무를 어떻게 지원하는지 비교 분석에 적합하다.

다른 접근

Data Interpreter: An LLM Agent For Data Science

Data Interpreter 논문은 LLM 기반 데이터 분석 에이전트로 실코드 활용성에 초점을 맞추고 있어 SciCode의 과학 연구 현장 평가지향과 보완적으로 연결됩니다.

다른 접근

ScholarChemQA: Unveiling the Power of Language Models in Chemical Research Question Answering

SciCode 논문은 과학 연구에서 코드 작성 능력 LLM 평가를 중점적으로 다루며, 화학 QA와 달리 프로그래밍 중심 AI 문제 해결의 다른 응용을 보여준다.

다른 접근

A Comprehensive Survey of Scientific Large Language Models and Their Applications in Scientific Discovery

과학 분야 LLM을 종합적으로 조사하는 유사한 서베이 연구이다.

다른 접근

SWE-bench: Can Language Models Resolve Real-World GitHub Issues?

SWE-bench가 실제 소프트웨어 엔지니어링 능력을 평가하는 반면, SciCode는 과학 연구 코딩이라는 전문 도메인에서 LLM의 한계를 평가한다.

다른 접근

ResearchCodeBench: Benchmarking LLMs on Implementing Novel Machine Learning Research Code

ResearchCodeBench 논문은 과학 연구 코딩 태스크에서 LLM/에이전트 능력을 평가하는 다른 프레임워크를 제공합니다.

다른 접근

SciReplicate-Bench: Benchmarking LLMs in Agent-driven Algorithmic Reproduction from Research Papers

SciCode는 과학 연구에서 코드 구현 능력에 대한 벤치마크 데이터셋을 제시하여 SciReplicate-Bench와 직접 비교할 수 있다.

다른 접근

MLRC-Bench: Can Language Agents Solve Machine Learning Research Challenges?

연구자 주도의 코드 구현 및 성능평가 기반 ML 연구 문제 해결능력 평가를 다루므로, 자동화 언어 에이전트와 인간 대결 구조를 비교할 수 있습니다.

다른 접근

GraphInstruct: A Progressive Benchmark for Diagnosing Capability Gaps in LLM Graph Generation

712는 LLM의 복잡한 추론 능력을 평가하는 다른 접근법을 제시하여 GraphInstruct의 대안적 비교 대상이 된다.

후속 연구

Evaluating large language models trained on code

SciCode는 과학 연구 코딩 능력을 평가하는 고난도 벤치마크로, HumanEval의 기본 코드 생성 평가를 과학 연구 영역으로 확장한다.

후속 연구

Augmented Language Models: a Survey

Augmented Language Models 논문은 외부 도구 및 환경과 결합된 LLM 응용을 폭넓게 정리하여 SciCode의 벤치마크 활용 방향을 제시합니다.

후속 연구

LLM-SRBench: A New Benchmark for Scientific Equation Discovery with Large Language Models

LLM-SRBench는 SciCode와 마찬가지로 과학 연구 실무 능력을 평가하나, 방정식 발견 등 수리적 과제에 특화된 점에서 상호보완적입니다.

후속 연구

AutoP2C: An LLM-Based Agent Framework for Code Repository Generation from Multimodal Content in Academic Papers

SciCode 논문은 실제 연구자의 코딩 벤치마크를 통해 논문 코드 자동화 프레임워크의 평가와 응용성을 확장합니다.

응용 사례

SciBERT: A Pretrained Language Model for Scientific Text

SciCode 논문은 SciBERT 등 과학 특화 LLM의 실제 과학 연구 코드 태스크 평가에 응용된 구체적 사례입니다.

응용 사례

StarCoder: may the source be with you! arXiv preprint arXiv:2305.06161, 2023.

SciCode 벤치마크를 통해 StarCoder와 같은 오픈소스 코드 LLM이 과학 연구 코딩에서 어떤 능력을 발휘하는지 평가할 수 있다.

응용 사례

StarCoder 2 and the Stack v2: The next generation

SciCode 벤치마크는 StarCoder2와 같은 코드 LLM이 실제 과학 연구 코딩에서 어떤 성능을 보이는지 평가하는 실제 응용 사례를 제공한다.

SciCode: A Research Coding Benchmark Curated by Scientists

Essence

Motivation

Achievement

How

Originality

Limitation & Further Study

Evaluation

같이 보면 좋은 논문

SciCode: A Research Coding Benchmark Curated by Scientists

Essence

Motivation

Achievement

How

Originality

Limitation & Further Study

Evaluation

같이 보면 좋은 논문

🎧 Audio Overview