SciHorizon: Benchmarking AI-for-Science Readiness from Scientific Data to Large Language Models

저자: Chuan Qin, Xin Chen, Chengrui Wang, Pengmin Wu, Xi Chen | 날짜: 2025.03 | DOI: 10.48550/arXiv.2503.13503 📄 PDF

Essence

Fig. 2: Radar charts of top LLMs’ performance across disciplines. This figure illus-

본 논문은 AI-for-Science의 준비도를 평가하기 위한 포괄적인 벤치마킹 프레임워크인 SciHorizon을 제시한다. 과학 데이터의 AI 준비도(Quality, FAIRness, Explainability, Compliance의 4개 차원)와 LLM의 과학 능력(Knowledge, Understanding, Reasoning, Multimodality, Values의 5개 지표)을 체계적으로 평가한다.

Motivation

Known: 기존 AI readiness 평가 프레임워크들(예: Hiniduma et al.의 taxonomy, FAIR principles, ESIP Data Readiness Cluster 체크리스트)과 과학 도메인 벤치마크들(GSM8K, MATH, ScienceQA, JEEBench 등)이 산재되어 있으나 통합적이고 포괄적인 평가 체계가 부족한 상황이다.
Gap: 기존 연구들은 다음의 한계를 갖는다: (1) 과학 데이터의 AI 준비도 평가가 특정 분야에 국한되거나 포괄적이지 못함, (2) LLM 벤치마크가 대부분 특정 학문 분야에만 집중하며 다학제적 통합 평가 프레임워크가 부족함, (3) LLM의 과학적 가치관(학문적 정직성, 공정성, 투명성)에 대한 체계적인 평가가 없음.
Why: AI-for-Science 시대에 고품질의 과학 데이터와 능력 있는 LLM 모두가 필수적이므로, 이들을 통합적으로 평가할 수 있는 프레임워크가 필요하다. 또한 다양한 학문 분야의 데이터 자원과 AI 모델의 준비도를 체계적으로 파악하는 것이 과학적 진보를 가속화하는 데 중요하다.
Approach: SciHorizon은 두 가지 핵심 컴포넌트로 구성된다: (1) 과학 데이터 평가—Quality(Completeness, Accuracy, Consistency, Timeliness), FAIRness, Explainability, Compliance의 4개 차원과 15개 세부차원으로 약 1,500개의 데이터셋(2018-2023년 peer-reviewed journal의 데이터 자원 논문) 분석, (2) LLM 평가—Knowledge, Understanding, Reasoning, Multimodality, Values의 5개 지표 기반 16개 평가 차원으로 20개 이상의 오픈소스/폐쇄형 LLM 평가.

Achievement

Fig. 1: Overview of the SciHorizon platform.

주요 성과: - 통합 평가 프레임워크 제시: 과학 데이터와 LLM을 아우르는 포괄적이고 계층적인 평가 체계 개발, - AI-ready 데이터셋 추천 제공: Earth Sciences와 Life Sciences 분야의 엄선된 데이터셋 추천 목록 제시, - 다학제적 LLM 평가: 수학, 물리, 화학, 생명과학, 지구우주과학 등 5개 분야를 아우르는 벤치마크 구축, - 공개 플랫폼 제공: www.scihorizon.cn에서 모든 평가 결과와 데이터 공개, - 과학적 가치관 평가 도입: 기존 벤치마크에서 부재했던 academic integrity, fairness, transparency 등의 평가 차원 추가.

How

Fig. 1: Overview of the SciHorizon platform.

• 2018-2023년 peer-reviewed journal(Scientific Data, ESSD 등)의 데이터 자원 논문으로부터 약 1,500개 데이터셋 수집 및 분석, • Quality, FAIRness, Explainability, Compliance 4개 주요 차원별로 세부 평가 지표 설계 및 적용, • Knowledge, Understanding, Reasoning, Multimodality, Values 5개 핵심 지표를 기반으로 16개 평가 차원 개발, • 오픈소스(Llama, Mistral 등) 및 폐쇄형(GPT-4, Claude 등) 20개 이상의 대표적 LLM에 대해 체계적 벤치마킹 수행, • 평가 결과를 온라인 플랫폼을 통해 공개 및 상호작용 가능하게 제공.

Originality

• 과학 데이터와 LLM을 통합하는 포괄적 벤치마킹 프레임워크를 처음으로 제시, • 기존 Data Readiness 평가와 FAIR principles을 과학 도메인의 AI 준비도 맥락에서 재구성, • 과학적 가치관(academic integrity, fairness, transparency)을 LLM 평가에 처음으로 체계적으로 포함, • 다학제적 과학 분야를 아우르는 통합 벤치마크 스위트 개발.

Limitation & Further Study

• 데이터 커버리지: 2018-2023년 peer-reviewed journal 중심으로 수집되어 회색 문헌(grey literature)이나 특정 학문 분야의 대규모 데이터가 누락될 수 있음, • LLM 선정: 주요 오픈소스/폐쇄형 20개 모델 중심으로 평가되어 신규 모델이나 소규모 도메인 특화 모델에 대한 평가 부족 가능, • 정량화의 어려움: FAIRness, Explainability, Compliance 등 일부 차원은 주관적 평가 요소를 포함할 수 있음, • 후속 연구 방향: (1) 더 세밀한 과학 도메인별 특화 평가 기준 개발, (2) 동적 벤치마크 업데이트 메커니즘 구축, (3) 평가 차원별 가중치 설정 방법론 연구.

Evaluation

Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

총평: SciHorizon은 AI-for-Science 분야의 준비도를 종합적으로 평가하기 위한 중요한 프레임워크를 제시하며, 과학 데이터의 AI 준비도와 LLM의 과학적 역량을 체계적으로 벤치마킹할 수 있는 통합 플랫폼을 제공한다. 다학제적 접근과 공개 리소스 제공을 통해 AI-for-Science 커뮤니티에 유의미한 기여를 할 것으로 기대된다.

같이 보면 좋은 논문

기반 연구

Hypothesis Generation with Large Language Models

419는 LLM을 활용한 과학적 가설 생성 연구로, 724의 AI4Science readiness 평가의 개념적 기반을 형성합니다.

기반 연구

AIRS-Bench: a Suite of Tasks for Frontier AI Research Science Agents

724의 SciHorizon은 AIRS-Bench(090)와 같이 다양한 과학적 작업 벤치마크 설계의 토대가 되고, 평가 프레임워크에서 기준, 척도 설정 등에 크게 기여합니다.

기반 연구

Measuring Mid-2025 LLM-Assistance on Novice Performance in Biology

724 논문은 인간-LLM 협업의 과학적 생산성을 추적·정량화하는 프레임워크를 제공하여, 3162 효능 평가의 이론적 근거가 됩니다.

다른 접근

SciSciNet: A large-scale open data lake for the science of science research

대규모 과학 데이터 구축 및 활용에 대한 대안적 접근법을 제시한다.

다른 접근

Discoverybench: Towards data-driven discovery with large language models

LLM을 활용한 자동화된 연구 발견 파이프라인의 대안적 구현 방식을 탐구한다.

다른 접근

REFORMS: Consensus-based Recommendations for Machine-learning-based Science

머신러닝 기반 과학 연구의 재현성과 타당성을 다른 방법론적 프레임워크로 접근한 연구이다.

다른 접근

AAAR-1.0: Assessing AI's Potential to Assist Research

041은 AI가 과학 연구 보조에서 어떤 잠재력을 보이는지를 평가하며, 724의 AI-for-Science 준비도 벤치마킹 프레임워크와 유사 목적이지만 접근 방식이 다릅니다.

다른 접근

Bridging social psychology and llm reasoning: Conflict-aware meta-review generation via cognitive alignment

LLM 기반 동료심사 자동화에서 인지 편향 완화와 객관성 향상을 위한 접근법을 제시한다.

다른 접근

ScienceAgentBench: Toward Rigorous Assessment of Language Agents for Data-Driven Scientific Discovery

AI4Science 분야별 LLM 평가를 위한 벤치마크 제안이라는 동일 주제로 Rigorous Assessment 프레임워크를 비교할 수 있다.

다른 접근

A Survey on Hypothesis Generation for Scientific Discovery in the Era of Large Language Models

031은 과학적 발견의 가설 생성 분야에서 LLM 벤치마킹을 다루고 있어 724의 '과학 AI 준비도' 평가의 한 분야(가설 생성)에 초점을 맞춘 대안 연구입니다.

다른 접근

Risk and Artificial Intelligence Adoption: A Scientometric and Thematic Evolution Analysis Based on Scopus and Web of Science (1990-2025)

AI 도입에 관한 다른 관점의 분석을 제공하여 위험 요인 연구와 대조적 시각을 제시한다.

다른 접근

Publish and Perish: How AI-Accelerated Writing Without Proportional Verification Investment Degrades Scientific Knowledge

과학 출판 시스템의 제약과 품질 저하 문제를 대안적 관점에서 분석한다.

후속 연구

Transforming Science with Large Language Models: A Survey on AI-assisted Scientific Discovery, Experimentation, Content Generation, and Evaluation

840은 대규모 언어모델이 과학 발전에 미치는 영향을 포괄적으로 조사하며, 724이 제시한 평가 프레임워크를 확장된 맥락에서 해석할 수 있게 해줍니다.

후속 연구

AIRS-Bench: a Suite of Tasks for Frontier AI Research Science Agents

090(AIRS-Bench)는 LLM 기반 AI 연구에이전트의 작업 성능을 재현성 있게 평가하는 종합 벤치마크로, 724의 과학 AI 평가 프레임워크(SciHorizon)를 더욱 구체적이고 실질적으로 실행하는 사례입니다.

후속 연구

How Artificial Intelligence Shapes Science: Evidence from AlphaFold

724 논문은 AlphaFold 도입 이후 과학 연구 생산성 및 창의성 변화를 계량적으로 분석하여 3130의 실증 연구에 확장적 시각을 제공합니다.

응용 사례

Through the lens of core competency: Survey on evaluation of large language models

810의 LLM 평가 핵심 역량 프레임워크는 724의 과학 AI 준비도 통합 벤치마크(SciHorizon) 평가 척도를 실제로 적용/구체화하는 이론적 토대로 기능합니다.

응용 사례

Semi-Supervised 2D Human Pose Estimation Driven by Position Inconsistency Pseudo Label Correction Module

748 논문은 신체 자세 인식 벤치마크로, 724의 다양한 과학 평가 프레임워크 내 개별 태스크 평가 사례로 참고할 수 있습니다.

응용 사례

Developing ChemDFM as a large language foundation model for chemistry

실제 화학 대형모델의 실험적 검증 및 벤치마크 결과를 통해 준비도 평가 체계의 현실 적용 사례를 보완한다.

← 목록으로 돌아가기