SciHorizon: Benchmarking AI-for-Science Readiness from Scientific Data to Large Language Models
์ ์: Chuan Qin, Xin Chen, Chengrui Wang, Pengmin Wu, Xi Chen | ๋ ์ง: 2025.03 | DOI: 10.48550/arXiv.2503.13503 📄 PDF
Essence
Fig. 2: Radar charts of top LLMsโ performance across disciplines. This figure illus-
๋ณธ ๋
ผ๋ฌธ์ AI-for-Science์ ์ค๋น๋๋ฅผ ํ๊ฐํ๊ธฐ ์ํ ํฌ๊ด์ ์ธ ๋ฒค์น๋งํน ํ๋ ์์ํฌ์ธ SciHorizon์ ์ ์ํ๋ค. ๊ณผํ ๋ฐ์ดํฐ์ AI ์ค๋น๋(Quality, FAIRness, Explainability, Compliance์ 4๊ฐ ์ฐจ์)์ LLM์ ๊ณผํ ๋ฅ๋ ฅ(Knowledge, Understanding, Reasoning, Multimodality, Values์ 5๊ฐ ์งํ)์ ์ฒด๊ณ์ ์ผ๋ก ํ๊ฐํ๋ค.
Motivation
- Known: ๊ธฐ์กด AI readiness ํ๊ฐ ํ๋ ์์ํฌ๋ค(์: Hiniduma et al.์ taxonomy, FAIR principles, ESIP Data Readiness Cluster ์ฒดํฌ๋ฆฌ์คํธ)๊ณผ ๊ณผํ ๋๋ฉ์ธ ๋ฒค์น๋งํฌ๋ค(GSM8K, MATH, ScienceQA, JEEBench ๋ฑ)์ด ์ฐ์ฌ๋์ด ์์ผ๋ ํตํฉ์ ์ด๊ณ ํฌ๊ด์ ์ธ ํ๊ฐ ์ฒด๊ณ๊ฐ ๋ถ์กฑํ ์ํฉ์ด๋ค.
- Gap: ๊ธฐ์กด ์ฐ๊ตฌ๋ค์ ๋ค์์ ํ๊ณ๋ฅผ ๊ฐ๋๋ค: (1) ๊ณผํ ๋ฐ์ดํฐ์ AI ์ค๋น๋ ํ๊ฐ๊ฐ ํน์ ๋ถ์ผ์ ๊ตญํ๋๊ฑฐ๋ ํฌ๊ด์ ์ด์ง ๋ชปํจ, (2) LLM ๋ฒค์น๋งํฌ๊ฐ ๋๋ถ๋ถ ํน์ ํ๋ฌธ ๋ถ์ผ์๋ง ์ง์คํ๋ฉฐ ๋คํ์ ์ ํตํฉ ํ๊ฐ ํ๋ ์์ํฌ๊ฐ ๋ถ์กฑํจ, (3) LLM์ ๊ณผํ์ ๊ฐ์น๊ด(ํ๋ฌธ์ ์ ์ง์ฑ, ๊ณต์ ์ฑ, ํฌ๋ช
์ฑ)์ ๋ํ ์ฒด๊ณ์ ์ธ ํ๊ฐ๊ฐ ์์.
- Why: AI-for-Science ์๋์ ๊ณ ํ์ง์ ๊ณผํ ๋ฐ์ดํฐ์ ๋ฅ๋ ฅ ์๋ LLM ๋ชจ๋๊ฐ ํ์์ ์ด๋ฏ๋ก, ์ด๋ค์ ํตํฉ์ ์ผ๋ก ํ๊ฐํ ์ ์๋ ํ๋ ์์ํฌ๊ฐ ํ์ํ๋ค. ๋ํ ๋ค์ํ ํ๋ฌธ ๋ถ์ผ์ ๋ฐ์ดํฐ ์์๊ณผ AI ๋ชจ๋ธ์ ์ค๋น๋๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ํ์
ํ๋ ๊ฒ์ด ๊ณผํ์ ์ง๋ณด๋ฅผ ๊ฐ์ํํ๋ ๋ฐ ์ค์ํ๋ค.
- Approach: SciHorizon์ ๋ ๊ฐ์ง ํต์ฌ ์ปดํฌ๋ํธ๋ก ๊ตฌ์ฑ๋๋ค: (1) ๊ณผํ ๋ฐ์ดํฐ ํ๊ฐโQuality(Completeness, Accuracy, Consistency, Timeliness), FAIRness, Explainability, Compliance์ 4๊ฐ ์ฐจ์๊ณผ 15๊ฐ ์ธ๋ถ์ฐจ์์ผ๋ก ์ฝ 1,500๊ฐ์ ๋ฐ์ดํฐ์
(2018-2023๋
peer-reviewed journal์ ๋ฐ์ดํฐ ์์ ๋
ผ๋ฌธ) ๋ถ์, (2) LLM ํ๊ฐโKnowledge, Understanding, Reasoning, Multimodality, Values์ 5๊ฐ ์งํ ๊ธฐ๋ฐ 16๊ฐ ํ๊ฐ ์ฐจ์์ผ๋ก 20๊ฐ ์ด์์ ์คํ์์ค/ํ์ํ LLM ํ๊ฐ.
Achievement
Fig. 1: Overview of the SciHorizon platform.
์ฃผ์ ์ฑ๊ณผ: - ํตํฉ ํ๊ฐ ํ๋ ์์ํฌ ์ ์: ๊ณผํ ๋ฐ์ดํฐ์ LLM์ ์์ฐ๋ฅด๋ ํฌ๊ด์ ์ด๊ณ ๊ณ์ธต์ ์ธ ํ๊ฐ ์ฒด๊ณ ๊ฐ๋ฐ, - AI-ready ๋ฐ์ดํฐ์
์ถ์ฒ ์ ๊ณต: Earth Sciences์ Life Sciences ๋ถ์ผ์ ์์ ๋ ๋ฐ์ดํฐ์
์ถ์ฒ ๋ชฉ๋ก ์ ์, - ๋คํ์ ์ LLM ํ๊ฐ: ์ํ, ๋ฌผ๋ฆฌ, ํํ, ์๋ช
๊ณผํ, ์ง๊ตฌ์ฐ์ฃผ๊ณผํ ๋ฑ 5๊ฐ ๋ถ์ผ๋ฅผ ์์ฐ๋ฅด๋ ๋ฒค์น๋งํฌ ๊ตฌ์ถ, - ๊ณต๊ฐ ํ๋ซํผ ์ ๊ณต: www.scihorizon.cn์์ ๋ชจ๋ ํ๊ฐ ๊ฒฐ๊ณผ์ ๋ฐ์ดํฐ ๊ณต๊ฐ, - ๊ณผํ์ ๊ฐ์น๊ด ํ๊ฐ ๋์
: ๊ธฐ์กด ๋ฒค์น๋งํฌ์์ ๋ถ์ฌํ๋ academic integrity, fairness, transparency ๋ฑ์ ํ๊ฐ ์ฐจ์ ์ถ๊ฐ.
How
Fig. 1: Overview of the SciHorizon platform.
โข 2018-2023๋
peer-reviewed journal(Scientific Data, ESSD ๋ฑ)์ ๋ฐ์ดํฐ ์์ ๋
ผ๋ฌธ์ผ๋ก๋ถํฐ ์ฝ 1,500๊ฐ ๋ฐ์ดํฐ์
์์ง ๋ฐ ๋ถ์, โข Quality, FAIRness, Explainability, Compliance 4๊ฐ ์ฃผ์ ์ฐจ์๋ณ๋ก ์ธ๋ถ ํ๊ฐ ์งํ ์ค๊ณ ๋ฐ ์ ์ฉ, โข Knowledge, Understanding, Reasoning, Multimodality, Values 5๊ฐ ํต์ฌ ์งํ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก 16๊ฐ ํ๊ฐ ์ฐจ์ ๊ฐ๋ฐ, โข ์คํ์์ค(Llama, Mistral ๋ฑ) ๋ฐ ํ์ํ(GPT-4, Claude ๋ฑ) 20๊ฐ ์ด์์ ๋ํ์ LLM์ ๋ํด ์ฒด๊ณ์ ๋ฒค์น๋งํน ์ํ, โข ํ๊ฐ ๊ฒฐ๊ณผ๋ฅผ ์จ๋ผ์ธ ํ๋ซํผ์ ํตํด ๊ณต๊ฐ ๋ฐ ์ํธ์์ฉ ๊ฐ๋ฅํ๊ฒ ์ ๊ณต.
Originality
โข ๊ณผํ ๋ฐ์ดํฐ์ LLM์ ํตํฉํ๋ ํฌ๊ด์ ๋ฒค์น๋งํน ํ๋ ์์ํฌ๋ฅผ ์ฒ์์ผ๋ก ์ ์, โข ๊ธฐ์กด Data Readiness ํ๊ฐ์ FAIR principles์ ๊ณผํ ๋๋ฉ์ธ์ AI ์ค๋น๋ ๋งฅ๋ฝ์์ ์ฌ๊ตฌ์ฑ, โข ๊ณผํ์ ๊ฐ์น๊ด(academic integrity, fairness, transparency)์ LLM ํ๊ฐ์ ์ฒ์์ผ๋ก ์ฒด๊ณ์ ์ผ๋ก ํฌํจ, โข ๋คํ์ ์ ๊ณผํ ๋ถ์ผ๋ฅผ ์์ฐ๋ฅด๋ ํตํฉ ๋ฒค์น๋งํฌ ์ค์ํธ ๊ฐ๋ฐ.
Limitation & Further Study
โข ๋ฐ์ดํฐ ์ปค๋ฒ๋ฆฌ์ง: 2018-2023๋
peer-reviewed journal ์ค์ฌ์ผ๋ก ์์ง๋์ด ํ์ ๋ฌธํ(grey literature)์ด๋ ํน์ ํ๋ฌธ ๋ถ์ผ์ ๋๊ท๋ชจ ๋ฐ์ดํฐ๊ฐ ๋๋ฝ๋ ์ ์์, โข LLM ์ ์ : ์ฃผ์ ์คํ์์ค/ํ์ํ 20๊ฐ ๋ชจ๋ธ ์ค์ฌ์ผ๋ก ํ๊ฐ๋์ด ์ ๊ท ๋ชจ๋ธ์ด๋ ์๊ท๋ชจ ๋๋ฉ์ธ ํนํ ๋ชจ๋ธ์ ๋ํ ํ๊ฐ ๋ถ์กฑ ๊ฐ๋ฅ, โข ์ ๋ํ์ ์ด๋ ค์: FAIRness, Explainability, Compliance ๋ฑ ์ผ๋ถ ์ฐจ์์ ์ฃผ๊ด์ ํ๊ฐ ์์๋ฅผ ํฌํจํ ์ ์์, โข ํ์ ์ฐ๊ตฌ ๋ฐฉํฅ: (1) ๋ ์ธ๋ฐํ ๊ณผํ ๋๋ฉ์ธ๋ณ ํนํ ํ๊ฐ ๊ธฐ์ค ๊ฐ๋ฐ, (2) ๋์ ๋ฒค์น๋งํฌ ์
๋ฐ์ดํธ ๋ฉ์ปค๋์ฆ ๊ตฌ์ถ, (3) ํ๊ฐ ์ฐจ์๋ณ ๊ฐ์ค์น ์ค์ ๋ฐฉ๋ฒ๋ก ์ฐ๊ตฌ.
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: SciHorizon์ AI-for-Science ๋ถ์ผ์ ์ค๋น๋๋ฅผ ์ข
ํฉ์ ์ผ๋ก ํ๊ฐํ๊ธฐ ์ํ ์ค์ํ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ฉฐ, ๊ณผํ ๋ฐ์ดํฐ์ AI ์ค๋น๋์ LLM์ ๊ณผํ์ ์ญ๋์ ์ฒด๊ณ์ ์ผ๋ก ๋ฒค์น๋งํนํ ์ ์๋ ํตํฉ ํ๋ซํผ์ ์ ๊ณตํ๋ค. ๋คํ์ ์ ์ ๊ทผ๊ณผ ๊ณต๊ฐ ๋ฆฌ์์ค ์ ๊ณต์ ํตํด AI-for-Science ์ปค๋ฎค๋ํฐ์ ์ ์๋ฏธํ ๊ธฐ์ฌ๋ฅผ ํ ๊ฒ์ผ๋ก ๊ธฐ๋๋๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
419๋ LLM์ ํ์ฉํ ๊ณผํ์ ๊ฐ์ค ์์ฑ ์ฐ๊ตฌ๋ก, 724์ AI4Science readiness ํ๊ฐ์ ๊ฐ๋
์ ๊ธฐ๋ฐ์ ํ์ฑํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
724์ SciHorizon์ AIRS-Bench(090)์ ๊ฐ์ด ๋ค์ํ ๊ณผํ์ ์์
๋ฒค์น๋งํฌ ์ค๊ณ์ ํ ๋๊ฐ ๋๊ณ , ํ๊ฐ ํ๋ ์์ํฌ์์ ๊ธฐ์ค, ์ฒ๋ ์ค์ ๋ฑ์ ํฌ๊ฒ ๊ธฐ์ฌํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
724 ๋
ผ๋ฌธ์ ์ธ๊ฐ-LLM ํ์
์ ๊ณผํ์ ์์ฐ์ฑ์ ์ถ์ ยท์ ๋ํํ๋ ํ๋ ์์ํฌ๋ฅผ ์ ๊ณตํ์ฌ, 3162 ํจ๋ฅ ํ๊ฐ์ ์ด๋ก ์ ๊ทผ๊ฑฐ๊ฐ ๋ฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋๊ท๋ชจ ๊ณผํ ๋ฐ์ดํฐ ๊ตฌ์ถ ๋ฐ ํ์ฉ์ ๋ํ ๋์์ ์ ๊ทผ๋ฒ์ ์ ์ํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM์ ํ์ฉํ ์๋ํ๋ ์ฐ๊ตฌ ๋ฐ๊ฒฌ ํ์ดํ๋ผ์ธ์ ๋์์ ๊ตฌํ ๋ฐฉ์์ ํ๊ตฌํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋จธ์ ๋ฌ๋ ๊ธฐ๋ฐ ๊ณผํ ์ฐ๊ตฌ์ ์ฌํ์ฑ๊ณผ ํ๋น์ฑ์ ๋ค๋ฅธ ๋ฐฉ๋ฒ๋ก ์ ํ๋ ์์ํฌ๋ก ์ ๊ทผํ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
041์ AI๊ฐ ๊ณผํ ์ฐ๊ตฌ ๋ณด์กฐ์์ ์ด๋ค ์ ์ฌ๋ ฅ์ ๋ณด์ด๋์ง๋ฅผ ํ๊ฐํ๋ฉฐ, 724์ AI-for-Science ์ค๋น๋ ๋ฒค์น๋งํน ํ๋ ์์ํฌ์ ์ ์ฌ ๋ชฉ์ ์ด์ง๋ง ์ ๊ทผ ๋ฐฉ์์ด ๋ค๋ฆ
๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM ๊ธฐ๋ฐ ๋๋ฃ์ฌ์ฌ ์๋ํ์์ ์ธ์ง ํธํฅ ์ํ์ ๊ฐ๊ด์ฑ ํฅ์์ ์ํ ์ ๊ทผ๋ฒ์ ์ ์ํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
AI4Science ๋ถ์ผ๋ณ LLM ํ๊ฐ๋ฅผ ์ํ ๋ฒค์น๋งํฌ ์ ์์ด๋ผ๋ ๋์ผ ์ฃผ์ ๋ก Rigorous Assessment ํ๋ ์์ํฌ๋ฅผ ๋น๊ตํ ์ ์๋ค.
๋ค๋ฅธ ์ ๊ทผ
031์ ๊ณผํ์ ๋ฐ๊ฒฌ์ ๊ฐ์ค ์์ฑ ๋ถ์ผ์์ LLM ๋ฒค์น๋งํน์ ๋ค๋ฃจ๊ณ ์์ด 724์ '๊ณผํ AI ์ค๋น๋' ํ๊ฐ์ ํ ๋ถ์ผ(๊ฐ์ค ์์ฑ)์ ์ด์ ์ ๋ง์ถ ๋์ ์ฐ๊ตฌ์
๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
AI ๋์
์ ๊ดํ ๋ค๋ฅธ ๊ด์ ์ ๋ถ์์ ์ ๊ณตํ์ฌ ์ํ ์์ธ ์ฐ๊ตฌ์ ๋์กฐ์ ์๊ฐ์ ์ ์ํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
๊ณผํ ์ถํ ์์คํ
์ ์ ์ฝ๊ณผ ํ์ง ์ ํ ๋ฌธ์ ๋ฅผ ๋์์ ๊ด์ ์์ ๋ถ์ํ๋ค.
ํ์ ์ฐ๊ตฌ
840์ ๋๊ท๋ชจ ์ธ์ด๋ชจ๋ธ์ด ๊ณผํ ๋ฐ์ ์ ๋ฏธ์น๋ ์ํฅ์ ํฌ๊ด์ ์ผ๋ก ์กฐ์ฌํ๋ฉฐ, 724์ด ์ ์ํ ํ๊ฐ ํ๋ ์์ํฌ๋ฅผ ํ์ฅ๋ ๋งฅ๋ฝ์์ ํด์ํ ์ ์๊ฒ ํด์ค๋๋ค.
ํ์ ์ฐ๊ตฌ
090(AIRS-Bench)๋ LLM ๊ธฐ๋ฐ AI ์ฐ๊ตฌ์์ด์ ํธ์ ์์
์ฑ๋ฅ์ ์ฌํ์ฑ ์๊ฒ ํ๊ฐํ๋ ์ข
ํฉ ๋ฒค์น๋งํฌ๋ก, 724์ ๊ณผํ AI ํ๊ฐ ํ๋ ์์ํฌ(SciHorizon)๋ฅผ ๋์ฑ ๊ตฌ์ฒด์ ์ด๊ณ ์ค์ง์ ์ผ๋ก ์คํํ๋ ์ฌ๋ก์
๋๋ค.
ํ์ ์ฐ๊ตฌ
724 ๋
ผ๋ฌธ์ AlphaFold ๋์
์ดํ ๊ณผํ ์ฐ๊ตฌ ์์ฐ์ฑ ๋ฐ ์ฐฝ์์ฑ ๋ณํ๋ฅผ ๊ณ๋์ ์ผ๋ก ๋ถ์ํ์ฌ 3130์ ์ค์ฆ ์ฐ๊ตฌ์ ํ์ฅ์ ์๊ฐ์ ์ ๊ณตํฉ๋๋ค.
์์ฉ ์ฌ๋ก
810์ LLM ํ๊ฐ ํต์ฌ ์ญ๋ ํ๋ ์์ํฌ๋ 724์ ๊ณผํ AI ์ค๋น๋ ํตํฉ ๋ฒค์น๋งํฌ(SciHorizon) ํ๊ฐ ์ฒ๋๋ฅผ ์ค์ ๋ก ์ ์ฉ/๊ตฌ์ฒดํํ๋ ์ด๋ก ์ ํ ๋๋ก ๊ธฐ๋ฅํฉ๋๋ค.
์์ฉ ์ฌ๋ก
748 ๋
ผ๋ฌธ์ ์ ์ฒด ์์ธ ์ธ์ ๋ฒค์น๋งํฌ๋ก, 724์ ๋ค์ํ ๊ณผํ ํ๊ฐ ํ๋ ์์ํฌ ๋ด ๊ฐ๋ณ ํ์คํฌ ํ๊ฐ ์ฌ๋ก๋ก ์ฐธ๊ณ ํ ์ ์์ต๋๋ค.
์์ฉ ์ฌ๋ก
์ค์ ํํ ๋ํ๋ชจ๋ธ์ ์คํ์ ๊ฒ์ฆ ๋ฐ ๋ฒค์น๋งํฌ ๊ฒฐ๊ณผ๋ฅผ ํตํด ์ค๋น๋ ํ๊ฐ ์ฒด๊ณ์ ํ์ค ์ ์ฉ ์ฌ๋ก๋ฅผ ๋ณด์ํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์