SciHorizon: Benchmarking AI-for-Science Readiness from Scientific Data to Large Language Models

์ €์ž: Chuan Qin, Xin Chen, Chengrui Wang, Pengmin Wu, Xi Chen | ๋‚ ์งœ: 2025.03 | DOI: 10.48550/arXiv.2503.13503 📄 PDF


Essence

Figure 2

Fig. 2: Radar charts of top LLMsโ€™ performance across disciplines. This figure illus-

๋ณธ ๋…ผ๋ฌธ์€ AI-for-Science์˜ ์ค€๋น„๋„๋ฅผ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•œ ํฌ๊ด„์ ์ธ ๋ฒค์น˜๋งˆํ‚น ํ”„๋ ˆ์ž„์›Œํฌ์ธ SciHorizon์„ ์ œ์‹œํ•œ๋‹ค. ๊ณผํ•™ ๋ฐ์ดํ„ฐ์˜ AI ์ค€๋น„๋„(Quality, FAIRness, Explainability, Compliance์˜ 4๊ฐœ ์ฐจ์›)์™€ LLM์˜ ๊ณผํ•™ ๋Šฅ๋ ฅ(Knowledge, Understanding, Reasoning, Multimodality, Values์˜ 5๊ฐœ ์ง€ํ‘œ)์„ ์ฒด๊ณ„์ ์œผ๋กœ ํ‰๊ฐ€ํ•œ๋‹ค.

Motivation

Achievement

Figure 1

Fig. 1: Overview of the SciHorizon platform.

์ฃผ์š” ์„ฑ๊ณผ: - ํ†ตํ•ฉ ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ ์ œ์‹œ: ๊ณผํ•™ ๋ฐ์ดํ„ฐ์™€ LLM์„ ์•„์šฐ๋ฅด๋Š” ํฌ๊ด„์ ์ด๊ณ  ๊ณ„์ธต์ ์ธ ํ‰๊ฐ€ ์ฒด๊ณ„ ๊ฐœ๋ฐœ, - AI-ready ๋ฐ์ดํ„ฐ์…‹ ์ถ”์ฒœ ์ œ๊ณต: Earth Sciences์™€ Life Sciences ๋ถ„์•ผ์˜ ์—„์„ ๋œ ๋ฐ์ดํ„ฐ์…‹ ์ถ”์ฒœ ๋ชฉ๋ก ์ œ์‹œ, - ๋‹คํ•™์ œ์  LLM ํ‰๊ฐ€: ์ˆ˜ํ•™, ๋ฌผ๋ฆฌ, ํ™”ํ•™, ์ƒ๋ช…๊ณผํ•™, ์ง€๊ตฌ์šฐ์ฃผ๊ณผํ•™ ๋“ฑ 5๊ฐœ ๋ถ„์•ผ๋ฅผ ์•„์šฐ๋ฅด๋Š” ๋ฒค์น˜๋งˆํฌ ๊ตฌ์ถ•, - ๊ณต๊ฐœ ํ”Œ๋žซํผ ์ œ๊ณต: www.scihorizon.cn์—์„œ ๋ชจ๋“  ํ‰๊ฐ€ ๊ฒฐ๊ณผ์™€ ๋ฐ์ดํ„ฐ ๊ณต๊ฐœ, - ๊ณผํ•™์  ๊ฐ€์น˜๊ด€ ํ‰๊ฐ€ ๋„์ž…: ๊ธฐ์กด ๋ฒค์น˜๋งˆํฌ์—์„œ ๋ถ€์žฌํ–ˆ๋˜ academic integrity, fairness, transparency ๋“ฑ์˜ ํ‰๊ฐ€ ์ฐจ์› ์ถ”๊ฐ€.

How

Figure 1

Fig. 1: Overview of the SciHorizon platform.

โ€ข 2018-2023๋…„ peer-reviewed journal(Scientific Data, ESSD ๋“ฑ)์˜ ๋ฐ์ดํ„ฐ ์ž์› ๋…ผ๋ฌธ์œผ๋กœ๋ถ€ํ„ฐ ์•ฝ 1,500๊ฐœ ๋ฐ์ดํ„ฐ์…‹ ์ˆ˜์ง‘ ๋ฐ ๋ถ„์„, โ€ข Quality, FAIRness, Explainability, Compliance 4๊ฐœ ์ฃผ์š” ์ฐจ์›๋ณ„๋กœ ์„ธ๋ถ€ ํ‰๊ฐ€ ์ง€ํ‘œ ์„ค๊ณ„ ๋ฐ ์ ์šฉ, โ€ข Knowledge, Understanding, Reasoning, Multimodality, Values 5๊ฐœ ํ•ต์‹ฌ ์ง€ํ‘œ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ 16๊ฐœ ํ‰๊ฐ€ ์ฐจ์› ๊ฐœ๋ฐœ, โ€ข ์˜คํ”ˆ์†Œ์Šค(Llama, Mistral ๋“ฑ) ๋ฐ ํ์‡„ํ˜•(GPT-4, Claude ๋“ฑ) 20๊ฐœ ์ด์ƒ์˜ ๋Œ€ํ‘œ์  LLM์— ๋Œ€ํ•ด ์ฒด๊ณ„์  ๋ฒค์น˜๋งˆํ‚น ์ˆ˜ํ–‰, โ€ข ํ‰๊ฐ€ ๊ฒฐ๊ณผ๋ฅผ ์˜จ๋ผ์ธ ํ”Œ๋žซํผ์„ ํ†ตํ•ด ๊ณต๊ฐœ ๋ฐ ์ƒํ˜ธ์ž‘์šฉ ๊ฐ€๋Šฅํ•˜๊ฒŒ ์ œ๊ณต.

Originality

โ€ข ๊ณผํ•™ ๋ฐ์ดํ„ฐ์™€ LLM์„ ํ†ตํ•ฉํ•˜๋Š” ํฌ๊ด„์  ๋ฒค์น˜๋งˆํ‚น ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ฒ˜์Œ์œผ๋กœ ์ œ์‹œ, โ€ข ๊ธฐ์กด Data Readiness ํ‰๊ฐ€์™€ FAIR principles์„ ๊ณผํ•™ ๋„๋ฉ”์ธ์˜ AI ์ค€๋น„๋„ ๋งฅ๋ฝ์—์„œ ์žฌ๊ตฌ์„ฑ, โ€ข ๊ณผํ•™์  ๊ฐ€์น˜๊ด€(academic integrity, fairness, transparency)์„ LLM ํ‰๊ฐ€์— ์ฒ˜์Œ์œผ๋กœ ์ฒด๊ณ„์ ์œผ๋กœ ํฌํ•จ, โ€ข ๋‹คํ•™์ œ์  ๊ณผํ•™ ๋ถ„์•ผ๋ฅผ ์•„์šฐ๋ฅด๋Š” ํ†ตํ•ฉ ๋ฒค์น˜๋งˆํฌ ์Šค์œ„ํŠธ ๊ฐœ๋ฐœ.

Limitation & Further Study

โ€ข ๋ฐ์ดํ„ฐ ์ปค๋ฒ„๋ฆฌ์ง€: 2018-2023๋…„ peer-reviewed journal ์ค‘์‹ฌ์œผ๋กœ ์ˆ˜์ง‘๋˜์–ด ํšŒ์ƒ‰ ๋ฌธํ—Œ(grey literature)์ด๋‚˜ ํŠน์ • ํ•™๋ฌธ ๋ถ„์•ผ์˜ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ๊ฐ€ ๋ˆ„๋ฝ๋  ์ˆ˜ ์žˆ์Œ, โ€ข LLM ์„ ์ •: ์ฃผ์š” ์˜คํ”ˆ์†Œ์Šค/ํ์‡„ํ˜• 20๊ฐœ ๋ชจ๋ธ ์ค‘์‹ฌ์œผ๋กœ ํ‰๊ฐ€๋˜์–ด ์‹ ๊ทœ ๋ชจ๋ธ์ด๋‚˜ ์†Œ๊ทœ๋ชจ ๋„๋ฉ”์ธ ํŠนํ™” ๋ชจ๋ธ์— ๋Œ€ํ•œ ํ‰๊ฐ€ ๋ถ€์กฑ ๊ฐ€๋Šฅ, โ€ข ์ •๋Ÿ‰ํ™”์˜ ์–ด๋ ค์›€: FAIRness, Explainability, Compliance ๋“ฑ ์ผ๋ถ€ ์ฐจ์›์€ ์ฃผ๊ด€์  ํ‰๊ฐ€ ์š”์†Œ๋ฅผ ํฌํ•จํ•  ์ˆ˜ ์žˆ์Œ, โ€ข ํ›„์† ์—ฐ๊ตฌ ๋ฐฉํ–ฅ: (1) ๋” ์„ธ๋ฐ€ํ•œ ๊ณผํ•™ ๋„๋ฉ”์ธ๋ณ„ ํŠนํ™” ํ‰๊ฐ€ ๊ธฐ์ค€ ๊ฐœ๋ฐœ, (2) ๋™์  ๋ฒค์น˜๋งˆํฌ ์—…๋ฐ์ดํŠธ ๋ฉ”์ปค๋‹ˆ์ฆ˜ ๊ตฌ์ถ•, (3) ํ‰๊ฐ€ ์ฐจ์›๋ณ„ ๊ฐ€์ค‘์น˜ ์„ค์ • ๋ฐฉ๋ฒ•๋ก  ์—ฐ๊ตฌ.

Evaluation

Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

์ดํ‰: SciHorizon์€ AI-for-Science ๋ถ„์•ผ์˜ ์ค€๋น„๋„๋ฅผ ์ข…ํ•ฉ์ ์œผ๋กœ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•œ ์ค‘์š”ํ•œ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์‹œํ•˜๋ฉฐ, ๊ณผํ•™ ๋ฐ์ดํ„ฐ์˜ AI ์ค€๋น„๋„์™€ LLM์˜ ๊ณผํ•™์  ์—ญ๋Ÿ‰์„ ์ฒด๊ณ„์ ์œผ๋กœ ๋ฒค์น˜๋งˆํ‚นํ•  ์ˆ˜ ์žˆ๋Š” ํ†ตํ•ฉ ํ”Œ๋žซํผ์„ ์ œ๊ณตํ•œ๋‹ค. ๋‹คํ•™์ œ์  ์ ‘๊ทผ๊ณผ ๊ณต๊ฐœ ๋ฆฌ์†Œ์Šค ์ œ๊ณต์„ ํ†ตํ•ด AI-for-Science ์ปค๋ฎค๋‹ˆํ‹ฐ์— ์œ ์˜๋ฏธํ•œ ๊ธฐ์—ฌ๋ฅผ ํ•  ๊ฒƒ์œผ๋กœ ๊ธฐ๋Œ€๋œ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
419๋Š” LLM์„ ํ™œ์šฉํ•œ ๊ณผํ•™์  ๊ฐ€์„ค ์ƒ์„ฑ ์—ฐ๊ตฌ๋กœ, 724์˜ AI4Science readiness ํ‰๊ฐ€์˜ ๊ฐœ๋…์  ๊ธฐ๋ฐ˜์„ ํ˜•์„ฑํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
724์˜ SciHorizon์€ AIRS-Bench(090)์™€ ๊ฐ™์ด ๋‹ค์–‘ํ•œ ๊ณผํ•™์  ์ž‘์—… ๋ฒค์น˜๋งˆํฌ ์„ค๊ณ„์˜ ํ† ๋Œ€๊ฐ€ ๋˜๊ณ , ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ์—์„œ ๊ธฐ์ค€, ์ฒ™๋„ ์„ค์ • ๋“ฑ์— ํฌ๊ฒŒ ๊ธฐ์—ฌํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
724 ๋…ผ๋ฌธ์€ ์ธ๊ฐ„-LLM ํ˜‘์—…์˜ ๊ณผํ•™์  ์ƒ์‚ฐ์„ฑ์„ ์ถ”์ ยท์ •๋Ÿ‰ํ™”ํ•˜๋Š” ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ๊ณตํ•˜์—ฌ, 3162 ํšจ๋Šฅ ํ‰๊ฐ€์˜ ์ด๋ก ์  ๊ทผ๊ฑฐ๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋Œ€๊ทœ๋ชจ ๊ณผํ•™ ๋ฐ์ดํ„ฐ ๊ตฌ์ถ• ๋ฐ ํ™œ์šฉ์— ๋Œ€ํ•œ ๋Œ€์•ˆ์  ์ ‘๊ทผ๋ฒ•์„ ์ œ์‹œํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM์„ ํ™œ์šฉํ•œ ์ž๋™ํ™”๋œ ์—ฐ๊ตฌ ๋ฐœ๊ฒฌ ํŒŒ์ดํ”„๋ผ์ธ์˜ ๋Œ€์•ˆ์  ๊ตฌํ˜„ ๋ฐฉ์‹์„ ํƒ๊ตฌํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋จธ์‹ ๋Ÿฌ๋‹ ๊ธฐ๋ฐ˜ ๊ณผํ•™ ์—ฐ๊ตฌ์˜ ์žฌํ˜„์„ฑ๊ณผ ํƒ€๋‹น์„ฑ์„ ๋‹ค๋ฅธ ๋ฐฉ๋ฒ•๋ก ์  ํ”„๋ ˆ์ž„์›Œํฌ๋กœ ์ ‘๊ทผํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
041์€ AI๊ฐ€ ๊ณผํ•™ ์—ฐ๊ตฌ ๋ณด์กฐ์—์„œ ์–ด๋–ค ์ž ์žฌ๋ ฅ์„ ๋ณด์ด๋Š”์ง€๋ฅผ ํ‰๊ฐ€ํ•˜๋ฉฐ, 724์˜ AI-for-Science ์ค€๋น„๋„ ๋ฒค์น˜๋งˆํ‚น ํ”„๋ ˆ์ž„์›Œํฌ์™€ ์œ ์‚ฌ ๋ชฉ์ ์ด์ง€๋งŒ ์ ‘๊ทผ ๋ฐฉ์‹์ด ๋‹ค๋ฆ…๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM ๊ธฐ๋ฐ˜ ๋™๋ฃŒ์‹ฌ์‚ฌ ์ž๋™ํ™”์—์„œ ์ธ์ง€ ํŽธํ–ฅ ์™„ํ™”์™€ ๊ฐ๊ด€์„ฑ ํ–ฅ์ƒ์„ ์œ„ํ•œ ์ ‘๊ทผ๋ฒ•์„ ์ œ์‹œํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
AI4Science ๋ถ„์•ผ๋ณ„ LLM ํ‰๊ฐ€๋ฅผ ์œ„ํ•œ ๋ฒค์น˜๋งˆํฌ ์ œ์•ˆ์ด๋ผ๋Š” ๋™์ผ ์ฃผ์ œ๋กœ Rigorous Assessment ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ๋น„๊ตํ•  ์ˆ˜ ์žˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
031์€ ๊ณผํ•™์  ๋ฐœ๊ฒฌ์˜ ๊ฐ€์„ค ์ƒ์„ฑ ๋ถ„์•ผ์—์„œ LLM ๋ฒค์น˜๋งˆํ‚น์„ ๋‹ค๋ฃจ๊ณ  ์žˆ์–ด 724์˜ '๊ณผํ•™ AI ์ค€๋น„๋„' ํ‰๊ฐ€์˜ ํ•œ ๋ถ„์•ผ(๊ฐ€์„ค ์ƒ์„ฑ)์— ์ดˆ์ ์„ ๋งž์ถ˜ ๋Œ€์•ˆ ์—ฐ๊ตฌ์ž…๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
AI ๋„์ž…์— ๊ด€ํ•œ ๋‹ค๋ฅธ ๊ด€์ ์˜ ๋ถ„์„์„ ์ œ๊ณตํ•˜์—ฌ ์œ„ํ—˜ ์š”์ธ ์—ฐ๊ตฌ์™€ ๋Œ€์กฐ์  ์‹œ๊ฐ์„ ์ œ์‹œํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๊ณผํ•™ ์ถœํŒ ์‹œ์Šคํ…œ์˜ ์ œ์•ฝ๊ณผ ํ’ˆ์งˆ ์ €ํ•˜ ๋ฌธ์ œ๋ฅผ ๋Œ€์•ˆ์  ๊ด€์ ์—์„œ ๋ถ„์„ํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
840์€ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ์ด ๊ณผํ•™ ๋ฐœ์ „์— ๋ฏธ์น˜๋Š” ์˜ํ–ฅ์„ ํฌ๊ด„์ ์œผ๋กœ ์กฐ์‚ฌํ•˜๋ฉฐ, 724์ด ์ œ์‹œํ•œ ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ํ™•์žฅ๋œ ๋งฅ๋ฝ์—์„œ ํ•ด์„ํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ด์ค๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
090(AIRS-Bench)๋Š” LLM ๊ธฐ๋ฐ˜ AI ์—ฐ๊ตฌ์—์ด์ „ํŠธ์˜ ์ž‘์—… ์„ฑ๋Šฅ์„ ์žฌํ˜„์„ฑ ์žˆ๊ฒŒ ํ‰๊ฐ€ํ•˜๋Š” ์ข…ํ•ฉ ๋ฒค์น˜๋งˆํฌ๋กœ, 724์˜ ๊ณผํ•™ AI ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ(SciHorizon)๋ฅผ ๋”์šฑ ๊ตฌ์ฒด์ ์ด๊ณ  ์‹ค์งˆ์ ์œผ๋กœ ์‹คํ–‰ํ•˜๋Š” ์‚ฌ๋ก€์ž…๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
724 ๋…ผ๋ฌธ์€ AlphaFold ๋„์ž… ์ดํ›„ ๊ณผํ•™ ์—ฐ๊ตฌ ์ƒ์‚ฐ์„ฑ ๋ฐ ์ฐฝ์˜์„ฑ ๋ณ€ํ™”๋ฅผ ๊ณ„๋Ÿ‰์ ์œผ๋กœ ๋ถ„์„ํ•˜์—ฌ 3130์˜ ์‹ค์ฆ ์—ฐ๊ตฌ์— ํ™•์žฅ์  ์‹œ๊ฐ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
810์˜ LLM ํ‰๊ฐ€ ํ•ต์‹ฌ ์—ญ๋Ÿ‰ ํ”„๋ ˆ์ž„์›Œํฌ๋Š” 724์˜ ๊ณผํ•™ AI ์ค€๋น„๋„ ํ†ตํ•ฉ ๋ฒค์น˜๋งˆํฌ(SciHorizon) ํ‰๊ฐ€ ์ฒ™๋„๋ฅผ ์‹ค์ œ๋กœ ์ ์šฉ/๊ตฌ์ฒดํ™”ํ•˜๋Š” ์ด๋ก ์  ํ† ๋Œ€๋กœ ๊ธฐ๋Šฅํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
748 ๋…ผ๋ฌธ์€ ์‹ ์ฒด ์ž์„ธ ์ธ์‹ ๋ฒค์น˜๋งˆํฌ๋กœ, 724์˜ ๋‹ค์–‘ํ•œ ๊ณผํ•™ ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ ๋‚ด ๊ฐœ๋ณ„ ํƒœ์Šคํฌ ํ‰๊ฐ€ ์‚ฌ๋ก€๋กœ ์ฐธ๊ณ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
์‹ค์ œ ํ™”ํ•™ ๋Œ€ํ˜•๋ชจ๋ธ์˜ ์‹คํ—˜์  ๊ฒ€์ฆ ๋ฐ ๋ฒค์น˜๋งˆํฌ ๊ฒฐ๊ณผ๋ฅผ ํ†ตํ•ด ์ค€๋น„๋„ ํ‰๊ฐ€ ์ฒด๊ณ„์˜ ํ˜„์‹ค ์ ์šฉ ์‚ฌ๋ก€๋ฅผ ๋ณด์™„ํ•œ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •