์ ์: Kehua Feng, Xinyi Shen, Weijie Wang, Xiang Zhuang, Yuqi Tang, Qiang Zhang, Keyan Ding | ๋ ์ง: 2024 | DOI: arXiv:2406.09098 📄 PDF
Essence
Figure 1: SciKnowEval์ ์ ์ฒด ๊ตฌ์กฐ. (a) 4๊ฐ ๊ณผํ ์์ญ, (b) ๋ค์ํ ๋ฐ์ดํฐ ์์ค, (c) 4๊ฐ์ง ์ง๋ฌธ ์ ํ, (d) 5๋จ๊ณ ์งํ์ ์ง์ ์์ค๋ณ ์์ , (e) ์์ญ ๋ฐ ์์ค๋ณ ์ง๋ฌธ ๋ถํฌ
๋ณธ ๋
ผ๋ฌธ์ ๋๊ท๋ชจ ์ธ์ด๋ชจ๋ธ(LLM)์ ๊ณผํ ์ง์์ 5๋จ๊ณ(๊ธฐ์ต, ์ดํด, ์ถ๋ก , ํ๋ณ, ์ ์ฉ)๋ก ์ฒด๊ณ์ ์ผ๋ก ํ๊ฐํ๋ 28K ๊ท๋ชจ์ ์ข
ํฉ ๋ฒค์น๋งํฌ ๋ฐ์ดํฐ์
SciKnowEval์ ์ ์ํ๋ค. ์๋ฌผํ, ํํ, ๋ฌผ๋ฆฌํ, ์ฌ๋ฃ๊ณผํ 4๊ฐ ์์ญ์์ LLM์ ๊ณผํ์ ์ญ๋์ ๋ค์ธต์ ์ผ๋ก ์ง๋จํ๊ณ 20๊ฐ ๋ชจ๋ธ์ ํ๊ฐํ์ฌ ๊ฐ์ ์ ํ์์ฑ์ ์ ์ํ๋ค.
Evaluation
Novelty: 4.5/5 Technical Soundness: 4/5 Significance: 4.5/5 Clarity: 4/5 Overall: 4.25/5
์ดํ: SciKnowEval์ ๊ธฐ์กด ๋ฒค์น๋งํฌ์ ํ๊ณ๋ฅผ ๋ช
ํํ ์ธ์ํ๊ณ ์ฒ ํ์ ๊ธฐ์ด๋ฅผ ๊ฐ์ถ ์ฒด๊ณ์ ์ธ 5๋จ๊ณ ํ๊ฐ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ฉฐ, 28K ๊ท๋ชจ์ ๋ค์ํ ๊ณ ํ์ง ๋ฐ์ดํฐ์
์ ๊ตฌ์ถํ์ฌ ๊ณผํ LLM ํ๊ฐ์ ์๋ก์ด ํ์ค์ ์ ์ํ๋ค๋ ์ ์์ ์์๊ฐ ํฌ๋ค. ํนํ ๊ณผํ ์ค๋ฆฌ์ ์์ ์ฑ ํ๊ฐ๋ฅผ ๋ช
์์ ์ผ๋ก ํฌํจํ ์ ์ด ์ค์ฉ์ ๊ฐ์น๋ฅผ ๋์ธ๋ค. ๋ค๋ง ์๋ ์์ฑ ๋ฐ์ดํฐ์ ๊ฒ์ฆ ๋น์จ ๋ช
์, ๊ณ ๋๋ ๋ฌธ์ ๋น์จ ํ์ถฉ, ์ฃผ๊ด์ ํ๊ฐ์ ์ ์ฑ์ ๋ฉํธ๋ฆญ ๊ฐํ๊ฐ ํ์ํ๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
Galactica ๋
ผ๋ฌธ์ ๊ณผํ์ LLM์ ๋ฉํฐ๋ชจ๋ฌ ์ง์ ์ ์ฅ๊ณผ ํ๊ฐ ํ๋ ์์ํฌ๋ฅผ ์ ๊ณตํ์ฌ Sciknoweval์ ๋ฌธ์ ์์์ ์ด๋ก ์ ๊ธฐ๋ฐ์ ์ ์ํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
From AI for Science to Agentic Science ๋
ผ๋ฌธ์ ๊ณผํ AI ์์คํ
๊ณผ ๊ทธ ํ๊ฐ์ ๋ํ ๊ด๋ฒ์ํ ์๋ฒ ์ด๋ฅผ ์ ๊ณตํด, Sciknoweval์ ๋ฒค์น๋งํฌ ๊ตฌ์ถ ๋ฌธ์ ์ ํต์ฐฐ์ ์ค๋ค.
๋ค๋ฅธ ์ ๊ทผ
๊ณผํ ์ฐ๊ตฌ๋ฅผ ์ํ ๋๊ท๋ชจ ์ธ์ด๋ชจ๋ธ์ ๋ค๋ฅธ ์ค๊ณ ๋ฐ ํ๋ จ ๋ฐฉ๋ฒ์ ์ ์ํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
SciFIBench์ ๋ง์ฐฌ๊ฐ์ง๋ก LLM์ ๊ณผํ์ ๋ฉํฐ๋ชจ๋ฌยท๋ค์ค์์ค ์ดํด๋ ฅ ํ๊ฐ ๋ฐ ๋ฒค์น๋งํน ๊ด์ ์์ ๋น๊ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๊ณผํ ๋ฌธ์์ ๋ฉํฐ๋ชจ๋ฌ ์ดํด ๋ฐ ๊ฒ์ฆ์ ๋ํ ๋์์ ์ ๊ทผ๋ฒ์ ์ ์ํ๋ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
๊ธฐ์ด ๋ชจ๋ธ์ ๊ณผํ ๋ฐ๊ฒฌ์ ํ์ฉํ๋ ๋ค๋ฅธ ๋ฐฉ๋ฒ๋ก ์ ์ ๊ทผ์ ์ ์ํ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
BioProBench๋ ์๋ฌผํ ํ๋กํ ์ฝ์์์ LLM ์ ์ฐจ์ ์ถ๋ก ํ๊ฐ๋ฅผ ๋ค๋ฃจ๋ฏ๋ก, Sciknoweval์ ๋ค์ํ ๊ณผํ ์์ญ ๋ฒค์น๋งํฌ์ ์ํธ ๋ณด์์ ์ผ๋ก ์ฐธ๊ณ ํ ์ ์๋ค.
๋ค๋ฅธ ์ ๊ทผ
Scicueval์ ๋ค์ํ ๊ณผํ์ ์ฌ์ธต ์ง๋ฌธ๊ณผ ํ๊ฐ ์งํ๋ฅผ ํ์ฉํด SciKnowEval์ด ์ ์ํ ๋ค์ธต LLM ์ง์ ์ง๋จ๊ณผ ๋น๊ตํ ๋
ผ๋ฌธ์
๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
์๋ฌผํ์ ์ง์ ์ถ๋ก ์ ์ํ LLM ๊ธฐ๋ฐ ๋ฐฉ๋ฒ๋ก ๊ณผ ๊ทธ ํ๊ฐ๋ฅผ ๋ค๋ฃจ๋ ๊ด๋ จ ๋
ผ๋ฌธ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
ScienceAgentBench๋ LLM ๊ธฐ๋ฐ ์์ด์ ํธ์ ๊ณผํ ๋ฌธ์ ํด๊ฒฐ๋ ฅ(๋ค์ ๋จ๊ณ ์ถ๋ก ํฌํจ)์ ์ง์คํ์ฌ, ๊ณ์ธต์ ํ๊ฐ ํ๋ ์์ํฌ์ ํ์ฅ์ ๋ถ์ ํ์ ์ค๋ค.
๋ค๋ฅธ ์ ๊ทผ
๊ณผํ์ ๋ฐ๊ฒฌ์ ์ํ ๋๊ท๋ชจ ์ธ์ด๋ชจ๋ธ์ ํ์ฉ์ ๋ค๋ฃจ๋ ๊ด๋ จ ์๋ฒ ์ด์ด๋ค.
ํ์ ์ฐ๊ตฌ
Towards Scientific Intelligence๋ ๋ค์ํ๊ณ ์ฌ์ธต์ ์ธ ๊ณผํ LLM ์ง์ ํ๊ฐ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ์ฌ SciKnowEval์ ๋๊ท๋ชจ ๋ค๋จ๊ณ ์ง๋จ์ ๋ฐ์ ๋ฐฉํฅ์ ๋ณด์ฌ์ค๋๋ค.
์์ฉ ์ฌ๋ก
Automating exploratory proteomics research via language models ๋
ผ๋ฌธ์ SciKnowEval๊ฐ์ ๋ฒค์น๋งํฌ ์์์ LLM ๋ชจ๋ธ์ ์ค์ ์๋ช
๊ณผํ/๋จ๋ฐฑ์ง ์์ญ ์ง์ ๊ฐ๋ฅ์ฑ์ ์ ์ํฉ๋๋ค.
์์ฉ ์ฌ๋ก
๊ณผํ์ ์ง์ ํ๊ฐ ๋ฐ ๋ฉํฐ๋ ๋ฒจ ํ
์คํธ๋ฅผ ํตํด ์ค์ ๊ณผํ ๋ฐ๊ฒฌ ๋ฌธ์ ๋ก ๋ฒค์น๋งํฌ ๊ตฌ์ฑ์ ํ์ฅํ ์ฌ๋ก๋ฅผ ์ฐธ๊ณ ํ ์ ์๋ค.