Benchmarking AI Scientists in Omics Data-Driven Biological Research

์ €์ž: Erpai Luo, Jinmeng Jia, Yifan Xiong, Xiangyu Li, Xiaobo Guo, Baoqi Yu, Minsheng Hao, Lei Wei, Xuegong Zhang | ๋‚ ์งœ: 2025 | DOI: arXiv:2505.08341 📄 PDF


Essence

Figure 1

BAISBench์˜ ๊ฐœ์š”: (A) ๋‘ ๊ฐ€์ง€ ๋ณด์™„์  ํƒœ์Šคํฌ ๊ตฌ์„ฑ, (B) BAIS-DPTA์˜ ๊ตฌ์ถ• ๋ฐฉ์‹, (C) BAIS-SD์˜ ๊ตฌ์ถ• ๋ฐฉ์‹

๋‹จ์ผ์„ธํฌ ์ „์‚ฌ์ฒด(single-cell transcriptomics) ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•˜์—ฌ AI ๊ณผํ•™์ž(AI scientist) ์‹œ์Šคํ…œ์˜ ์ƒ๋ฌผํ•™์  ๋ฐœ๊ฒฌ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋Š” BAISBench ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ์‹œํ•œ๋‹ค. ํ˜„์žฌ AI ๊ณผํ•™์ž๋“ค์€ ์™„์ „ํ•œ ์ž๋™ํ™”๋œ ์ƒ๋ฌผํ•™์  ๋ฐœ๊ฒฌ์—๋Š” ๋ชป ๋ฏธ์น˜์ง€๋งŒ, ๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜ ์ƒ๋ฌผํ•™ ์—ฐ๊ตฌ ์ง€์›์— ์ƒ๋‹นํ•œ ์ž ์žฌ๋ ฅ์„ ๋ณด์ด๊ณ  ์žˆ์Œ์„ ์‹ค์ฆ์ ์œผ๋กœ ๋ณด์—ฌ์ค€๋‹ค.

Motivation

Achievement

Figure 4

BAIS-DPTA ํƒœ์Šคํฌ์—์„œ ๋‹ค์–‘ํ•œ AI ๋ชจ๋ธ์˜ ์„ธํฌํ˜• ์ฃผ์„ ์ •ํ™•๋„: (A) ์ „์ฒด ๊ฒฐ๊ณผ, (B) ์กฐ์ง๋ณ„ ๊ฒฐ๊ณผ

  1. ์„ธํฌํ˜• ์ฃผ์„ ๋Šฅ๋ ฅ: AI ๊ณผํ•™์ž๋“ค์€ ํ‘œ์ค€ ์ „์ฒ˜๋ฆฌ ๋ฐ ๋ถ„์„ ์›Œํฌํ”Œ๋กœ์šฐ๋ฅผ ์•ˆ์ •์ ์œผ๋กœ ์‹คํ–‰ํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ๊ธฐ๋ณธ LLM ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์— ๋”ฐ๋ผ ํฌ๊ฒŒ ์ขŒ์šฐ๋จ์„ ๋ณด์˜€๋‹ค. uHAF ๊ธฐ๋ฐ˜์˜ ๊ณ„์ธต์  ํ‰๊ฐ€ ์ง€ํ‘œ(SCTA)๋ฅผ ๋„์ž…ํ•˜์—ฌ ์ •ํ™•๋„๋ฟ ์•„๋‹ˆ๋ผ ์ƒ๋ฌผํ•™์  ์„ธ๋ถ„ํ™” ์ •๋„๋„ ํ‰๊ฐ€ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ–ˆ๋‹ค.
  2. ๊ณผํ•™์  ๋ฐœ๊ฒฌ ๋Šฅ๋ ฅ: ์ตœ๊ณ  ์„ฑ๋Šฅ AI ๊ณผํ•™์ž๋“ค์ด ๋Œ€ํ•™์› ์ˆ˜์ค€ ์—ฐ๊ตฌ์ž๋“ค๊ณผ ๋น„์Šทํ•œ ์ˆ˜์ค€์˜ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ์œผ๋‚˜, ๊นŠ์€ ์ƒ๋ฌผํ•™์  ํŒ๋‹จ์ด ํ•„์š”ํ•œ ํƒœ์Šคํฌ์—์„œ๋Š” ์—ฌ์ „ํžˆ ์ธ๊ฐ„ ์ „๋ฌธ๊ฐ€์— ๋ฏธ์น˜์ง€ ๋ชปํ•œ๋‹ค. 193๊ฐœ์˜ ์งˆ๋ฌธ์—์„œ ์‚ฐ์ถœ๋œ ๊ฒฐ๊ณผ๋Š” AI ์‹œ์Šคํ…œ์˜ ๊ฐ•์ ๊ณผ ์•ฝ์ ์„ ๋ช…ํ™•ํžˆ ๊ตฌ๋ถ„ํ•œ๋‹ค.
  3. ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ ํ™•๋ฆฝ: ์‹ค์ œ ์ƒ๋ฌผํ•™ ์—ฐ๊ตฌ ์›Œํฌํ”Œ๋กœ์šฐ๋ฅผ ๋ฐ˜์˜ํ•˜๋Š” ํ˜„์‹ค์ ์ด๊ณ  ํ•ด์„ ๊ฐ€๋Šฅํ•œ ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ์‹œํ•จ์œผ๋กœ์จ AI ๊ณผํ•™์ž์˜ ์ง„์ „์„ ํ‰๊ฐ€ํ•˜๊ณ  ๊ฐœ์„  ๋ฐฉํ–ฅ์„ ์ œ์‹œํ•  ์ˆ˜ ์žˆ๋Š” ๊ธฐ์ดˆ๋ฅผ ๋งˆ๋ จํ–ˆ๋‹ค.

How

Figure 2

BAIS-DPTA ํƒœ์Šคํฌ์˜ ํŒŒ์ดํ”„๋ผ์ธ: AI ๊ณผํ•™์ž์—๊ฒŒ ๋‹จ์ผ์„ธํฌ ์œ ์ „์ž ๋ฐœํ˜„ ๋ฐ์ดํ„ฐ์…‹์ด ์ œ๊ณต๋˜๊ณ  ์ „์ฒ˜๋ฆฌ ๋ฐ ์ฃผ์„์„ ์ˆ˜ํ–‰

Figure 3

BAIS-SD ํƒœ์Šคํฌ์˜ ํŒŒ์ดํ”„๋ผ์ธ: ๋ฐฐ๊ฒฝ ์ •๋ณด์™€ ๋Œ€์‘ํ•˜๋Š” ๋ฐ์ดํ„ฐ์…‹์ด ์ œ๊ณต๋˜๊ณ  ๋ฐœํ‘œ๋œ ๋ฐœ๊ฒฌ๊ณผ ์ผ์น˜ํ•˜๋Š” ๊ฒฐ๋ก ์„ ์ฐพ๋„๋ก ์š”๊ตฌ

Originality

Limitation & Further Study

Evaluation

Novelty: 4.5/5 Technical Soundness: 4/5 Significance: 4.5/5 Clarity: 4/5 Overall: 4.2/5

์ดํ‰: ์ด ๋…ผ๋ฌธ์€ ๋‹จ์ˆœํ•œ ์ง€์‹ ๊ธฐ๋ฐ˜ ํ‰๊ฐ€๋ฅผ ๋„˜์–ด ์‹ค์ œ ์ƒ๋ฌผํ•™ ๋ฐ์ดํ„ฐ ๋ถ„์„ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ํ˜„์‹ค์ ์ด๊ณ  ์‹ค์šฉ์ ์ธ ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ์‹œํ•จ์œผ๋กœ์จ, ๋น ๋ฅด๊ฒŒ ๋ฐœ์ „ํ•˜๋Š” AI ๊ณผํ•™์ž ๋ถ„์•ผ์— ํƒ€๋‹น์„ฑ ์žˆ๋Š” ํ‰๊ฐ€ ๊ธฐ์ค€์„ ๋งˆ๋ จํ–ˆ๋‹ค. ๊ณ„์ธต์  ํ‰๊ฐ€ ์ฒด๊ณ„์™€ ๊ณต๊ฐœ ์ž์›์€ ํ•™๊ณ„์— ์ฆ‰๊ฐ์ ์ธ ๊ธฐ์—ฌ๋ฅผ ํ•  ์ˆ˜ ์žˆ์œผ๋‚˜, ํ‰๊ฐ€ ๋ฒ”์œ„์˜ ๋‹ค์–‘ํ™”์™€ ๊ฐœ๋ฐฉํ˜• ๋ฐœ๊ฒฌ ๋Šฅ๋ ฅ ํ‰๊ฐ€ ์ถ”๊ฐ€๋ฅผ ํ†ตํ•ด ๋”์šฑ ํฌ๊ด„์ ์ธ ๋ฒค์น˜๋งˆํฌ๋กœ ๋ฐœ์ „ํ•  ์—ฌ์ง€๊ฐ€ ์žˆ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
151๋ฒˆ ๋…ผ๋ฌธ(BERT)์€ ์ƒ๋ฌผํ•™ ๋ฐ์ดํ„ฐ์—์„œ ๋Œ€ํ˜• ์–ธ์–ด๋ชจ๋ธ ์‚ฌ์ „ํ•™์Šต์˜ ๊ธฐ์ดˆ๋ฅผ ์ œ๊ณตํ•˜๋ฏ€๋กœ, 3080์ด ์ œ์‹œํ•˜๋Š” LLM ๋ฒค์น˜๋งˆํฌ์˜ ๊ธฐ๋ฐ˜ ์ด๋ก ์„ ์ดํ•ดํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
SciAgents๋Š” ์ƒ๋ฌผ์ •๋ณดํ•™์  ๊ณผํ•™์  ๋ฐœ๊ฒฌ ์ž๋™ํ™”์— ๋Œ€ํ•œ ์ƒ๋ช…๊ณผํ•™ ๋ถ„์•ผ์˜ ํญ๋„“์€ Agentic Framework๋ฅผ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋‹จ์ผ์„ธํฌ ์ „์‚ฌ์ฒด ๋ถ„์„์„ ์œ„ํ•œ AI ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•๋ก ์˜ ๊ด€๋ จ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ž๋™ํ™”๋œ ์ƒ๋ฌผํ•™์  ๋ฐ์ดํ„ฐ ๋ถ„์„ ๋ฐ ๋ฐœ๊ฒฌ ์‹œ์Šคํ…œ์˜ ๊ด€๋ จ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
AI ๊ณผํ•™์ž ์‹œ์Šคํ…œ์˜ ๋ฒค์น˜๋งˆํ‚น์„ ๋‹ค๋ฃจ๋Š” ์œ ์‚ฌํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์˜ค๋ฏน์Šค ๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜ ์ƒ๋ฌผํ•™์  ๋ฐœ๊ฒฌ ์ž๋™ํ™”์˜ ๊ด€๋ จ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
scAgent ๋…ผ๋ฌธ์€ ๋‹จ์ผ์„ธํฌ ์ฃผ์„ ์ž‘์—…์„ ์œ„ํ•œ ๋ฒ”์šฉ LLM ์—์ด์ „ํŠธ๋ฅผ ์ œ์•ˆํ•˜์—ฌ, omics ๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ์—์„œ BAISBench์™€ ๋น„๊ตํ•ด๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
151๋„ omics ๋ฐ์ดํ„ฐ์— ๊ธฐ๋ฐ˜ํ•œ AI scientist ์—์ด์ „ํŠธ ํ‰๊ฐ€๋ฅผ ๋‹ค๋ฃจ์ง€๋งŒ, 069์™€๋Š” ๋ฐฉ๋ฒ•๋ก ๊ณผ ์‹คํ—˜ ๋ฒ”์œ„๊ฐ€ ๋‹ค๋ฆ…๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
AI ๊ณผํ•™์ž ์‹œ์Šคํ…œ์˜ ์ƒ๋ฌผํ•™์  ๋ฐœ๊ฒฌ ๋Šฅ๋ ฅ ํ‰๊ฐ€์˜ ์œ ์‚ฌํ•œ ์ ‘๊ทผ ๋ฐฉ์‹์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
AI ์—์ด์ „ํŠธ ๊ธฐ๋ฐ˜ ์›Œํฌํ”Œ๋กœ์šฐ๋ฅผ ์˜ค๋ฏน์Šค ๋ฐ์ดํ„ฐ ๋ถ„์„์— ์ ์šฉํ•œ ๋…ผ๋ฌธ์œผ๋กœ, ์žฌํ˜„์„ฑ ์œ„๊ธฐ ํ•ด๊ฒฐ ๋ฐฉ๋ฒ•์— ๋Œ€ํ•œ ๋‹ค๋ฅธ ์‘์šฉ ๋ถ„์•ผ ์‚ฌ๋ก€์ž…๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์˜ค๋ฏน์Šค ๊ธฐ๋ฐ˜ ๋ฐ”์ด์˜ค ์‹คํ—˜ ์ž๋™ํ™”์˜ AI ์—์ด์ „ํŠธ ๋ฒค์น˜๋งˆํฌ๋กœ, LLM์˜ ์ดˆ์‹ฌ์ž ์‹คํ—˜ ๋Šฅ๋ ฅ ์ธก์ •๊ณผ ์œ ์‚ฌํ•œ ์‹ค์ฆ์  ์ ‘๊ทผ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
151 ๋…ผ๋ฌธ์€ ์˜ค๋ฏน์Šค ๊ธฐ๋ฐ˜ ์ƒ๋ฌผํ•™์  ๋ฐ์ดํ„ฐ์—์„œ AI ๊ณผํ•™์ž์˜ ๋ฒค์น˜๋งˆํ‚น์„ ๋‹ค๋ฃจ๋ฉฐ, 3035์™€ ๊ฐ™์ด ์‹ค์ œ ์‹คํ—˜ ๋ฒค์น˜๋งˆํฌ์™€ ๊ต์ฐจ ๋น„๊ต์— ์ ํ•ฉํ•˜๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
scBaseCamp๋Š” ๋‹จ์ผ์„ธํฌ ๋ฐ์ดํ„ฐ ์ž๋™ ์ฃผ์„ ๋ฐ ๋ถ„์„์— ์ค‘์ ์„ ๋‘๊ณ  ์žˆ์–ด BAISBench์™€ ์œ ์‚ฌ ๋ถ„์•ผ์˜ LLM ๊ธฐ๋ฐ˜ ์ง€์› ์‹œ์Šคํ…œ์ž…๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •