Biodsa-1k: Benchmarking data science agents for biomedical research

์ €์ž: Zifeng Wang, Benjamin P. Danek, Jimeng Sun | ๋‚ ์งœ: 2025 | DOI: arXiv:2505.16100 📄 PDF


Essence

Figure 1

BIODSA-1K์˜ ๋ฒค์น˜๋งˆํฌ ํ†ต๊ณ„: 329๊ฐœ ๋…ผ๋ฌธ์—์„œ ์ถ”์ถœ๋œ ๋‹ค์–‘ํ•œ ์ƒ์˜ํ•™ ์—ฐ๊ตฌ ์œ ํ˜•๊ณผ ๋ฐ์ดํ„ฐ ๋ถ„์„ ๊ณผ์ œ๋“ค, ๋ฐ์ดํ„ฐ ํ…Œ์ด๋ธ”์˜ ํ–‰๊ณผ ์—ด์˜ ๋ฒ”์œ„๋ฅผ ๋ณด์—ฌ์ฃผ๋Š” ๋ฒ„๋ธ” ํ”Œ๋กฏ

๋ณธ ๋…ผ๋ฌธ์€ ์ƒ์˜ํ•™ ์—ฐ๊ตฌ์—์„œ AI ์—์ด์ „ํŠธ์˜ ๊ฐ€์„ค ๊ฒ€์ฆ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•ด 1,029๊ฐœ์˜ ๊ฐ€์„ค ์ค‘์‹ฌ ๊ณผ์ œ์™€ 1,177๊ฐœ์˜ ๋ถ„์„ ๊ณ„ํš์œผ๋กœ ๊ตฌ์„ฑ๋œ BIODSA-1K ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ์‹œํ•œ๋‹ค. 329๊ฐœ ์ถœํŒ ๋…ผ๋ฌธ์—์„œ ์ถ”์ถœ๋œ ์ด ๋ฒค์น˜๋งˆํฌ๋Š” ์‹ค์ œ ์—ฐ๊ตฌ ์›Œํฌํ”Œ๋กœ์šฐ๋ฅผ ๋ฐ˜์˜ํ•˜๋ฉฐ, ๊ฒ€์ฆ ๋ถˆ๊ฐ€๋Šฅํ•œ ๊ฐ€์„ค ์‚ฌ๋ก€๋ฅผ ํฌํ•จํ•˜์—ฌ ํ˜„์‹ค์ ์ธ ๋ฐ์ดํ„ฐ ๊ณผํ•™ ์‹œ๋‚˜๋ฆฌ์˜ค๋ฅผ ํ‰๊ฐ€ํ•œ๋‹ค.

Motivation

Achievement

Figure 2

BIODSA-1K์˜ ์ „์ฒด ๊ฐœ์š”: (a) ๋ฒค์น˜๋งˆํฌ ํ๋ ˆ์ด์…˜ - ๋…ผ๋ฌธ์˜ ๊ฐ€์„ค๊ณผ ๊ทผ๊ฑฐ ์ถ”์ถœ, (b) ์‹คํ—˜ - AI ์—์ด์ „ํŠธ์˜ ๊ณ„ํš-ํ”„๋กœ๊ทธ๋žจ-๋ถ„์„-๊ด€์ฐฐ-์˜์‚ฌ๊ฒฐ์ • ์‚ฌ์ดํด, (c) ํ‰๊ฐ€ ์ง€ํ‘œ - ๊ฐ€์„ค ๊ฒฐ์ • ์ •ํ™•๋„, ๊ทผ๊ฑฐ ์ •๋ ฌ ์ ์ˆ˜, ๊ฒ€์ฆ ๋ถˆ๊ฐ€๋Šฅ ๊ฐ€์„ค ๊ฐ์ง€(์ •๋ฐ€๋„/์žฌํ˜„์œจ), ์ฝ”๋“œ ์‹คํ–‰ ๊ฐ€๋Šฅ์„ฑ

  1. ๋Œ€๊ทœ๋ชจ ๋‹ค์–‘ํ•œ ๋ฒค์น˜๋งˆํฌ ๊ตฌ์ถ•: 329๊ฐœ ๋…ผ๋ฌธ์—์„œ 1,029๊ฐœ ๊ฐ€์„ค๊ณผ 1,177๊ฐœ ๋ถ„์„ ๊ณผ์ œ ์ถ”์ถœ, 8๊ฐ€์ง€ ๋…ผ๋ฌธ ์œ ํ˜•(๊ฒŒ๋…ธ๋ฏน์Šค, ์น˜๋ฃŒ์ œ, ๋ฐ”์ด์˜ค๋งˆ์ปค, ๋ถ„์ž ๋“ฑ) ํฌํ•จ
  2. ๋ณต์žกํ•œ ํ˜„์‹ค์  ๋ฐ์ดํ„ฐ์…‹: ์ž„์ƒ ๋ฐ์ดํ„ฐ, ๋Œ์—ฐ๋ณ€์ด ๋ฐ์ดํ„ฐ, ์œ ์ „์ž ๋ฐœํ˜„, ๋‹จ๋ฐฑ์งˆ ๋ฐœํ˜„ ๋“ฑ ๋‹ค์–‘ํ•œ ์ƒ์˜ํ•™ ๋ฐ์ดํ„ฐ ํƒ€์ž… ํฌํ•จ, ํ–‰(102~105)๊ณผ ์—ด(101~103) ๋ฒ”์œ„์˜ ๋†’์€ ์ด์งˆ์„ฑ ๋ฐ˜์˜
  3. ๋‹ค๊ฐ์  ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ: ๊ฐ€์„ค ๊ฒฐ์ • ์ •ํ™•๋„(Type I/II ์˜ค๋ฅ˜), ๊ทผ๊ฑฐ-๊ฒฐ๋ก  ์ •๋ ฌ๋„, ์ถ”๋ก  ๊ณผ์ • ์ •ํ™•์„ฑ, ์ฝ”๋“œ ์‹คํ–‰ ๊ฐ€๋Šฅ์„ฑ, ๊ฒ€์ฆ ๋ถˆ๊ฐ€๋Šฅ ๊ฐ€์„ค ๊ฐ์ง€(์ •๋ฐ€๋„/์žฌํ˜„์œจ) ๋“ฑ 4๊ฐ€์ง€ ์ถ•์œผ๋กœ ํ‰๊ฐ€
  4. ๊ฒ€์ฆ ๋ถˆ๊ฐ€๋Šฅ ๊ฐ€์„ค ํฌํ•จ: ๋ฐ์ดํ„ฐ ๋ถ€์กฑ์œผ๋กœ ์ฃผ์žฅ์„ ํ™•์ธ/๋ฐ˜๋ฐ•ํ•  ์ˆ˜ ์—†๋Š” ํ˜„์‹ค์  ์‹œ๋‚˜๋ฆฌ์˜ค๋ฅผ ์ตœ์ดˆ๋กœ ํฌํ•จ

How

Figure 2

Originality

Limitation & Further Study

Evaluation

Novelty: 4.5/5 Technical Soundness: 4/5 Significance: 4.5/5 Clarity: 4/5 Overall: 4.25/5

์ดํ‰: BIODSA-1K๋Š” ๊ธฐ์กด ์ƒ์˜ํ•™ AI ๋ฒค์น˜๋งˆํฌ์˜ ๊ทœ๋ชจ, ๋ณต์žก์„ฑ, ํ˜„์‹ค์„ฑ์„ ํš๊ธฐ์ ์œผ๋กœ ํ™•๋Œ€ํ•˜๋ฉฐ, ํŠนํžˆ ๊ฒ€์ฆ ๋ถˆ๊ฐ€๋Šฅ ๊ฐ€์„ค ํฌํ•จ๊ณผ ๊ทผ๊ฑฐ-๊ฒฐ๋ก  ์ •๋ ฌ ํ‰๊ฐ€๋Š” AI ์‹ ๋ขฐ์„ฑ ํ‰๊ฐ€์˜ ์ƒˆ๋กœ์šด ๊ธฐ์ค€์„ ์ œ์‹œํ•œ๋‹ค. ๋‹ค๋งŒ ์ž๋™ ์ถ”์ถœ ๊ณผ์ •์˜ ์˜ค๋ฅ˜ ๊ด€๋ฆฌ์™€ ๋„๋ฉ”์ธ ํŠนํ™” ๊ธฐ์ˆ  ํ‰๊ฐ€ ๋ณด์™„์ด ํ•„์š”ํ•˜๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
์˜๋ฃŒ AI ์—ฐ๊ตฌ ์ž๋™ํ™”์˜ ๋ฐฉ๋ฒ•๋ก ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•˜๋Š” ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
294๋ฒˆ ๋…ผ๋ฌธ์€ Data Science Agent์˜ ๋ฒค์น˜๋งˆํ‚น์„ ์ค‘์‹ฌ์œผ๋กœ ํ•˜๋ฉฐ, 163๋ฒˆ์˜ ์ƒ์˜ํ•™์  ๊ฐ€์„ค ๊ฒ€์ฆ Task ํ‰๊ฐ€์™€ ๋ฒค์น˜๋งˆํฌ์— ๋Œ€ํ•˜์—ฌ ์ƒํ˜ธ์ฐธ๊ณ  ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ž„์ƒ ๋ฌธํ—Œ ๊ธฐ๋ฐ˜ ์˜๋ฃŒ ์ •๋ณด ์ž๋™ํ™”์—์„œ ์œ ์‚ฌํ•œ ์ ‘๊ทผ๋ฒ•์„ ์‚ฌ์šฉํ•˜๋Š” ๋Œ€์•ˆ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Benchmarking AI Scientists in Omics Data-Driven Biological Research ๋…ผ๋ฌธ์€ ์˜ค๋ฏน์Šค ๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜ ๊ณผํ•™ ๊ฐ€์„ค ๊ฒ€์ฆ์—์„œ์˜ AI ํ‰๊ฐ€๋ฅผ ์ฃผ์ œ๋กœ ํ•˜์—ฌ, BIODSA-1K์˜ ์ƒ์˜ํ•™ ์‹คํ—˜ ์ž๋™ํ™”์™€ ๋ฌธ์ œ์˜์‹์ด ์œ ์‚ฌํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Biodsa-1k ๋…ผ๋ฌธ์€ ๋ฐ”์ด์˜ค๋ฉ”๋””์ปฌ ๋ฐ์ดํ„ฐ ๊ณผํ•™ ์—์ด์ „ํŠธ ํ‰๊ฐ€ ๋ฒค์น˜๋งˆํฌ๋ฅผ ๋ณ„๋„๋กœ ์ œ์•ˆํ•˜์—ฌ, ์˜๋ฃŒ LLM ํ‰๊ฐ€์™€ ๋‹ค๋ฅธ ์ธก๋ฉด์˜ ๋น„๊ต๊ฐ€ ๊ฐ€๋Šฅํ•˜๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
BioDSA-1k ๋…ผ๋ฌธ์€ ๋ฐ”์ด์˜ค๋ฉ”๋””์ปฌ ๋ฐ์ดํ„ฐ ์‚ฌ์ด์–ธ์Šค ๋Œ€๋ฆฌ ๋ฒค์น˜๋งˆํฌ๋กœ, Deep active learning๊ณผ ์œ ์ „์ž ์ƒํ˜ธ์ž‘์šฉ ํƒ์ƒ‰ ํ”„๋ ˆ์ž„์›Œํฌ์˜ ๋‹ค์–‘ํ•œ ๋Œ€์•ˆ์„ ๋ณด์—ฌ์ค€๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ƒ๋ฌผ์˜ํ•™ ๋ฐ์ดํ„ฐ ๋ถ„์„์— LLM์„ ์ ์šฉํ•˜๋Š” ์œ ์‚ฌํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ƒ์˜ํ•™ ๋ฐ์ดํ„ฐ์‚ฌ์ด์–ธ์Šค ์ž‘์—…์„ ์œ„ํ•œ ๋ฒค์น˜๋งˆํฌ์™€ ์—์ด์ „ํŠธ ์„ฑ๋Šฅ ํ‰๊ฐ€๋กœ, Agentomics-ML๊ณผ ๋น„๊ต ์—ฐ๊ตฌ๊ฐ€ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Biodsa-1k๋Š” ์ƒ์˜ํ•™ ๋ฐ์ดํ„ฐ ๊ณผํ•™ ์—์ด์ „ํŠธ ๋ฒค์น˜๋งˆํฌ๋กœ, ๋…ธํ™” ๋ถ„์•ผ ๋“ฑ ๋ณต์žกํ•œ ๋ฌธ์ œ์—์„œ PersonaAI์™€ ๋ฐ์ดํ„ฐ-์ง€์‹ ํ†ตํ•ฉ ํ”„๋ ˆ์ž„์›Œํฌ ๊ด€์ ์—์„œ ๋น„๊ต๋œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ง€์‹๊ทธ๋ž˜ํ”„ ๊ธฐ๋ฐ˜ ์„ค๋ช… ์ƒ์„ฑ ๋˜๋Š” ์ ์‘ํ˜• ์‚ฌ์šฉ์ž ๋ชจ๋ธ๋ง์—์„œ ์œ ์‚ฌํ•œ ๋ฌธ์ œ๋ฅผ ๋‹ค๋ฃจ๋Š” ๋Œ€์•ˆ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
AI ์—ฐ๊ตฌ ์ž๋™ํ™” ๋˜๋Š” ์˜๋ฃŒ AI ์‹œ์Šคํ…œ์˜ ์„ฑ๋Šฅ ํ‰๊ฐ€์™€ ํ‘œ์ค€ํ™”๋œ ๋ฒค์น˜๋งˆํ‚น์— ๊ด€ํ•œ ์œ ์‚ฌํ•œ ์—ฐ๊ตฌ ๋ชฉ์ ์„ ๊ณต์œ ํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
MLGym ๋…ผ๋ฌธ์€ ๋ฐ”์ด์˜ค ๋“ฑ ๊ณผํ•™ ์‹คํ—˜ ํ™˜๊ฒฝ์—์„œ AI ์—ฐ๊ตฌ ์—์ด์ „ํŠธ์˜ ์ข…ํ•ฉ์  ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ์‹œ, BIODSA-1K์—์„œ ๋‹ค๋ฃจ๋Š” ํ˜„์‹ค์  ๊ณผ์ œ์˜ ํญ์„ ๋„“ํž™๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
์˜์ƒ๋ช… ๋ฐ์ดํ„ฐ ๊ณผํ•™ ์—์ด์ „ํŠธ(BioDSA-1K)์— ๋Œ€ํ•œ ๋ฒค์น˜๋งˆํฌ๋กœ, BioAgents์˜ ์„ฑ๋Šฅ ๋ฐ ๋„๋ฉ”์ธ ์ ์šฉ ๋ฒ”์œ„๋ฅผ ํ‰๊ฐ€ํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
805๋Š” ์—์ด์ „ํŠธ-๊ธฐ๋ฐ˜ ์‹คํ—˜ ์ž๋™ํ™”(Bench)๋กœ ์‹ค์ œ ์‹ ์•ฝ ๊ฐœ๋ฐœ/์ƒ์˜ํ•™ ๋ถ„์•ผ ์ ์šฉ์„ ํ™•์žฅํ•œ ๋…ผ๋ฌธ์ž…๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
Biodsa-1k๋Š” ๋ฐ”์ด์˜ค๋ฉ”๋””์ปฌ ๋ฐ์ดํ„ฐ์‚ฌ์ด์–ธ์Šค์šฉ ์—์ด์ „ํŠธ ํ‰๊ฐ€ ๋ฒค์น˜๋งˆํฌ๋กœ, MLAgentBench์˜ ๋ฐฉ๋ฒ•์„ ๊ตฌ์ฒด์  ์˜๋ฃŒ์˜์—ญ์— ์ ์šฉํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
717์€ ๋‹ค์–‘ํ•œ ๊ณผํ•™ ์›Œํฌํ”Œ๋กœ์šฐ์—์„œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ž์œจ ์—์ด์ „ํŠธ๋ฅผ ์‹คํ—˜์ ์œผ๋กœ ํ‰๊ฐ€ํ•˜์—ฌ, 163์˜ ์ƒ์˜ํ•™ ์‘์šฉ ๋ฒค์น˜๋งˆํฌ ๋งฅ๋ฝ์„ ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
163๋ฒˆ ๋…ผ๋ฌธ์€ ๋ฐ”์ด์˜ค๋ฉ”๋””์ปฌ ๋ฐ์ดํ„ฐ ๋ถ„์„์„ ์œ„ํ•œ ์—์ด์ „ํŠธ ๋ฒค์น˜๋งˆํฌ๋กœ, FermiLink์˜ ํŠน์ • ๋„๋ฉ”์ธ์— ๋Œ€ํ•œ ์ ์šฉ ๋ฐ ํ•œ๊ณ„ ํŒŒ์•…์— ๋„์›€์ด ๋ฉ๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •