BioAgents: Democratizing Bioinformatics Analysis with Multi-Agent Systems

์ €์ž: Nikita Mehandru, Amanda K. Hall, Olesya Melnichenko, Yulia Dubinina, Daniel Tsirulnikov et al. | ๋‚ ์งœ: 2025 | DOI: 10.48550/arXiv.2501.06314 📄 PDF


Essence

Figure 2

Figure 2: (a) ๋‘ ๊ฐœ์˜ ์ „๋ฌธํ™”๋œ ์—์ด์ „ํŠธ ๊ตฌ์กฐ. (b) BioAgents ์ „์ฒด ๊ฐœ์š”. (c) BioAgents์™€ ์ „๋ฌธ๊ฐ€ ๊ฒฐ๊ณผ ๋น„๊ต

๋ณธ ๋…ผ๋ฌธ์€ ์†Œํ˜• ์–ธ์–ด๋ชจ๋ธ(Phi-3)์„ ๊ธฐ๋ฐ˜์œผ๋กœ ์ƒ๋ฌผ์ •๋ณดํ•™ ๋ฐ์ดํ„ฐ๋กœ ๋ฏธ์„ธ์กฐ์ •ํ•˜๊ณ  ๊ฒ€์ƒ‰ ์ฆ๊ฐ• ์ƒ์„ฑ(RAG)์„ ํ†ตํ•ฉํ•œ ๋‹ค์ค‘ ์—์ด์ „ํŠธ ์‹œ์Šคํ…œ์„ ์ œ์•ˆํ•œ๋‹ค. BioAgents๋Š” ์ง€์—ญ(local) ์šด์˜๊ณผ ๋…์  ๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜ ๊ฐœ์ธํ™”๋ฅผ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜๋ฉฐ, ๊ฐœ๋…์  ์œ ์ „์ฒดํ•™ ์ž‘์—…์—์„œ ์ธ๊ฐ„ ์ „๋ฌธ๊ฐ€ ์ˆ˜์ค€์˜ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•œ๋‹ค.

Motivation

Achievement

Figure 3

Figure 3: ๊ฐœ๋…์  ์œ ์ „์ฒดํ•™ ๋ฐ ์ฝ”๋“œ ์ƒ์„ฑ ์ž‘์—…์—์„œ ์‹œ์Šคํ…œ๊ณผ ์ „๋ฌธ๊ฐ€ ์„ฑ๋Šฅ ๋น„๊ต. ์ƒ๋‹จ: ์ •ํ™•๋„(์ขŒ)์™€ ์™„์ „์„ฑ(์šฐ). ํ•˜๋‹จ: ์ฝ”๋“œ ์ƒ์„ฑ ์ž‘์—… ์ •ํ™•๋„ ๋ฐ ์™„์ „์„ฑ

  1. ๊ฐœ๋…์  ์œ ์ „์ฒดํ•™ ์ž‘์—… ์„ฑ๋Šฅ: BioAgents๋Š” ์„ธ ๊ฐ€์ง€ ๋‚œ์ด๋„ ์ˆ˜์ค€(์‰ฌ์›€, ์ค‘๊ฐ„, ์–ด๋ ค์›€)์˜ ๋ชจ๋“  ์ž‘์—…์—์„œ ์ธ๊ฐ„ ์ „๋ฌธ๊ฐ€ ์ˆ˜์ค€์˜ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ๋‹ค. ํŠนํžˆ ์–ด๋ ค์šด SARS-CoV-2 ๊ฒŒ๋†ˆ ์กฐ๋ฆฝ/์ฃผ์„/๋ถ„์„ ์ž‘์—…์—์„œ ๋…ผ๋ฆฌ์  ๋‹จ๊ณ„ ์ œ์‹œ์™€ ๋„๊ตฌ ์„ ํƒ ๊ทผ๊ฑฐ ์ œ์‹œ์—์„œ ์ „๋ฌธ๊ฐ€๋ณด๋‹ค ์šฐ์ˆ˜ํ–ˆ๋‹ค.
  2. ์ฝ”๋“œ ์ƒ์„ฑ ์ž‘์—…์˜ ์„ฑ๋Šฅ ํŽธ์ฐจ: ์‰ฌ์šด ์ž‘์—…์—์„œ๋Š” ์ „๋ฌธ๊ฐ€ ์ˆ˜์ค€์˜ ์ •ํ™•๋„๋ฅผ ๋ณด์˜€์œผ๋‚˜, ์ค‘๊ฐ„~์–ด๋ ค์šด ๋ณต์žก ์ž‘์—…์—์„œ๋Š” ์ •ํ™•๋„์™€ ์™„์ „์„ฑ์ด ์ €ํ•˜๋˜์—ˆ๋‹ค. nf-core ์›Œํฌํ”Œ๋กœ์šฐ ๊ฐ™์€ ์™„์ „ํ•œ ๋ง๋‹จ ํŒŒ์ดํ”„๋ผ์ธ ์ƒ์„ฑ์—์„œ ๋ถˆ์™„์ „ํ•œ ์ถœ๋ ฅ์„ ์ œ์‹œํ•˜๊ฑฐ๋‚˜ ๊ฐœ๋…์  ๋‹ต๋ณ€๋งŒ ์ œ๊ณตํ•˜๋Š” ํ•œ๊ณ„๋ฅผ ๋“œ๋Ÿฌ๋ƒˆ๋‹ค.
  3. ์‹ ๋ขฐ์„ฑ๊ณผ ํˆฌ๋ช…์„ฑ ๊ฐ•ํ™”: ์ž์ฒด ํ‰๊ฐ€(self-evaluation) ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ํ†ตํ•ด ์ถœ๋ ฅ ํ’ˆ์งˆ์„ ๊ฐ์‹œํ–ˆ์œผ๋ฉฐ, ์ฒด์ธ-์˜ค๋ธŒ-์‹ฑํ‚น(CoT) ๋ฐฉ์‹์˜ ๋…ผ๋ฆฌ์  ์ถ”๋ก  ์„ค๋ช…์œผ๋กœ ์˜์‚ฌ๊ฒฐ์ • ๊ณผ์ •์˜ ํˆฌ๋ช…์„ฑ์„ ์ œ๊ณตํ–ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, RNA-seq ์ •๋ ฌ ๋„๊ตฌ๋กœ STAR์™€ HISAT2๋ฅผ ์ถ”์ฒœํ•  ๋•Œ ์„ ํƒ ๊ทผ๊ฑฐ(๋ฐ์ดํ„ฐ์…‹ ํฌ๊ธฐ, ์›ํ•˜๋Š” ์ •ํ™•๋„)๋ฅผ ๋ช…์‹œํ–ˆ๋‹ค.

How

Figure 2

Originality

Limitation & Further Study

Evaluation

์ดํ‰: ๋ณธ ๋…ผ๋ฌธ์€ ์†Œํ˜• ์–ธ์–ด๋ชจ๋ธ๊ณผ ์ƒ๋ฌผ์ •๋ณดํ•™ ํŠนํ™” ๋ฏธ์„ธ์กฐ์ •์„ ํ†ตํ•ด ์ ‘๊ทผ ๊ฐ€๋Šฅํ•œ AI ๊ธฐ๋ฐ˜ ์ƒ๋ฌผ์ •๋ณดํ•™ ์ง€์› ๋„๊ตฌ๋ฅผ ์ œ์‹œํ•˜๋Š” ๊ฐ€์น˜ ์žˆ๋Š” ์‹œ๋„์ด๋ฉฐ, ๊ฐœ๋…์  ์œ ์ „์ฒดํ•™ ์ž‘์—…์—์„œ ์ „๋ฌธ๊ฐ€ ์ˆ˜์ค€์˜ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์ฝ”๋“œ ์ƒ์„ฑ ์—ญ๋Ÿ‰์˜ ํ˜„์ €ํ•œ ์„ฑ๋Šฅ ๊ฒฉ์ฐจ์™€ ์ž์ฒด ๋ฐ˜๋ณต ๋ฉ”์ปค๋‹ˆ์ฆ˜์˜ ํ•œ๊ณ„๋Š” ์‹ค์ œ ๋ณต์žกํ•œ ํŒŒ์ดํ”„๋ผ์ธ ๊ตฌ์ถ• ์ง€์›์— ์•„์ง ๊ฑฐ๋ฆฌ๊ฐ€ ์žˆ์Œ์„ ๋ณด์—ฌ์ค€๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
BioAgents์˜ ๋‹ค์ค‘์—์ด์ „ํŠธ ์„ค๊ณ„๊ฐ€ Bio ๋ฐ ์˜๋ฃŒ ๋ฐ์ดํ„ฐ ๋ฌธ์ œ์— LLM์„ ์–ด๋–ป๊ฒŒ ์ ์šฉํ•˜๋Š”์ง€ ๊ธฐ์ดˆ๋ฅผ ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
์ƒ๋ฌผ์ •๋ณดํ•™ AI์— ์†Œํ˜• ์–ธ์–ด๋ชจ๋ธ์„ ์ ์šฉํ•œ ์‚ฌ๋ก€๋กœ, ๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜ ์ž๋™ํ™” ๋ฐ ๊ฒ€์ƒ‰ ํ†ตํ•ฉ ๋ฐฉ์•ˆ์„ ๊ตฌ์ฒดํ™”ํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
LLM ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ์˜ ๋ฐ˜๋ณต์  ๊ฐœ์„  ๋ฐ ํ”ผ๋“œ๋ฐฑ ๋ฉ”์ปค๋‹ˆ์ฆ˜์— ๋Œ€ํ•œ ์ด๋ก ์  ๊ธฐ์ดˆ๋ฅผ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๋‹ค์ค‘ ์—์ด์ „ํŠธ ์‹œ์Šคํ…œ์—์„œ์˜ ๋ผ์šฐํŒ… ๋ฐ ์กฐ์œจ ๋ฉ”์ปค๋‹ˆ์ฆ˜์— ๋Œ€ํ•œ ๋ฐฉ๋ฒ•๋ก ์  ๊ธฐ์ดˆ๋ฅผ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Agentic RAG์˜ ์ด๋ก ์ ยท๋ฐฉ๋ฒ•๋ก ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•˜๋ฉฐ CongressRA ์‹œ์Šคํ…œ์˜ ์„ค๊ณ„์— ์˜ํ–ฅ์„ ์ค€ ์„ ํ–‰ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
BioAgents ๋…ผ๋ฌธ์€ ๋‹ค์ค‘ ์—์ด์ „ํŠธ LLM์œผ๋กœ ์ƒ๋ช…์ •๋ณด ๋ถ„์„์„ ๋ฏผ์ฃผํ™”ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์ œ์‹œํ•˜์—ฌ AutoProteinEngine๊ณผ ๋™์ผํ•œ ๋„๋ฉ”์ธ์—์„œ ๋Œ€์ฒด์  ์ ‘๊ทผ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
160์€ ๋‹ค์ค‘ ์—์ด์ „ํŠธ ๊ธฐ๋ฐ˜ ์ƒ๋ฌผ์ •๋ณดํ•™ ๋ถ„์„ ์ž๋™ํ™”๋ผ๋Š” ์ ์—์„œ BIA์™€ ์œ ์‚ฌํ•˜์ง€๋งŒ ์ ์šฉํ•˜๋Š” ๊ณผ์ œ๋‚˜ ํ”„๋ ˆ์ž„์›Œํฌ์˜ ๋””์ž์ธ์ด ์ƒ์ดํ•˜๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋กœ์ปฌ ์šด์˜ ๊ฐ€๋Šฅํ•œ ์ƒ๋ฌผ์ •๋ณดํ•™ AI ์—์ด์ „ํŠธ์˜ ๊ฐœ์ธํ™”์™€ ํ”„๋ผ์ด๋ฒ„์‹œ ๋ณดํ˜ธ๋ฅผ ๋‹ค๋ฃจ๋Š” ๊ด€๋ จ ๋…ผ๋ฌธ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
BioAgents(160)๋Š” ๋‹ค์ค‘ ์—์ด์ „ํŠธ๊ฐ€ ์œ ์ „์ฒด ๋ถ„์„์„ ์ž๋™ํ™”ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์ œ์‹œํ•ด, Seq2Exp(483)์™€ ๋‹ค๋ฅธ ๋ฐฉ์‹์˜ ์ƒ๋ฌผํ•™์  ํ•ด์„ ์ž๋™ํ™” ์ ‘๊ทผ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Agentic RAG์˜ ๊ตฌ์ฒด์ ์ธ ๊ตฌํ˜„์ด๋‚˜ ์‘์šฉ์„ ๋‹ค๋ฃจ๋Š” ๊ด€๋ จ ์—ฐ๊ตฌ๋กœ ์„œ๋ฒ ์ด์™€ ์ƒํ˜ธ ๋ณด์™„์ ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
160์€ ๋ฉ€ํ‹ฐ์—์ด์ „ํŠธ ๊ธฐ๋ฐ˜ ๋ฐ”์ด์˜ค์ธํฌ๋งคํ‹ฑ์Šค ๋ถ„์„ ์ž๋™ํ™” ์‚ฌ๋ก€๋กœ, 3274์˜ adaptive immune receptor ๋ถ„์„๊ณผ ์ง์ ‘์ ์ธ ๋Œ€์ฒด ์ ‘๊ทผ๋ฒ•์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
์˜์ƒ๋ช… ๋ฐ์ดํ„ฐ ๊ณผํ•™ ์—์ด์ „ํŠธ(BioDSA-1K)์— ๋Œ€ํ•œ ๋ฒค์น˜๋งˆํฌ๋กœ, BioAgents์˜ ์„ฑ๋Šฅ ๋ฐ ๋„๋ฉ”์ธ ์ ์šฉ ๋ฒ”์œ„๋ฅผ ํ‰๊ฐ€ํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
BioAgents(160)๋Š” scAgent์ฒ˜๋Ÿผ ๋Œ€๊ทœ๋ชจ ๋ฐ”์ด์˜ค์ธํฌ๋งคํ‹ฑ์Šค ๋ถ„์„์—์„œ LLM ๊ธฐ๋ฐ˜ ๋ฉ€ํ‹ฐ์—์ด์ „ํŠธ ํ”„๋ ˆ์ž„์›Œํฌ ํ™œ์šฉ์„ ํ™•๋Œ€ํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Bio์ •๋ณดํ•™ ๋‹ค์ค‘์—์ด์ „ํŠธ ํ”Œ๋žซํผ์˜ ์„ฑ๊ณต์  ์‚ฌ๋ก€์™€ ์˜๋ฃŒ ๋„๋ฉ”์ธ ์˜์‚ฌ๊ฒฐ์ • ์ง€์› ํ˜‘์—…๋ฐฉ์‹์„ ํ•จ๊ป˜ ๋…ผ์˜ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
160 BioAgents ๋…ผ๋ฌธ์€ ๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜ ๋‹ค์ค‘ ์—์ด์ „ํŠธ ์‹œ์Šคํ…œ ์„ค๊ณ„ ๋ฐ ์‹ค์ œ ๋ฐ”์ด์˜ค ๋ถ„์•ผ ์ ์šฉ ์‚ฌ๋ก€๋กœ, 663์—์„œ ์ž„์ƒ ์ง€์›์šฉ MAS๋ฅผ ๋” ๊ตฌ์ฒดํ™”ํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ด์ค๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
SciAgents๋Š” ๋ฐ”์ด์˜ค ์ •๋ณด ๋ฐ ์‹œ์Šคํ…œ ์ƒ๋ฌผํ•™ ์ž๋™ํ™”๋ฅผ ์‹คํ˜„ํ•˜๋Š” ์—์ด์ „ํŠธ ๊ตฌ์กฐ๋ฅผ ์ œ์•ˆํ•˜์—ฌ, BioAgents์˜ ์‹ค์ œ ํ™œ์šฉ ์‚ฌ๋ก€๋กœ ์ฝ์„ ์ˆ˜ ์žˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
๋‹ค์ค‘์—์ด์ „ํŠธ ์‹œ์Šคํ…œ์„ ํ†ตํ•œ ์ž„์ƒ ์˜์‚ฌ๊ฒฐ์ • ์ง€์›์—์„œ์˜ ํ™œ์šฉ ์‚ฌ๋ก€๊ฐ€, ์ƒ๋ฌผ์ •๋ณดํ•™ ์ž๋™ํ™”์™€ ์ ‘๋ชฉ๋  ์ˆ˜ ์žˆ์Œ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •