BioInformatics Agent (BIA): Unleashing the Power of Large Language Models to Reshape Bioinformatics Workflow

์ €์ž: Q. Xin, Quyu Kong, Hongyi Ji, Yue Shen, Yuqi Liu | ๋‚ ์งœ: 2024 | DOI: 10.1101/2024.05.22.595240 📄 PDF


Essence

Figure 1: BIA ์ „์ฒด ํ”„๋ ˆ์ž„์›Œํฌ ๊ฐœ์š”

BIA์˜ ์ž…๋ ฅ ์ฒ˜๋ฆฌ, ์ƒ์„ฑ ๊ณผ์ •, ์‘๋‹ต ํ‰๊ฐ€, ํ”ผ๋“œ๋ฐฑ ๋ฃจํ”„, ์ „๋‹ฌ์˜ 5๋‹จ๊ณ„ ์›Œํฌํ”Œ๋กœ์šฐ

๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ(LLM) ๊ธฐ๋ฐ˜ ์ƒ๋ฌผ์ •๋ณดํ•™ ์—์ด์ „ํŠธ(BIA)๋ฅผ ๊ฐœ๋ฐœํ•˜์—ฌ ์ž์—ฐ์–ด ๋Œ€ํ™”๋ฅผ ํ†ตํ•ด ๋‹จ์ผ์„ธํฌ RNA ์‹œํ€€์‹ฑ(scRNA-seq) ๋ฐ์ดํ„ฐ์˜ ์ž๋™ ๋ถ„์„ ํŒŒ์ดํ”„๋ผ์ธ์„ ์‹คํ˜„ํ–ˆ๋‹ค. ์‚ฌ์šฉ์ž๋Š” ๋ณต์žกํ•œ ํ”„๋กœ๊ทธ๋ž˜๋ฐ ์—†์ด ์ƒ๋ฌผ์ •๋ณดํ•™ ๋ถ„์„์˜ ์ „์ฒด ๊ณผ์ •์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋‹ค.

Motivation

Achievement

Figure 3: ๋กœ์ปฌ ๋ฐ ๊ณต๊ฐœ ๋ฐ์ดํ„ฐ๋ฒ ์ด์Šค ๊ฒ€์ƒ‰

BIA์˜ ๋ฐ์ดํ„ฐ์…‹ ๊ฒ€์ƒ‰ ๋ฐ ํš๋“ ํ”„๋กœ์„ธ์Šค

Figure 4: ์ƒ๋ฌผ์ •๋ณดํ•™ ๋ถ„์„ ํ”„๋กœ์„ธ์Šค ๋ฐ ๊ฒฐ๊ณผ ๊ฐœ์š”

๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ๋ถ€ํ„ฐ ๋ถ„์„ ๊ฒฐ๊ณผ ๋„์ถœ๊นŒ์ง€์˜ ์ „์ฒด ํŒŒ์ดํ”„๋ผ์ธ

  1. ํฌ๊ด„์  ์ž๋™ํ™” ํŒŒ์ดํ”„๋ผ์ธ: ๋ฐ์ดํ„ฐ ์ถ”์ถœ, ๋ฉ”ํƒ€๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ, ์›Œํฌํ”Œ๋กœ์šฐ ์„ค๊ณ„, ์ฝ”๋“œ ์ƒ์„ฑ, ๋ณด๊ณ ์„œ ์ž‘์„ฑ์„ ์ž์—ฐ์–ด๋กœ ํ†ต์ œ
  2. ์ง€๋Šฅํ˜• ๋„๊ตฌ ํ†ตํ•ฉ: ENA, NCBI, GEO ๋“ฑ ๊ณต๊ฐœ ๋ฐ์ดํ„ฐ๋ฒ ์ด์Šค ์—ฐ๋™ ๋ฐ Cell Ranger, Scanpy ๋“ฑ ์ƒ๋ฌผ์ •๋ณด ๋„๊ตฌ ์ž๋™ ํ˜ธ์ถœ
  3. ์ ์‘์  ๋ฉ”ํƒ€๋ฐ์ดํ„ฐ ์ถ”์ถœ: LLM์˜ ์–ธ์–ด ์ดํ•ด๋ ฅ์œผ๋กœ ๋น„์ •ํ˜• ํ…์ŠคํŠธ์—์„œ ๊ตฌ์กฐํ™”๋œ ๋ฉ”ํƒ€๋ฐ์ดํ„ฐ ์ž๋™ ์ถ”์ถœ
  4. ์œ ์—ฐํ•œ ๋ฐ์ดํ„ฐ ํฌ๋งท ์ฒ˜๋ฆฌ: SRA, FASTQ, MTX, TSV, RData ๋“ฑ ๋‹ค์–‘ํ•œ ํ˜•์‹์˜ ์นด์šดํŠธ ๋งคํŠธ๋ฆญ์Šค๋ฅผ Anndata ํ‘œ์ค€ ํ˜•์‹์œผ๋กœ ์ž๋™ ๋ณ€ํ™˜

How

Figure 2: ์ƒ๋ฌผ์ •๋ณดํ•™ ๋„๊ตฌ ํ˜ธ์ถœ์ž ํ๋ฆ„๋„

Thought-Action-Observation ๋ฃจํ”„๋ฅผ ํ†ตํ•œ ๋„๊ตฌ ์„ ํƒ ๋ฐ ์‹คํ–‰ ๋ฉ”์ปค๋‹ˆ์ฆ˜

Originality

Limitation & Further Study

Evaluation

์ดํ‰: BIA๋Š” LLM์„ ์ƒ๋ฌผ์ •๋ณดํ•™ ๋ถ„์„์— ์ฐฝ์˜์ ์œผ๋กœ ์ ์šฉํ•˜์—ฌ ์‚ฌ์šฉ์ž ์ง„์ž… ์žฅ๋ฒฝ์„ ํš๊ธฐ์ ์œผ๋กœ ๋‚ฎ์ถœ ์ˆ˜ ์žˆ๋Š” ์‹ค์šฉ์  ๋„๊ตฌ๋ฅผ ์ œ์‹œํ–ˆ์œผ๋‚˜, ์„ฑ๋Šฅ ๊ฒ€์ฆ์˜ ์—„๊ฒฉํ•จ ๋ถ€์กฑ๊ณผ ๋‹จ์ผ ๋ฐ์ดํ„ฐ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ์— ๋Œ€ํ•œ ์ œํ•œ์œผ๋กœ ์ธํ•ด ํ˜„์žฌ๋กœ์„œ๋Š” ๊ฐœ๋… ์ž…์ฆ(proof of concept) ์ˆ˜์ค€์œผ๋กœ ํ‰๊ฐ€๋œ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
699์˜ ๋Œ€๊ทœ๋ชจ ๋‹จ์ผ์„ธํฌ ๋ฐ์ดํ„ฐ ๋ถ„์„ ๋„๊ตฌ๋Š” 164์ฒ˜๋Ÿผ ๋„๋ฉ”์ธ ํŠนํ™” ๋ถ„์„์˜ ๋ฐฑ์—”๋“œ๋กœ ํ™œ์šฉ ๊ฐ€๋Šฅํ•˜๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
์ƒ๋ฌผ์ •๋ณดํ•™ AI์— ์†Œํ˜• ์–ธ์–ด๋ชจ๋ธ์„ ์ ์šฉํ•œ ์‚ฌ๋ก€๋กœ, ๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜ ์ž๋™ํ™” ๋ฐ ๊ฒ€์ƒ‰ ํ†ตํ•ฉ ๋ฐฉ์•ˆ์„ ๊ตฌ์ฒดํ™”ํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
BioInformatics Agent๋Š” ์ƒ๋ฌผ์ •๋ณดํ•™&์œ ์ „์ฒด ๊ธฐ๋ฐ˜ LLM agent์˜ ์„ค๊ณ„์™€ ์‹คํ™œ์šฉ case๋ฅผ ์ œ์‹œํ•˜์—ฌ RNA Foundation Model์˜ agentๅŒ–, ์ ์šฉ ๋ฐฉํ–ฅ ์ฐธ๊ณ ๊ฐ€ ๋œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
705๋Š” ์ƒ๋ฌผ์ •๋ณดํ•™ ์˜์—ญ์—์„œ ๋ฐ”์ด์˜ค์ธ์ŠคํŒŒ์ด์–ด๋“œ ๋ฉ€ํ‹ฐ์—์ด์ „ํŠธ ์ž๋™ํ™”๋ฅผ ์‹คํ˜„ํ•ด, BIA์™€ ์œ ์‚ฌ ๋ชฉํ‘œ๋ฅผ ๋‹ค๋ฅด์ง€๋งŒ ๋น„๊ตํ•  ์ˆ˜ ์žˆ๋Š” ๋ฐฉ์‹์œผ๋กœ ๊ตฌํ˜„ํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Data Interpreter๋Š” ๋ฐ์ดํ„ฐ ๋ถ„์„ ์ž๋™ํ™”๋ฅผ ๋ชฉํ‘œ๋กœ ํ•˜๋ฉฐ, ๋ณต์žกํ•œ ๋ฐ”์ด์˜ค ์ธํฌ๋งคํ‹ฑ์Šค ๋Œ€์‹  ๋‹ค์–‘ํ•œ ๋„๋ฉ”์ธ์˜ ๋ฐ์ดํ„ฐ ์‚ฌ์ด์–ธ์Šค์— ์ ์šฉํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋‹จ๋ฐฑ์งˆ์ฒดํ•™ ๋˜๋Š” ์ƒ๋ฌผ์ •๋ณดํ•™ ๋ถ„์„ ์ž๋™ํ™”์˜ ๊ด€๋ จ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋‹จ์ผ์„ธํฌ ๋ฐ์ดํ„ฐ ๋ถ„์„์„ ์œ„ํ•œ LLM ๊ธฐ๋ฐ˜ ๋‹ค์ค‘ ์—์ด์ „ํŠธ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•˜๋Š” ์œ ์‚ฌํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋ณต์žกํ•œ ์ƒ๋ฌผ์ •๋ณดํ•™ ์›Œํฌํ”Œ๋กœ์šฐ๋ฅผ ์ž๋™ํ™”ํ•˜๊ธฐ ์œ„ํ•œ ๋Œ€ํ™”ํ˜• AI ์—์ด์ „ํŠธ๋ฅผ ์—ฐ๊ตฌํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
160์€ ๋‹ค์ค‘ ์—์ด์ „ํŠธ ๊ธฐ๋ฐ˜ ์ƒ๋ฌผ์ •๋ณดํ•™ ๋ถ„์„ ์ž๋™ํ™”๋ผ๋Š” ์ ์—์„œ BIA์™€ ์œ ์‚ฌํ•˜์ง€๋งŒ ์ ์šฉํ•˜๋Š” ๊ณผ์ œ๋‚˜ ํ”„๋ ˆ์ž„์›Œํฌ์˜ ๋””์ž์ธ์ด ์ƒ์ดํ•˜๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
164๋Š” ๋ฐ”์ด์˜ค์ธํฌ๋งคํ‹ฑ์Šค ์—์ด์ „ํŠธ(BIA)๋ฅผ ํ†ตํ•ด ์œ ์‚ฌํ•œ ๋‹จ์ผ์„ธํฌ ๋ฐ ์ƒ๋ช…๊ณผํ•™ ๋ฐ์ดํ„ฐ ๋ถ„์„์—์„œ์˜ LLM ํ™œ์šฉ์„ ํƒ๊ตฌํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
BioInformatics Agent(BIA)๋Š” ๊ธฐ์ดˆ๋ชจ๋ธ FM ๊ธฐ๋ฐ˜ ์ƒ๋ฌผ์ •๋ณด ์‹œ์Šคํ…œ์„ ํ™•์žฅํ•˜์—ฌ, Foundation models in bioinformatics ๋…ผ๋ฌธ์˜ ์ตœ๊ทผ ์‹ค์šฉ์  ์ง„์ „์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •