SCANPY: large-scale single-cell gene expression data analysis

์ €์ž: F. A. Wolf, Philipp Angerer, Fabian J Theis | ๋‚ ์งœ: 2018 | DOI: 10.1186/s13059-017-1382-0 📄 PDF


Essence

SCANPY๋Š” ๋ฐฑ๋งŒ ๊ฐœ ์ด์ƒ์˜ ์„ธํฌ๋ฅผ ํฌํ•จํ•œ ๋Œ€๊ทœ๋ชจ ๋‹จ์ผ์„ธํฌ ์œ ์ „์ž ๋ฐœํ˜„ ๋ฐ์ดํ„ฐ๋ฅผ ํšจ์œจ์ ์œผ๋กœ ๋ถ„์„ํ•  ์ˆ˜ ์žˆ๋Š” Python ๊ธฐ๋ฐ˜ ํ™•์žฅ ๊ฐ€๋Šฅํ•œ ํˆดํ‚ท์œผ๋กœ, ๊ธฐ์กด R ๊ธฐ๋ฐ˜ ํ”„๋ ˆ์ž„์›Œํฌ๋“ค(Seurat, Monocle ๋“ฑ)๋ณด๋‹ค 5-90๋ฐฐ ๋น ๋ฅธ ์„ฑ๋Šฅ์„ ์ œ๊ณตํ•œ๋‹ค.

Motivation

Achievement

Fig 1a - SCANPY ๋ถ„์„ ๊ธฐ๋Šฅ ๊ฐœ์š”

Figure 1a: 68,579๊ฐœ์˜ ๋ง์ดˆํ˜ˆ์•ก ๋‹จํ•ต์„ธํฌ(PBMC)๋ฅผ ์ด์šฉํ•œ SCANPY์˜ ๋ถ„์„ ํŒŒ์ดํ”„๋ผ์ธ: ์ „์ฒ˜๋ฆฌ, ์ •๊ทœํ™”, ๊ณ ๋ณ€์ด์„ฑ ์œ ์ „์ž ์‹๋ณ„, t-SNE ๋ฐ ๊ทธ๋ž˜ํ”„ ๋“œ๋กœ์ž‰ ์‹œ๊ฐํ™”, Louvain ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ํ†ตํ•œ ํด๋Ÿฌ์Šคํ„ฐ๋ง, ์ฐจ๋“ฑ ๋ฐœํ˜„ ์œ ์ „์ž ๊ฒ€์ฆ, ์˜์‚ฌ์‹œ๊ฐ„ ์ˆœ์„œํ™”๋ฅผ ํ†ตํ•œ ๋ถ„๊ธฐ ๊ถค์  ์žฌ๊ตฌ์„ฑ

  1. ์„ฑ๋Šฅ ์šฐ์ˆ˜์„ฑ: Cell Ranger R ํ‚ท ๋Œ€๋น„ 5-16๋ฐฐ์˜ ์†๋„ ํ–ฅ์ƒ(68,579 PBMC ๋ฐ์ดํ„ฐ์…‹); Seurat ํŠœํ† ๋ฆฌ์–ผ ๊ฐ ๋‹จ๊ณ„๋ณ„๋กœ 5-90๋ฐฐ ์†๋„ ํ–ฅ์ƒ
  2. ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ: 8๊ฐœ ์ฝ”์–ด์˜ ์†Œ๊ทœ๋ชจ ์„œ๋ฒ„์—์„œ 130๋งŒ ๊ฐœ ์„ธํฌ๋ฅผ ๋ช‡ ์‹œ๊ฐ„ ๋‚ด์— ์„œ๋ธŒ์ƒ˜ํ”Œ๋ง ์—†์ด ๋ถ„์„ ๊ฐ€๋Šฅ; ์•ฝ 100,000 ๊ฐœ ์„ธํฌ ๊ทœ๋ชจ์—์„œ ์ดˆ ๋‹จ์œ„์˜ ์ธํ„ฐ๋ž™ํ‹ฐ๋ธŒ ๋ถ„์„ ์‹œ๊ฐ„ ๋‹ฌ์„ฑ
  3. ์ข…ํ•ฉ ๋ถ„์„ ๊ธฐ๋Šฅ: ์ „์ฒ˜๋ฆฌ, ์‹œ๊ฐํ™”(t-SNE, ํ™•์‚ฐ๋งต), ํด๋Ÿฌ์Šคํ„ฐ๋ง(Louvain), ๋งˆ์ปค ์œ ์ „์ž ์‹๋ณ„, ์˜์‚ฌ์‹œ๊ฐ„ ์ˆœ์„œํ™”(diffusion pseudotime), ๋ถ„๊ธฐ ๊ถค์  ์žฌ๊ตฌ์„ฑ, ์œ ์ „์ž ์กฐ์ ˆ ๋„คํŠธ์›Œํฌ ์‹œ๋ฎฌ๋ ˆ์ด์…˜, ๋”ฅ๋Ÿฌ๋‹ ๊ฒฐ๊ณผ ๋ถ„์„ ๋“ฑ ํฌ๊ด„์  ๊ธฐ๋Šฅ ์ œ๊ณต

How

Originality

Limitation & Further Study

Evaluation

Novelty: 4.5/5 Technical Soundness: 4.5/5 Significance: 5/5 Clarity: 4.5/5 Overall: 4.5/5

์ดํ‰: SCANPY๋Š” ๋น ๋ฅด๊ฒŒ ์„ฑ์žฅํ•˜๋Š” ๋‹จ์ผ์„ธํฌ ์œ ์ „์ฒด ๋ถ„์„ ๋ถ„์•ผ์—์„œ Python ์ƒํƒœ๊ณ„์— ์ฒ˜์Œ์œผ๋กœ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ๊ฐ€ ๊ฐ€๋Šฅํ•œ ํฌ๊ด„์  ๋„๊ตฌํ‚ท์„ ์ œ๊ณตํ•จ์œผ๋กœ์จ, ํ•™๊ณ„์™€ ์‚ฐ์—…๊ณ„์— ์ฆ‰๊ฐ์ ์ด๊ณ  ์ง€์†์ ์ธ ์˜ํ–ฅ์„ ๋ฏธ์ณค์œผ๋ฉฐ, ํŠนํžˆ AnnData ํด๋ž˜์Šค๋Š” ํ›„์† ๋„๊ตฌ๋“ค์˜ ํ‘œ์ค€์œผ๋กœ ์ฑ„ํƒ๋  ์ •๋„๋กœ ๊ธฐ์—ฌ๋„๊ฐ€ ๋งค์šฐ ๋†’๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
SCANPY๋Š” ๋Œ€๊ทœ๋ชจ ๋‹จ์ผ์„ธํฌ ์œ ์ „์ž ๋ฐœํ˜„ ๋ถ„์„์—์„œ ๋ณธ ์—ฐ๊ตฌ์˜ ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ ๋ฐ ๋ถ„์„์˜ ๊ธฐ๋ฐ˜ ํˆด์ž…๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
์œ ์ „์ž ๋ฐœํ˜„ ์˜ˆ์ธก ๋ชจ๋ธ ์—ฐ๊ตฌ์—์„œ SCANPY๊ฐ€ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ์˜ ์‹ค์งˆ์  ๊ธฐ๋ฐ˜์ด ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
SCAnpy(699)๋Š” ๋Œ€๊ทœ๋ชจ single-cell gene expression ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ์™€ ๋ถ„์„์˜ ํ‘œ์ค€ platform์œผ๋กœ, 749์˜ ์ƒ๋ฌผํ•™์  sequence ์˜ˆ์ธก/์ƒ์„ฑ์— ๊ธฐ๋ฐ˜์ด ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
699๋ฒˆ(SCANPY)์€ ๋‹จ์ผ์„ธํฌ RNA ๋ถ„์„์˜ ํ‘œ์ค€ ํˆด๋กœ, CellAgent๊ฐ€ LLM ์—์ด์ „ํŠธ๋กœ ์ž๋™ํ™”ํ•œ ๊ธฐ์กด ์›Œํฌํ”Œ๋กœ์šฐ์˜ ๊ธฐ๋ฐ˜์ž…๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
699์˜ ๋Œ€๊ทœ๋ชจ ๋‹จ์ผ์„ธํฌ ๋ฐ์ดํ„ฐ ๋ถ„์„ ๋„๊ตฌ๋Š” 164์ฒ˜๋Ÿผ ๋„๋ฉ”์ธ ํŠนํ™” ๋ถ„์„์˜ ๋ฐฑ์—”๋“œ๋กœ ํ™œ์šฉ ๊ฐ€๋Šฅํ•˜๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
์„ธํฌ ์ฃผ์„์„ ์œ„ํ•œ ๊ธฐ์ดˆ์ ์ธ ๋ฐฉ๋ฒ•๋ก ์„ ์ œ๊ณตํ•˜๋Š” ๊ด€๋ จ ์—ฐ๊ตฌ์ด๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
699๋Š” ๋‹จ์ผ์„ธํฌ ์œ ์ „์ž ๋ฐœํ˜„ ๋ฐ์ดํ„ฐ ๋ถ„์„ ํ‘œ์ค€ ๋ฐฉ๋ฒ•๋ก ์„ ์ œ๊ณตํ•˜์—ฌ, 693์˜ LLM ๊ธฐ๋ฐ˜ ์„ธํฌ ์ฃผ์„ ์ž๋™ํ™”์˜ ๋ฐ์ดํ„ฐ์  ๊ธฐ๋ฐ˜์ด ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๋Œ€๊ทœ๋ชจ ๋‹จ์ผ์„ธํฌ ์œ ์ „์ž ๋ฐ์ดํ„ฐ ๋ถ„์„ ๋ฐฉ๋ฒ•๋ก ๊ณผ ์ธ๊ธฐ Python ํˆดํ‚ท ๊ตฌ์กฐ๊ฐ€ scBaseCamp์˜ ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ/์ €์žฅ์†Œ ๊ตฌ์ถ•์— ๊ธฐ์ดˆ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๋‹จ์ผ์„ธํฌ RNA ๋ถ„์„์˜ ๊ธฐ๋ณธ ํŒŒ์ด์ฌ ์ƒํƒœ๊ณ„(scverse, AnnData, SCANPY ๋“ฑ)์— ๊ธฐ๋ฐ˜ํ•ด Cell2Sentence LLM ํ”„๋ ˆ์ž„์›Œํฌ๊ฐ€ ๊ตฌํ˜„๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๋‹จ์ผ์„ธํฌ ์œ ์ „์ž ๋ฐœํ˜„ ๋ฐ์ดํ„ฐ ๋ถ„์„์—์„œ ๊ธฐ๋ณธ์ด ๋˜๋Š” ๋Œ€๊ทœ๋ชจ ํŒŒ์ด์ฌ ๊ธฐ๋ฐ˜ ๋„๊ตฌ๋กœ, edgePython ๊ตฌํ˜„๊ณผ ์ง์ ‘์ ์œผ๋กœ ๊ด€๋ จ์ด ์žˆ์Šต๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
SCANPY ๋“ฑ ๋Œ€๊ทœ๋ชจ single-cell ์‹œํ€€์‹ฑ ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ ํŒŒ์ดํ”„๋ผ์ธ์ด, MEIsensor์˜ ์‹œํ€€์Šค๊ธฐ๋ฐ˜ mobile element ๊ฒ€์ถœ ์—ฐ๊ตฌ์˜ ์‹ค์งˆ์  ๋ฐฐ๊ฒฝ์ด ๋œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋‹จ์ผ์„ธํฌ ๋ฐ์ดํ„ฐ ์ž๋™ ์ฃผ์„ํ™”์™€ ๋ถ„์„์„ ์œ„ํ•œ LLM ์—์ด์ „ํŠธ(scAgent) ์ ‘๊ทผ๋ฒ•์„ ์‹ค์šฉ์ ์œผ๋กœ ๋น„๊ตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
scBaseCamp๋Š” ๋Œ€๊ทœ๋ชจ ๋‹จ์ผ์„ธํฌ ๋ฐ์ดํ„ฐ ์ „์ฒ˜๋ฆฌ์™€ ์ฃผ์„ ํŒŒ์ดํ”„๋ผ์ธ์„ ์ œ๊ณตํ•˜๋ฏ€๋กœ, CLM-X์˜ ํ†ตํ•ฉ ๋ถ„์„ ๋ชจ๋ธ๊ณผ ๋ฐ์ดํ„ฐ ํ™œ์šฉ ์ธก๋ฉด์—์„œ ๋น„๊ต๋œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋‹ค์ค‘์˜ค๋ฏน์Šค ๋ฐ์ดํ„ฐ ํ†ตํ•ฉ ๋ฐ ์„ธํฌ ์ƒํƒœ ์ถ”๋ก ์„ ์œ„ํ•œ ์œ ์‚ฌํ•œ ๊ณ„์‚ฐ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์‹œํ•˜๋Š” ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋‹จ์ผ์„ธํฌ ํ•ด์ƒ๋„์˜ ๊ฒŒ๋†ˆ ๊ตฌ์กฐ ๋˜๋Š” ์ ‘์ด‰ ๋ฐ์ดํ„ฐ ๋ถ„์„์„ ์œ„ํ•œ ๊ด€๋ จ ๊ณ„์‚ฐ ๋ฐฉ๋ฒ•๋ก  ์—ฐ๊ตฌ์ด๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
WNN ๋ฐฉ๋ฒ•๋ก  ๋…ผ๋ฌธ์€ SCANPY๋กœ ์ •์ œ๋œ ๋ฐ์ดํ„ฐ์˜ ๋‹จ์ผ์„ธํฌ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ถ„์„์„ ์ถ”๊ฐ€์ ์œผ๋กœ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜์˜€์Šต๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Efficient fine-tuning of single-cell foundation models ๋…ผ๋ฌธ์€ SCANPY๋กœ ์ •์ œ๋œ ๋‹จ์ผ์„ธํฌ ๋ฐ์ดํ„ฐ์™€ FM ๊ฒฐํ•ฉ ์—ฐ๊ตฌ์˜ ๊ตฌ์ฒด์  ํ™•์žฅ์ž…๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
SCANPY ์ดํ›„, ๋” ๋งŽ์€ ๋Œ€๊ทœ๋ชจ ๋‹จ์ผ์„ธํฌ ๋ฐ์ดํ„ฐ๋ฅผ AI ์—์ด์ „ํŠธ ๊ธฐ๋ฐ˜์œผ๋กœ ํ‘œ์ค€ํ™” ์ฒ˜๋ฆฌํ•˜๋ฉฐ, ๋ฐ์ดํ„ฐ ์ €์žฅ์†Œ ์ž๋™ํ™”์˜ ์ง„ํ™”๋ฅผ ๋‹ค๋ฃน๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
CLM-X๋Š” ๋‹ค์–‘ํ•œ ๋‹จ์ผ์„ธํฌ ๋ฐ์ดํ„ฐ์™€ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์œตํ•ฉ์„ ๋‹ค๋ฃจ๋ฏ€๋กœ, SCANPY์˜ ๋Œ€๊ทœ๋ชจ ๋‹จ์ผ์„ธํฌ ๋ฐ์ดํ„ฐ ๋ถ„์„ ํ•œ๊ณ„๋ฅผ ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
699์€ ๋Œ€๊ทœ๋ชจ ๋‹จ์ผ์„ธํฌ ๋ฐ์ดํ„ฐ ์…‹์—์„œ AI ๊ธฐ๋ฐ˜ ์ž๋™ ์ฃผ์„ ๋ฐ holistic ๋ถ„์„์„ ์œ„ํ•ด 3201์˜ embedding ์ ‘๊ทผ์„ ์ ์šฉ ๋ฐ ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
699์˜ ๋‹จ์ผ์„ธํฌ ๋ฐ์ดํ„ฐ ๋ถ„์„ ํŒŒ์ดํ”„๋ผ์ธ์—์„œ scispaCy์˜ NER์™€ ํ…์ŠคํŠธ ํŒŒ์‹ฑ ๊ธฐ๋Šฅ์ด ์‹ค์ œ ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ์— ํ™œ์šฉ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •