Integrated analysis of multimodal single-cell data

์ €์ž: Y. Hao, S. Hao, E. Andersen-Nissen, William M. Mauck, Shiwei Zheng ์™ธ | ๋‚ ์งœ: 2020 | DOI: 10.1101/2020.10.12.335331 📄 PDF


Essence

Figure 1

Figure 1: Schematic overview of multimodal integration using Weighted Nearest Neighbor analysis

๋ณธ ๋…ผ๋ฌธ์€ multimodal single-cell data ๋ถ„์„์„ ์œ„ํ•ด weighted-nearest neighbor (WNN) ๋ถ„์„์ด๋ผ๋Š” ๋น„๊ฐ๋… ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•œ๋‹ค. ์ด ๋ฐฉ๋ฒ•์€ ๊ฐ ์„ธํฌ์—์„œ ๊ฐ ๋ฐ์ดํ„ฐ ํƒ€์ž…(์˜ˆ: RNA์™€ protein)์˜ ์ƒ๋Œ€์  ์ •๋ณด ๊ฐ€์น˜๋ฅผ ํ•™์Šตํ•˜์—ฌ ์„ธํฌ ์ƒํƒœ๋ฅผ ์ •์˜ํ•˜๊ณ , ๊ธฐ์กด์˜ ๋‹จ์ผ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ ๋ถ„์„์˜ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•  ์ˆ˜ ์žˆ๋‹ค.

Motivation

Achievement

Figure 1

Figure 1: Schematic overview of multimodal integration using Weighted Nearest Neighbor analysis

WNN ๋ฐฉ๋ฒ•๋ก  ๊ฐœ๋ฐœ: RNA์™€ protein modality์˜ ์ •๋ณด ๊ฐ€์น˜๋ฅผ ์ž๋™์œผ๋กœ ํ•™์Šตํ•˜๊ณ  ์„ธํฌ๋ณ„ ๊ฐ€์ค‘์น˜๋ฅผ ๊ณ„์‚ฐํ•˜๋Š” ๋ฐฉ๋ฒ• ์ œ์‹œ. ๋Œ€๊ทœ๋ชจ atlas ๊ตฌ์ถ•: 228๊ฐœ ํ•ญ์ฒด ํŒจ๋„์„ ํฌํ•จํ•œ CITE-seq ๋ฐ์ดํ„ฐ 211,000 human PBMC์˜ multimodal reference atlas ์ƒ์„ฑ. ์„ธํฌ ์ƒํƒœ ํ•ด์„ ๊ฐœ์„ : WNN ๋ถ„์„์œผ๋กœ ๋‹จ์ผ modality ๋ถ„์„ ๋Œ€๋น„ ์„ธํฌ ์ƒํƒœ ์ •์˜ ๋Šฅ๋ ฅ ํ–ฅ์ƒ ๋ฐ ๋ฏธ๋ณด๊ณ  ๋ฆผํ”„๊ตฌ ์„œ๋ธŒํƒ€์ž… ๋ฐœ๊ฒฌ ๋ฐ ๊ฒ€์ฆ. ์‹ค์ œ ์‘์šฉ: ๋ฐฑ์‹  ์ ‘์ข… ๋ฐ COVID-19 ๊ฐ์—ผ์— ๋Œ€ํ•œ ๋ฉด์—ญ ์‘๋‹ต ํ•ด์„์— ์„ฑ๊ณต์ ์œผ๋กœ ์ ์šฉ.

How

Figure 1

Figure 1: Schematic overview of multimodal integration using Weighted Nearest Neighbor analysis

Originality

Limitation & Further Study

Evaluation

Novelty: 4/5 Technical Soundness: 4/5 Significance: 5/5 Clarity: 4/5 Overall: 4/5

์ดํ‰: ๋ณธ ๋…ผ๋ฌธ์€ multimodal single-cell ๋ฐ์ดํ„ฐ ๋ถ„์„์˜ ์ค‘์š”ํ•œ ๊ณ„์‚ฐ ๋ฐฉ๋ฒ•๋ก ์„ ์ œ์‹œํ•˜๋ฉฐ, 211,000 ์„ธํฌ ๊ทœ๋ชจ์˜ multimodal reference atlas ๊ตฌ์ถ•์œผ๋กœ ์‹ค์ œ ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ์„ ์ž…์ฆํ–ˆ๋‹ค. WNN ๋ฐฉ๋ฒ•์˜ ๊ฐœ๋…์  ๋ช…ํ™•์„ฑ, ๋ฐฉ๋ฒ•์˜ ์ผ๋ฐ˜์„ฑ, ๊ทธ๋ฆฌ๊ณ  Seurat ์˜คํ”ˆ์†Œ์Šค ํˆดํ‚ท ๊ตฌํ˜„์œผ๋กœ ์ธํ•œ ๋†’์€ ์˜ํ–ฅ๋ ฅ์„ ๊ณ ๋ คํ•  ๋•Œ ์šฐ์ˆ˜ํ•œ ๊ธฐ์—ฌ๋„๋ฅผ ๊ฐ€์ง„ ๋…ผ๋ฌธ์ด๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
SCANPY๋Š” ๋Œ€๊ทœ๋ชจ ๋‹จ์ผ์„ธํฌ ์œ ์ „์ž ๋ฐœํ˜„ ๋ถ„์„์—์„œ ๋ณธ ์—ฐ๊ตฌ์˜ ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ ๋ฐ ๋ถ„์„์˜ ๊ธฐ๋ฐ˜ ํˆด์ž…๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Integrated analysis of multimodal single-cell data ๋…ผ๋ฌธ์€ ๋‹จ์ผ์„ธํฌ ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ, ์œ ์ „์ž ๋ฐœํ˜„ ์˜ˆ์ธก์˜ ๋ถ„์„ ๋ฐ ํ†ตํ•ฉ ๋ฐฉ๋ฒ•๋ก  ๊ธฐ๋ฐ˜์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๋‹จ์ผ์„ธํฌ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ฐ์ดํ„ฐ ํ†ตํ•ฉ(WNN ๋ฐฉ๋ฒ•)์„ ์ œ์‹œํ•œ ๋…ผ๋ฌธ์œผ๋กœ, Cell2Sentence ํ”„๋ ˆ์ž„์›Œํฌ์˜ ์ƒ๋ฌผ์ •๋ณดํ†ตํ•ฉ ์ ‘๊ทผ์˜ ๊ธฐ๋ฐ˜์ด ๋œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๋‹จ์ผ์„ธํฌ, ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ฐ์ดํ„ฐ ํ†ตํ•ฉ ๋ถ„์„ ๋ฐฉ๋ฒ•์˜ ๋Œ€๋ช…์‚ฌ๋กœ์จ, APOLLO์˜ multi-modal embedding ํ”„๋ ˆ์ž„์›Œํฌ ํ•™์Šต ๋ฉ”์ปค๋‹ˆ์ฆ˜์˜ ํ† ๋Œ€๊ฐ€ ๋œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๋‹จ์ผ์„ธํฌ ๋‹ค์ค‘๋ชจ๋‹ฌ ๋ฐ์ดํ„ฐ ํ†ตํ•ฉ ๋ฐ ํ‘œํ˜„ ํ•™์Šต์˜ ๋ถ„๊ธฐ์ ์œผ๋กœ, ์กฐ์ง๋ณ‘๋ฆฌโ€“๊ณต๊ฐ„์ „์‚ฌ์ฒด ์œตํ•ฉ์˜ ์ด๋ก ์  ์‚ฌ๋ก€๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋‹จ์ผ์„ธํฌ ๋ฐ์ดํ„ฐ ํ†ตํ•ฉ ๋ถ„์„ ๋ฐฉ๋ฒ•์˜ ์„ ํ–‰ ์—ฐ๊ตฌ๋กœ, CLM-X์˜ multiway transformer ๊ตฌ์กฐ์˜ ๊ธฐ์ดˆ ๋ชจ๋ธ ์„ค๊ณ„์— ์˜ํ–ฅ์„ ์ค€๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Integrated analysis of multimodal single-cell data ๋…ผ๋ฌธ์€ ๋‹จ์ผ์„ธํฌ ๋ฐ์ดํ„ฐ ํ†ตํ•ฉ ๋ถ„์„์˜ ์ƒˆ๋กœ์šด ์ ‘๊ทผ์„ ์†Œ๊ฐœํ•˜์—ฌ, edgePython์˜ ๋‹จ์ผ์„ธํฌ ์œ ์ „์ž ๋ฐœํ˜„ ๋ฐ์ดํ„ฐ ๋ถ„์„ ํ™•์žฅ์— ๊ธฐ์ดˆ๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๋‹จ์ผ์„ธํฌ ๋‹ค์ค‘๋ชจ๋‹ฌ ๋ฐ์ดํ„ฐ ๋ถ„์„์˜ ํ†ตํ•ฉ์  ๊ธฐ์ดˆ๋ฅผ ์ œ๊ณตํ•˜์—ฌ Celcomen์ด ๊ณต๊ฐ„์  ์ธ๊ณผ disentanglement๋ฅผ ๊ตฌํ˜„ํ•˜๋Š” ๋ฐ ์ฃผ์š”ํ•œ ์ด๋ก ์  ๋ฐฐ๊ฒฝ์ด ๋œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๋ฉ€ํ‹ฐ์˜ค๋ฏน์Šค ๋‹จ์ผ์„ธํฌ ๋ฐ์ดํ„ฐ ํ†ตํ•ฉ ๋ถ„์„์˜ ํ•ต์‹ฌ ์ด๋ก ์  ํ”„๋ ˆ์ž„์œผ๋กœ, DECODE์˜ ํ•™์Šต ์ „๋žต ๋ฐ ๊ฒฐ๊ณผ ํ•ด์„์— ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๋‹จ์ผ์„ธํฌ ๋‹ค์ค‘๋ชจ๋‹ฌ ๋ฐ์ดํ„ฐ ํ†ตํ•ฉ ๋ถ„์„ ๋ฐฉ๋ฒ•๋ก ์„ ์ œ๊ณตํ•˜์—ฌ, Hi-Compass์˜ ์ž…๋ ฅยทํŠน์„ฑ ํ™•์žฅ์— ๊ธฐ๋ฐ˜์ด ๋ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
DNA ์„œ์—ด๋กœ ์œ ์ „์ž ๋ฐœํ˜„์„ ์˜ˆ์ธกํ•˜๋Š” ๋ฌธ์ œ์— ๋น„ํ•ด, ๋ณธ ๋…ผ๋ฌธ์€ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋‹จ์ผ์„ธํฌ ๋ฐ์ดํ„ฐ๋ฅผ ํ†ตํ•ฉ ๋ถ„์„ํ•˜๋Š” ๋Œ€์•ˆ์  ์—ฐ๊ตฌ์ž…๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
431(Integrated analysis...)์€ ์—ฌ๋Ÿฌ ๋ชจ๋‹ฌ์˜ ๋‹จ์ผ-์„ธํฌ ๋ฐ์ดํ„ฐ ํ†ตํ•ฉ์„ ์‹ค์ œ ์‹คํ—˜์— ์ ์šฉํ•˜๋Š” ์‚ฌ๋ก€๋กœ, 487์˜ ๋‹ค์ค‘๋ชจ๋‹ฌ ๋ฐฉ๋ฒ•๊ณผ ๋น„๊ต ์ดํ•ด์— ๋„์›€์„ ์ค๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋‹จ์ผ์„ธํฌ ๋ฐ์ดํ„ฐ์˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ํ†ตํ•ฉ ๋ถ„์„์„ ๋‹ค๋ฃจ๋Š” 431 ์—ฐ๊ตฌ๋Š” ๋‹จ์ผ์„ธํฌ ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ์˜ ํŒŒ์ธํŠœ๋‹๊ณผ ์ž๋ฃŒ ์ผ๋ฐ˜ํ™” ์ด์Šˆ์— ๋Œ€์•ˆ์ด ๋œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
ํ†ตํ•ฉ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋‹จ์ผ์„ธํฌ ๋ถ„์„ ๋…ผ๋ฌธ๊ณผ VAE-MS์˜ ๊ฒฐ๊ณผ๋ฅผ ๋น„๊ตํ•˜๋ฉด, ๋Œ์—ฐ๋ณ€์ด ์‹œ๊ทธ๋‹ˆ์ฒ˜ ์ถ”์ถœ ๋ฐฉ์‹์˜ ์ฐจ์ด๋ฅผ ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
ํฌ๋กœ๋งˆํ‹ด ๋ฃจํ”„ ๋˜๋Š” 3D ๊ฒŒ๋†ˆ ์กฐ์ง ๋ถ„์„์„ ์œ„ํ•œ ๋Œ€์•ˆ์  ๋ฐฉ๋ฒ•๋ก ์„ ๋‹ค๋ฃจ๋Š” ์—ฐ๊ตฌ์ด๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
WNN ๋ฐฉ๋ฒ•๋ก  ๋…ผ๋ฌธ์€ SCANPY๋กœ ์ •์ œ๋œ ๋ฐ์ดํ„ฐ์˜ ๋‹จ์ผ์„ธํฌ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ถ„์„์„ ์ถ”๊ฐ€์ ์œผ๋กœ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜์˜€์Šต๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
๋‹จ์ผ์„ธํฌ ์ˆ˜์ค€ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ฐ์ดํ„ฐ๋ฅผ ํ†ตํ•ฉ ๋ถ„์„ํ•˜๋Š” WNN ๋ฐฉ๋ฒ•๋„ ์œ ์ „์ž ๋ฐœํ˜„ ์˜ˆ์ธก์˜ ์ •๋ฐ€๋„๋ฅผ ๋†’์ด๊ธฐ ์œ„ํ•œ ํ™•์žฅ ์—ฐ๊ตฌ๋กœ ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Efficient fine-tuning of single-cell foundation models ๋…ผ๋ฌธ์€ ๋‹จ์ผ์„ธํฌ ๋ฐ์ดํ„ฐ์™€ ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ ๊ฒฐํ•ฉ ์—ฐ๊ตฌ์˜ ์‘์šฉ ํ™•์žฅ์ž…๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
scBaseCamp ๋…ผ๋ฌธ์€ ์ž๋™ํ™”๋œ ๋Œ€๊ทœ๋ชจ ๋‹จ์ผ์„ธํฌ ๋ฐ์ดํ„ฐ ํ†ตํ•ฉ ๋ฐ ๋ถ„์„์˜ ์‹ค์ฆ์  ์‚ฌ๋ก€๋กœ, WNN ์ ‘๊ทผ๋ฒ•์˜ ์‹ค์ œ์  ํ™•์žฅ์ด ๋ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
AlphaGenome ๋…ผ๋ฌธ์€ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์œ ์ „์ฒด ์ž…๋ ฅ ๋ฐ ๋‹ค์–‘ํ•œ ์ƒ๋ฌผํ•™์  ์‹ ํ˜ธ ๋™์‹œ ์˜ˆ์ธก์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜์—ฌ, ๋‹จ์ผ์„ธํฌ ๊ธฐ๋ฐ˜ multi-omics ๋ถ„์„์˜ ์ตœ์‹  ๋”ฅ๋Ÿฌ๋‹ ๋ฐœ์ „ ๋ฐฉํ–ฅ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
Integrated analysis of multimodal single-cell data ๋…ผ๋ฌธ์€ ML ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ์˜ ์‹ค์ œ ๋ฐ์ดํ„ฐ ๋ถ„์„ ์ ์šฉ ์‚ฌ๋ก€๋กœ, Gym-style ๋ฒค์น˜๋งˆํ‚น ํ”„๋ ˆ์ž„์›Œํฌ์˜ ์œ ํšจ์„ฑ์„ ๋ณด์—ฌ์ค€๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
๋‹ค์ค‘๋ชจ๋‹ฌ ๋‹จ์ผ์„ธํฌ ๋ฐ์ดํ„ฐ์˜ ํ†ตํ•ฉ ๋ถ„์„ ์‚ฌ๋ก€์™€ ๋น„๊ตํ•ด scBaseCamp์˜ AI ๊ธฐ๋ฐ˜ ์ž๋™ ๋ฐ์ดํ„ฐ ํ๋ ˆ์ด์…˜์˜ ์‹ค์งˆ์  ์ž ์žฌ๋ ฅ์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ ๊ธฐ๋ฐ˜ ๋ฐ”์ด์˜ค์ •๋ณด ๋ถ„์„์ด ๋‹จ์ผ์„ธํฌ ๋“ฑ ์‹คํ—˜์ •๋ณด ํ†ตํ•ฉ์˜ ๋ฏธ๋ž˜ ๋ฐฉํ–ฅ์— ์ฐธ๊ณ ๊ฐ€ ๋œ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
Cell2Sentence ํ”„๋ ˆ์ž„์›Œํฌ๊ฐ€ ๋‹จ์ผ์„ธํฌ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ฐ์ดํ„ฐ ํ†ตํ•ฉ ๋ฐ ๋ถ„์„์— WNN ๋ฐฉ๋ฒ•๋ก ์„ ์‹ค์งˆ์ ์œผ๋กœ ๊ตฌํ˜„ํ•œ ์‚ฌ๋ก€๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
edgePython ๋…ผ๋ฌธ์€ ๋‹จ์ผ์„ธํฌ RNA-seq ๋ฐ์ดํ„ฐ์— ํŠนํ™”๋œ ํŒŒ์ด์ฌ ๊ธฐ๋ฐ˜ ๋ถ„์„๋„๊ตฌ๋ฅผ ๊ฐœ๋ฐœํ•˜์—ฌ, ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋‹จ์ผ์„ธํฌ ๋ฐ์ดํ„ฐ ์‹ค์ œ ๋ถ„์„์—์„œ WNN์ฒ˜๋Ÿผ ๋ฐ์ดํ„ฐ ํ†ตํ•ฉ ์‹ค์šฉํ™” ์˜ˆ์‹œ๋ฅผ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
๋‹จ๋ฐฑ์งˆ-๊ธ€๋ฆฌ์นธ ๊ฐ™์€ ์‹ค์ œ ์ƒํ˜ธ์ž‘์šฉ ๋ชจ๋“ˆ์˜ ๋ณตํ•ฉ์  ๊ตฌ์กฐ ๋ถ„์„์— ๋ณธ ๋…ผ๋ฌธ์˜ ๊ตฌ์กฐ ํ•ด์„ ํ†ต์ฐฐ์„ ์ ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •