Efficient fine-tuning of single-cell foundation models enables zero-shot molecular perturbation prediction

์ €์ž: Sepideh Maleki, Jan-Christian Huetter, Kangway V. Chuang, David Richmond, Gabriele Scalia, Tommaso Biancalani (Genentech) | ๋‚ ์งœ: 2024 | DOI: N/A 📄 PDF


Essence

Figure 1

scDCA ์•„ํ‚คํ…์ฒ˜: scGPT์˜ ๊ฐ transformer ๋ธ”๋ก์— drug-conditional adapter๋ฅผ ํ†ตํ•ฉํ•˜์—ฌ ๋ถ„์ž ์ž„๋ฒ ๋”ฉ์œผ๋กœ ๋™์ ์œผ๋กœ down-projection๊ณผ up-projection ๊ณ„์ธต์˜ ํŽธํ–ฅ์„ ์กฐ์ •

๋‹จ์ผ์„ธํฌ ๊ธฐ์ดˆ ๋ชจ๋ธ(foundation model)์„ ์•ฝ๋ฌผ ์กฐ๊ฑด๋ถ€ ์–ด๋Œ‘ํ„ฐ(drug-conditional adapter)๋กœ ํšจ์œจ์ ์œผ๋กœ ๋ฏธ์„ธ์กฐ์ •ํ•˜์—ฌ, ๋ฏธ๋ž˜ ์•ฝ๋ฌผ์— ๋Œ€ํ•œ ์„ธํฌ ๋ฐ˜์‘ ์˜ˆ์ธก ๋ฐ ๋ฏธ๋ณด์œ  ์„ธํฌ์ฃผ(unseen cell line)์— ๋Œ€ํ•œ ์ œ๋กœ์ƒท ์ผ๋ฐ˜ํ™”๋ฅผ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•œ๋‹ค.

Motivation

Achievement

Figure 3

๋‹ค์–‘ํ•œ ๋ฒ ์ด์Šค๋ผ์ธ(ChemCPA, Biolord, SAMS-VAE)๊ณผ์˜ ์„ฑ๋Šฅ ๋น„๊ต์—์„œ scDCA๋Š” ๋ชจ๋“  ์„ค์ •์—์„œ ์ตœ๊ณ  ์„ฑ๋Šฅ

  1. ๋ฏธ๋ณด์œ  ์•ฝ๋ฌผ ๋ฐ ์„ธํฌ์ฃผ ์˜ˆ์ธก ์„ฑ๋Šฅ ํ–ฅ์ƒ: ๊ธฐ์กด ๋ฐฉ๋ฒ• ๋Œ€๋น„ ํŠนํžˆ ๋ฏธ๋ณด์œ  ์„ธํฌ์ฃผ์— ๋Œ€ํ•œ few-shot ๋ฐ zero-shot ์ผ๋ฐ˜ํ™”์—์„œ ํ˜„์ €ํ•œ ์„ฑ๋Šฅ ๊ฐœ์„  ๋‹ฌ์„ฑ. ChemCPA, Biolord, SAMS-VAE ๋“ฑ ๊ธฐ์กด ์ตœ๊ณ  ์„ฑ๋Šฅ ๋ฐฉ๋ฒ•๋“ค์„ ๋ชจ๋“  ํ‰๊ฐ€ ์„ค์ •์—์„œ ์ดˆ์›”.
  2. ๋งค๊ฐœ๋ณ€์ˆ˜ ํšจ์œจ์„ฑ๊ณผ ์ƒ๋ฌผํ•™์  ์ง€์‹ ๋ณด์กด์˜ ์ด์ค‘์„ฑ ๋‹ฌ์„ฑ: ์ „์ฒด ๊ธฐ์ดˆ ๋ชจ๋ธ ํŒŒ๋ผ๋ฏธํ„ฐ ์ค‘ 1% ๋ฏธ๋งŒ๋งŒ ํ•™์Šต ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜์—ฌ ์ œํ•œ๋œ ๋ฐ์ดํ„ฐ์…‹์—์„œ์˜ ๊ณผ์ ํ•ฉ ๋ฐฉ์ง€. ๋™์‹œ์— ์‚ฌ์ „ํ•™์Šต๋œ transformer ๊ฐ€์ค‘์น˜๋ฅผ ๋™๊ฒฐํ•จ์œผ๋กœ์จ ์ˆ˜์ฒœ๋งŒ ์„ธํฌ์—์„œ ํ•™์Šตํ•œ ํ’๋ถ€ํ•œ ์ƒ๋ฌผํ•™์  ํ‘œํ˜„ ์œ ์ง€.

How

Figure 1

Drug-conditional adapter ๋ชจ๋“ˆ์˜ ์ƒ์„ธ ๊ตฌ์กฐ

Originality

Limitation & Further Study

Evaluation

Novelty: 4.5/5 Technical Soundness: 4/5 Significance: 4.5/5 Clarity: 4/5 Overall: 4.25/5

์ดํ‰: ์ด ๋…ผ๋ฌธ์€ ๋‹จ์ผ์„ธํฌ ๊ธฐ์ดˆ ๋ชจ๋ธ์„ ์•ฝ๋ฌผ ๋ฐœ๊ฒฌ์— ์ ์šฉํ•˜๊ธฐ ์œ„ํ•œ ์‹ค์งˆ์ ์ด๊ณ  ์šฐ์•„ํ•œ ํ•ด๊ฒฐ์ฑ…์„ ์ œ์‹œํ•˜๋ฉฐ, ํŠนํžˆ ๋ฏธ๋ณด์œ  ์„ธํฌ์ฃผ์— ๋Œ€ํ•œ zero-shot ์˜ˆ์ธก ๋Šฅ๋ ฅ๊ณผ ํŒŒ๋ผ๋ฏธํ„ฐ ํšจ์œจ์„ฑ ์ธก๋ฉด์—์„œ ํ˜„์ €ํ•œ ๊ธฐ์—ฌ๋ฅผ ํ•œ๋‹ค. ๋‹ค๋งŒ ๋ถ„์ž ์ž„๋ฒ ๋”ฉ ์ „๋žต, ์˜ˆ์ธก ๋ฉ”์ปค๋‹ˆ์ฆ˜ ํ•ด์„, ๊ทธ๋ฆฌ๊ณ  ์ž„์ƒ ํƒ€๋‹น์„ฑ ๊ฒ€์ฆ ๊ฐ•ํ™”๊ฐ€ ํ–ฅํ›„ ์—ฐ๊ตฌ์˜ ์ค‘์š”ํ•œ ๊ณผ์ œ์ด๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๋‹จ์ผ์„ธํฌ foundation model์„ ํšจ์œจ์ ์œผ๋กœ ํŒŒ์ธํŠœ๋‹ํ•˜์—ฌ ์กฐ์ง ๊ฐ„ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ๊ธฐ๋ฐ˜์  ๊ธฐ์ˆ ์„ ์ œ์‹œํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
696์€ ์ฐจ์„ธ๋Œ€ ๋‹จ์ผ์„ธํฌ ๋ถ„์„์„ ์œ„ํ•œ ๋Œ€๊ทœ๋ชจ ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ ์ „๋žต์„ ์ฒด๊ณ„์ ์œผ๋กœ ๋‹ค๋ฃจ๋ฉฐ, 306์˜ ๋ฏธ์„ธ์กฐ์ • ๊ธฐ๋ฒ•๊ณผ ์‹œ๋„ˆ์ง€๊ฐ€ ์žˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋‹จ์ผ์„ธํฌ ๋ฐ์ดํ„ฐ์˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ํ†ตํ•ฉ ๋ถ„์„์„ ๋‹ค๋ฃจ๋Š” 431 ์—ฐ๊ตฌ๋Š” ๋‹จ์ผ์„ธํฌ ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ์˜ ํŒŒ์ธํŠœ๋‹๊ณผ ์ž๋ฃŒ ์ผ๋ฐ˜ํ™” ์ด์Šˆ์— ๋Œ€์•ˆ์ด ๋œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋ฏธ๋ณด์œ  ์„ธํฌ์ฃผ์— ๋Œ€ํ•œ ์•ฝ๋ฌผ ๋ฐ˜์‘ ์˜ˆ์ธก์˜ ์ผ๋ฐ˜ํ™”๋ฅผ ์œ„ํ•œ ๋Œ€์•ˆ์  ์ ‘๊ทผ๋ฒ•์„ ์ œ์‹œํ•˜๋Š” ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋‹จ์ผ์„ธํฌ ๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜ ์•ฝ๋ฌผ ๋ฐ˜์‘ ์˜ˆ์ธก์˜ ์ œ๋กœ์ƒท ์ผ๋ฐ˜ํ™”๋ฅผ ์œ„ํ•œ ์œ ์‚ฌํ•œ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ๋‹ค๋ฃจ๋Š” ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ƒ๋ฌผํ•™์  ๋ฐ์ดํ„ฐ์—์„œ ๋Œ€ํ˜• ์‚ฌ์ „ํ•™์Šต ๋ชจ๋ธ์˜ ํšจ์œจ์  ๋ฏธ์„ธ์กฐ์ •์„ ์œ„ํ•œ ๊ด€๋ จ ๋ฐฉ๋ฒ•๋ก  ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
scAgent ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜ ๋‹จ์ผ์„ธํฌ ๋ฐ์ดํ„ฐ ์ฃผ์„ ์ž๋™ํ™”๋ฅผ ๋ชฉํ‘œ๋กœ ํ•˜์—ฌ foundation model ์„ธํฌ ๋ถ„์„์˜ ๋‹ค๋ฅธ ์ ‘๊ทผ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
CLM-X(3057)๋Š” ๋‹ค์–‘ํ•œ ๋‹จ์ผ์„ธํฌ ์‘์šฉ์„ ์œ„ํ•œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ๋กœ, 306๊ณผ ๋น„์Šทํ•œ ๋‹จ์ผ์„ธํฌ ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ์„ ๋‹ค๋ฅธ ๋ฐฉ์‹์œผ๋กœ ์ ์šฉํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
single-cell foundation model ๋ฏธ์„ธ์กฐ์ • ๊ธฐ๋ฒ•์„ ๋‹ค๋ฃจ์–ด, multi-omics representation ํ•™์Šต์ „๋žต๊ณผ ํšจ๊ณผ ๋น„๊ต์— ํ•„์ˆ˜์ ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์—ฐ์†์ ยท์†Œ๋Ÿ‰ ํ•™์Šต์„ ์œ„ํ•œ task-specific ์ ์‘ ๋ฐฉ์‹์œผ๋กœ 3D ์˜ํ•™์˜์ƒ ์™ธ์— ๋‹จ์ผ์„ธํฌ ๋“ฑ ๋‹ค์–‘ํ•œ ๋„๋ฉ”์ธ์—์„œ ๋น„๊ต๋œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Efficient fine-tuning of single-cell foundation models ๋…ผ๋ฌธ์€ ๋‹จ์ผ์„ธํฌ ์˜ค๋ฏน์Šค ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ ์„ฑ๋Šฅ ํ–ฅ์ƒ์— ์ดˆ์ ์„ ๋งž์ถฐ, decode์˜ adversarial/contrastive learning ๋ฐฉ์‹๊ณผ ๋น„๊ต ์—ฐ๊ตฌ๊ฐ€ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋‹จ์ผ์„ธํฌ ๊ธฐ์ดˆ ๋ชจ๋ธ์„ ์•ฝ๋ฌผ ๋ฐ˜์‘ ์˜ˆ์ธก์— ๋ฏธ์„ธ์กฐ์ •ํ•˜๋Š” ์œ ์‚ฌํ•œ ์ ‘๊ทผ๋ฒ•์„ ๋‹ค๋ฃจ๋Š” ์—ฐ๊ตฌ์ด๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Efficient fine-tuning of single-cell foundation models ๋…ผ๋ฌธ์€ SCANPY๋กœ ์ •์ œ๋œ ๋‹จ์ผ์„ธํฌ ๋ฐ์ดํ„ฐ์™€ FM ๊ฒฐํ•ฉ ์—ฐ๊ตฌ์˜ ๊ตฌ์ฒด์  ํ™•์žฅ์ž…๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Efficient fine-tuning of single-cell foundation models ๋…ผ๋ฌธ์€ ๋‹จ์ผ์„ธํฌ ๋ฐ์ดํ„ฐ์™€ ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ ๊ฒฐํ•ฉ ์—ฐ๊ตฌ์˜ ์‘์šฉ ํ™•์žฅ์ž…๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
306๋ฒˆ ๋…ผ๋ฌธ์€ ๋‹จ์ผ์„ธํฌ ๊ธฐ๋ฐ˜ ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ์˜ ํšจ์œจ์  ํŠœ๋‹๊ณผ ์‹ค์ œ ์•ฝ๋ฌผ ๋ฐ˜์‘ ์˜ˆ์ธก์— ์ดˆ์ ์„ ๋งž์ถ”์–ด, ์•ฝ๋™ํ•™ ์˜ˆ์ธก(618)๊ณผ ์—ฐ๊ณ„๋ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
scBaseCamp ๋…ผ๋ฌธ์€ ๋‹จ์ผ์„ธํฌ ๋ฐ์ดํ„ฐ ํ‘œ์ค€ํ™”์™€ ์—์ด์ „ํŠธ ์ž๋™์ฒ˜๋ฆฌ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์‹œํ•จ์œผ๋กœ์จ zero-shot ์„ธํฌ ๋ฐ˜์‘ ์˜ˆ์ธก์˜ ์‹ค์ œ ์ ์šฉ ๊ฒฝ๋กœ๋ฅผ ์•Œ๋ ค์ค๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
single-cell ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ์„ ํ™œ์šฉํ•œ ์†Œ์ˆ˜(์ ์€ ์ƒ˜ํ”Œ) ๋ฐ์ดํ„ฐ ํ•™์Šต ํ™•์žฅ ์—ฐ๊ตฌ๋กœ, UniMatch์˜ ๊ณ„์ธต์  ๋งค์นญ ๋ฉ”์ปค๋‹ˆ์ฆ˜๊ณผ ์‹ค์ œ ํ™œ์šฉ ์‚ฌ๋ก€๋ฅผ ๋น„๊ตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
๋‹จ์ผ์„ธํฌ ๋ฐ์ดํ„ฐ์šฉ ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ์˜ ๋„๋ฉ”์ธ ์ ์‘ ํ•œ๊ณ„ ๋ฐ ๋ฏธ์„ธ์กฐ์ • ๊ธฐ๋ฒ•์„ ์ถ”๊ฐ€๋กœ ๋ถ„์„ํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
scFoundation ๊ฐ™์€ ๋‹จ์ผ์„ธํฌ ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ์˜ ํ•™์Šต ๋„๋ฉ”์ธ์„ ํ™•์žฅํ•œ ๋…ผ๋ฌธ์œผ๋กœ, ์ธต๋ณ„ ํ‘œํ˜„์˜ ํ™œ์šฉ ํ•œ๊ณ„๋ฅผ ๋„“ํ˜€์ค€๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
305์˜ LLM-guided optimization ๊ฐœ๋…์€ 306์˜ ๋‹จ์ผ์„ธํฌ ์˜ˆ์ธก ์ž‘์—… ๋“ฑ ์ƒ๋ช…๊ณผํ•™ ์‹ค์ œ ์‘์šฉ์— ์ ์šฉ ๊ฐ€๋Šฅํ•˜๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •