Generative machine learning unlocks the first proteome-wide image of human cells
์ ์: | ๋ ์ง: 2026-04-02 | URL: https://www.biorxiv.org/content/10.64898/2026.03.31.715748v1 📄 PDF
Essence
Fig. 2. Model evaluation and benchmarking. (A) Realistic virtual immuno๏ฌuorescence images of major organelles and cellul
๋ณธ ๋
ผ๋ฌธ์ 3๊ฐ์ ์ธํฌ ๋๋๋งํฌ ์ผ์(nucleus, ER, microtubules)์ผ๋ก๋ถํฐ 12,800๊ฐ ์ธ๊ฐ ๋จ๋ฐฑ์ง์ ํ๋ฏธ๊ฒฝ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋ deep generative model์ธ ProtiCelli๋ฅผ ๊ฐ๋ฐํ๋ค. ์ด ๋ชจ๋ธ์ Human Protein Atlas์ 123๋ง ๊ฐ ์ด๋ฏธ์ง๋ก ํ์ต๋์ด ๊ธฐ์กด ๋ฐฉ๋ฒ๋ณด๋ค ์ฐ์ํ ์ฌ๊ตฌ์ฑ ์ ํ๋์ ํ
์ค์ฒ ์ถฉ์ค๋๋ฅผ ๋ณด์ด๋ฉฐ, ๋ฏธํ์ต ์ธํฌ ์ ํ๊ณผ ์ฝ๋ฌผ ์ญ๋์ ์ผ๋ฐํ๋๋ค.
Motivation
- Known: ํ์ฌ์ ์ด๋ฏธ์ง ๊ธฐ์ ์ ์ต๋ 37๊ฐ ๋จ๋ฐฑ์ง๋ง ๋์์ ์๊ฐํํ ์ ์์ผ๋ฉฐ, ์ด๋ ๋จ์ผ ์ธ๊ฐ ์ธํฌ์ ์กด์ฌํ๋ ์์ฒ ๊ฐ ๋จ๋ฐฑ์ง์ ๋นํด ์ฌ๋ฌ ์๋ฆฟ์ ๋ถ์กฑํ๋ค. ๊ธฐ์กด์ ์์ฑ ๋ชจ๋ธ๋ก๋ bottom-up ๋ฐฉ์(์ ํ๋ ํํ ๋ฅ๋ ฅ)์ด๋ end-to-end deep learning ๋ฐฉ์(์ ํ๋ landmark ์กฐ๊ฑด)์ด ์์์ผ๋, ๋ชจ๋ ๋จ๋ฐฑ์ง ๊ตฌํ ํํ์ ์ฒด๊ณ์ ํธํฅ์ด ์์๋ค.
- Gap: ๊ธฐ์กด deep learning ๋ชจ๋ธ๋ค์ ์ ํ๋ ์ธํฌ landmark์๋ง ์กฐ๊ฑดํ๋์ด ํต๊ณผ ์ธํฌ์ง ๋จ๋ฐฑ์ง์ ํธํฅ๋๊ณ ๋ค๋ฅธ ๊ตฌํ์ ๊ณผ์ ๋ํํ๋ค. ๋ํ ๊ธฐ์ ์ ๋ฒค์น๋งํฌ์๋ง ์ง์คํ๊ณ ์๋ฌผํ์ ๋ฌธ์ ํด๊ฒฐ๊ณผ ๊ณผํ์ ์์ฉ์ ํตํ ๋ชจ๋ธ ํ๊ฐ ํ๋ ์์ํฌ๊ฐ ๋ถ์กฑํ๋ค.
- Why: proteome ๊ท๋ชจ์ ๊ณต๊ฐ ๋จ๋ฐฑ์งํ์ ์ธํฌ ๊ธฐ๋ฅ ์ดํด์ ์ง๋ณ ์ํ ๋ถ์์ ํ์์ ์ด๋ฉฐ, ํ์กดํ๋ ์คํ์ ๋ฐฉ๋ฒ์ ํ์ฅ์ฑ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํด ๊ณ์ฐ์ ์ ๊ทผ์ด ์๊ธํ๋ค. ๋จ๋ฐฑ์ง ์ค์์น(moonlighting) ํ์๊ณผ ์ธํฌ ๊ฐ ๋ณ๋์ฑ์ ๊ณ ๋ คํ ์์ ํ ์ธํฌ ๋ชจ๋ธ์ ๊ตฌ์ถ์ ์ ๋ฐ ์ํ๊ณผ ๊ธฐ๋ฅ ์ ์ ์ฒดํ์ ํ์ ์ ๊ฐ์ ธ์ฌ ์ ์๋ค.
- Approach: ProtiCelli๋ conditional denoising diffusion model์ Diffusion Transformer Large(DiT-L) ์ํคํ
์ฒ ์์ ๊ตฌ์ถํ๊ณ Elucidating Diffusion Models(EDM) ํ๋ ์์ํฌ๋ฅผ ์ ์ฉํ์ฌ ์๊ฐ ํจ์จ์ ์ธ proteome ๊ท๋ชจ ์ด๋ฏธ์ง ์์ฑ์ ๊ตฌํํ๋ค. 3๊ฐ ์ธํฌ landmark ์ฑ๋(nucleus, ER, microtubules)์ ์กฐ๊ฑด์ผ๋ก 512ร512 ํฝ์
๊ณ ํด์๋ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋ค.
Achievement
Fig. 1. ProtiCelli study overview. ProtiCelli was trained on near-proteome-wide single-cell immuno๏ฌuorescence images fro
ProtiCelli ๋ชจ๋ธ ๊ฐ๋ฐ ๋ฐ ์ฑ๋ฅ: 12,800๊ฐ ๋จ๋ฐฑ์ง์ ํ๋ฏธ๊ฒฝ ์ด๋ฏธ์ง ์์ฑ์ผ๋ก ๊ธฐ์กด ๋ชจ๋ธ ๋๋น ์ฌ๊ตฌ์ฑ ์ ํ๋์ ํ
์ค์ฒ ์ถฉ์ค๋ ์ฐ์์ฑ ์
์ฆ. ์ผ๋ฐํ ๋ฅ๋ ฅ: ๋ฏธํ์ต ์ธํฌ ์ ํ๊ณผ ์ฝ๋ฌผ ์ญ๋์ ์ผ๋ฐํ๋๋ฉฐ ์ธํฌ ์ฌ์ดํด ๋จ๊ณ ์์ธก ๋ฐ ์ฝ๋ฌผ ์ ๋ ๋จ๋ฐฑ์ง ๋ฐํ/๊ตญ์ํ ๋ณํ ์ถ๋ก ๋ฌ์ฑ. Proteome2Cell ๋ฐ์ดํฐ์
์์ฑ: 12๊ฐ ์ธ๊ฐ ์ธํฌ์ฃผ์ ๊ฑธ์ณ 2,400๊ฐ "virtual cell"์ ํฌํจํ๋ 3,070๋ง ๊ฐ ์๋ฎฌ๋ ์ด์
์ด๋ฏธ์ง ๋ฐ์ดํฐ์
๊ตฌ์ถ. ์๋ฌผํ์ ์์ฉ: ๋จ์ผ์ธํฌ ์์ค์์ ๋จ๋ฐฑ์ง-๋จ๋ฐฑ์ง ์ํธ์์ฉ ๊ฒฝ๊ด ์ฌํ, moonlighting ๋จ๋ฐฑ์ง์ ๊ตฌํ ํน์ด์ ๊ธฐ๋ฅ ํด์, ๋น๊ฐ๋
์ธํฌ ๊ตฌํ ๋ถํ ๋ฐ ์ ์ ์ ์งํฉ์ ๊ธฐ๋ฅ ์์ญ ๊ณต๊ฐ ๋ถํด ๊ฐ๋ฅ.๊ณ์ธต์ ๋จ์ผ์ธํฌ ๋ชจ๋ธ: ๋ณด์กด๋ vs ๋์ ๋จ๋ฐฑ์ง ์ํคํ
์ฒ ๊ตฌ๋ถ์ผ๋ก ๋จ์ผ์ธํฌ ๊ตฌ์กฐ์ ์ ๋ก ์๋ ์์ค์ ๋ถ์ ์คํ.
How
Fig. 1. ProtiCelli study overview. ProtiCelli was trained on near-proteome-wide single-cell immuno๏ฌuorescence images fro
- Conditional denoising diffusion model์ DiT-L ์ํคํ
์ฒ ๊ธฐ๋ฐ์ผ๋ก ๊ตฌํํ๊ณ EDM ํ๋ ์์ํฌ ์ ์ฉ
- Human Protein Atlas์ 123๋ง ๊ฐ ๋จ์ผ์ธํฌ ํฌ๋กญ ์ด๋ฏธ์ง๋ก ํ์ต(1.15๋ฐฑ๋ง train, 0.08๋ฐฑ๋ง test)
- 3๊ฐ cellular landmark(nucleus, ER, microtubules) ์ฑ๋์ ์กฐ๊ฑด์ผ๋ก ์
๋ ฅ
- 512ร512 ํฝ์
๊ณ ํด์๋ ๋จ์ผ์ธํฌ cropped ์ด๋ฏธ์ง ์์ฑ
- 40๊ฐ ์ธํฌ์๊ธฐ๊ด/์ธํฌ ๊ตฌ์กฐ์ ๋ํ ์ ๋ฌธ๊ฐ ์ฃผ์ ํ์ฉ
- Proteome ๊ท๋ชจ ์ธํฌ ์ด๋ฏธ์ง ์์ฑ์ผ๋ก ํ์ต ์คํ ์ด๋ฏธ์ง์ ์๋ ๋ณด์กด/๋์ ๋จ๋ฐฑ์ง ์ํคํ
์ฒ ๋ถ์
- ๋ค์ค ์๋ฌผํ์ ๊ด์ ์์ ์ฑ๋ฅ ํ๊ฐ(๋จ๋ฐฑ์ง ๊ณต์์นํ, ์ธํฌ์ํ ์์ธก, ์ฝ๋ฌผ ์ญ๋ ๋ฐ์ ์์ธก, ์ธํฌ ๊ตฌํ ๋ถํ )
Originality
- Conditional diffusion model์ ๋จ๋ฐฑ์ง virtual staining์ ์ต์ด ์ ์ฉ์ผ๋ก proteome ๊ท๋ชจ์ ๊ณต๊ฐ ๋จ๋ฐฑ์งํ ๋ชจ๋ธ๋ง ๊ตฌํ
- Proteome2Cell ๋ฐ์ดํฐ์
: 30.7๋ฐฑ๋ง ๊ฐ ์๋ฎฌ๋ ์ด์
์ด๋ฏธ์ง๋ก ํ์กด ์คํ์ ๋ฉํฐํ๋ ์ฑ(ํ๊ท 37๊ฐ ๋จ๋ฐฑ์ง)์ 2์๋ฆฟ์ ์ด๊ณผ
- ์ธํฌ ํํ๋ง์ผ๋ก ์ฝ๋ฌผ ์ ๋ ๋จ๋ฐฑ์ง ๋ฐํ/๊ตญ์ํ ๋ณํ ์ถ๋ก ๋ฅ๋ ฅ์ผ๋ก ํํ์ ๊ธฐ๋ฅ ๊ฐ์ ์จ๊ฒจ์ง ๊ด๊ณ ๋ฐ๊ตด
- ๋จ์ผ์ธํฌ ์์ค์์ moonlighting ๋จ๋ฐฑ์ง์ ๊ตฌํ๋ณ ๊ธฐ๋ฅ ํด์์ผ๋ก ๋ค๊ธฐ๋ฅ ๋จ๋ฐฑ์ง ์๋ฌผํ ์๋ก์ด ๊ด์ ์ ๊ณต
- ๋ณด์กด vs ๋์ ๋จ๋ฐฑ์ง ์ํคํ
์ฒ ๊ตฌ๋ถ์ ํตํ ๊ณ์ธต์ ๋จ์ผ์ธํฌ ๋ชจ๋ธ๋ก ์ธํฌ ๊ตฌ์กฐ ๋ณต์ก์ฑ ์๋ก์ด ์ดํด ์ ๊ณต
Limitation & Further Study
ํ๊ณ: ๋ชจ๋ธ์ ์กฐ๊ฑดํ๊ฐ ์ฌ์ ํ 3๊ฐ ์ฃผ์ landmark์ ์ ํ๋์ด ์์ด ํน์ ์ธํฌ ๊ตฌํ(์: lysosome, peroxisome ๋ฑ)์ ์ ํํ ํํ์ ํ๊ณ ๊ฐ๋ฅ. ์์ฑ๋ ์ด๋ฏธ์ง๊ฐ ์ค์ ์คํ ์ด๋ฏธ์ง์ ํต๊ณ์ ๋ถํฌ๋ฅผ ์๋ฒฝํ๊ฒ ๋ฐ๋ฅด๋์ง ํ์ธ ํ์. Proteome2Cell ๋ฐ์ดํฐ์
์ ์์ฑ ์ด๋ฏธ์ง ํ๋น์ฑ์ ์ ํ๋ ์คํ์ ๊ฒ์ฆ์๋ง ๊ธฐ๋ฐ.
ํ์ ์ฐ๊ตฌ: (1) ์ถ๊ฐ cellular landmark ๋์
์ผ๋ก ๊ตฌํ ํํ ์ ํ๋ ๊ฐ์ , (2) ์ค์๊ฐ ๋์ ๋จ๋ฐฑ์ง ๊ตญ์ํ ๋ณํ ๋ชจ๋ธ๋ง, (3) ์ง๋ณ ์ํ(์, ์ ๊ฒฝํดํ์ฑ ์งํ)์์ ๋จ๋ฐฑ์ง ์ค์์นํ ์๋ฎฌ๋ ์ด์
, (4) ๊ตฌ์กฐ์ ๋ณ์ด์ฒด์ ์ง๋ณ ๋์ฐ๋ณ์ด์ ๊ตญ์ํ ํจ๊ณผ ์์ธก, (5) ๋ค์ค ๋ชจ๋ฌ๋ฆฌํฐ ์ด๋ฏธ์ง(์ ์ํ๋ฏธ๊ฒฝ, super-resolution) ๋ฐ์ดํฐ์์ ํตํฉ
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 5/5 Clarity: 4/5 Overall: 4/5
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ conditional diffusion model์ ํ์ฉํ์ฌ proteome ๊ท๋ชจ์ ๊ณต๊ฐ ๋จ๋ฐฑ์งํ ์๋ฎฌ๋ ์ด์
์ ์ต์ด๋ก ์ฑ์ทจํ ๊ธฐ๋
๋น์ ์ฐ๊ตฌ์ด๋ค. 12,800๊ฐ ๋จ๋ฐฑ์ง์ ํ๋ฏธ๊ฒฝ ์ด๋ฏธ์ง ์์ฑ ๋ฅ๋ ฅ, ๋ฏธํ์ต ์กฐ๊ฑด์ผ๋ก์ ์ฐ์ํ ์ผ๋ฐํ, ๊ทธ๋ฆฌ๊ณ ๋จ์ผ์ธํฌ ์์ค์ ๋จ๋ฐฑ์ง ์กฐ์งํ ๋ถ์์ด๋ผ๋ ๋ค์ธต์ ๊ธฐ์ฌ๋ก ์ธํฌ ์๋ฌผํ๊ณผ ๊ธฐ๋ฅ ์ ์ ์ฒดํ ๋ถ์ผ์ ํ์ ์ ์ํฅ์ ๋ฏธ์น ์ ์ฌ๋ ฅ์ด ํฌ๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
Evo 2๋ ๋ฒ์๋ช
์ฒด ๊ฒ๋ ๋ชจ๋ธ๋ง์ฉ ์ด๋๊ท๋ชจ ๊ธฐ์ด ๋ชจ๋ธ๋ก, ๋จ๋ฐฑ์ง ์ด๋ฏธ์ง๋ฅผ ์์ฑ ๊ฐ๋ฅํ proteome-level ๋ฐ์ดํฐ ํ์ต์ ์ ๋ณ์ ์ ๊ณตํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Foundation models in bioinformatics ๋
ผ๋ฌธ์ ProtiCelli์ ๊ฐ์ ๋จ๋ฐฑ์ง/์๋ช
์ ๋ณด๋ชจ๋ธ์ ๊ทผ๊ฐ์ด ๋๋ ๋ฐ์ด์ค ํ์ด๋ฐ์ด์
๋ชจ๋ธ ํํฉ๊ณผ ์์ฉ์ ์ ๋ฆฌํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
Geometry Informed Tokenization of Molecules๋ ๋ถ์/๋จ๋ฐฑ์ง ๊ตฌ์กฐ๋ฅผ ์ํ ์์ฑ์ ํํ ํ์ต์ด๋ผ๋ ์ ์ฌ ๋ฌธ์ ๋ฅผ ๋ค๋ฅธ ์ ๊ทผ๋ฒ(geometry ๊ธฐ๋ฐ)์ผ๋ก ๋ค๋ฃจ์ด ๋น๊ต ์ฝ๊ธฐ์ ์ข์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
RFdiffusion ๋
ผ๋ฌธ์ de novo ๋จ๋ฐฑ์ง ๋ฐ ํญ์ฒด ์ค๊ณ์ ํนํ๋ ๋ฐฉ๋ฒ์ผ๋ก, ๋จ๋ฐฑ์ง ์ด๋ฏธ์ง ์์ฑ์ด ์๋ ๊ตฌ์กฐ ์ค๊ณ๋ฅผ ๋ค๋ฃน๋๋ค.
ํ์ ์ฐ๊ตฌ
3382์์๋ Evo 2์ ์ ์ฌํ ๋๊ท๋ชจ ๋ฐ์ดํฐ๋ก ๋จ๋ฐฑ์ง ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋ ํ๋ ์์ํฌ๋ฅผ ๊ฐ๋ฐํ์ฌ 382๋ฒ์ ๋ชจ๋ธ์ ์ค์ ์ด๋ฏธ์ง ์์ฑ์ ์ ์ฉํ ์ฌ๋ก๋ฅผ ๋ณด์ธ๋ค.
ํ์ ์ฐ๊ตฌ
์๋ฌผํ์ ๋ถ์์์ proteome-wide ์์ฑ ํ์คํฌ๋ก LLM ํ์ฉ ์ฌ๋ก๋ฅผ ์ ์ํ๋ฉฐ, ์ ๋ณด ์ถ์ถ ๋ฐ ๋ฐ์ดํฐ ๊ธฐ๋ฐ ๊ตฌ์ถ์ ๋ฒ์๋ฅผ ํ์ฅํ๋ค.
ํ์ ์ฐ๊ตฌ
AlphaFold Database๋ ๋๊ท๋ชจ ์ธ๊ฐ ๋จ๋ฐฑ์ง์ ๊ตฌ์กฐ ์ ๋ณด๋ฅผ ์ ๊ณตํ์ฌ ๋จ๋ฐฑ์ง ํ๋ฏธ๊ฒฝ ์ด๋ฏธ์ง ์์ฑ ์ฐ๊ตฌ์ ์ํธ ๋ณด์์ ์
๋๋ค.
ํ์ ์ฐ๊ตฌ
BioMiner๋ ๋ฉํฐ๋ชจ๋ฌ ์์คํ
์ ํตํ ๋จ๋ฐฑ์ง ์ด๋ฏธ์ง์ ๊ธฐ๋ฅ์ ๋ณด ๋ง์ด๋์ ํ์ฌ, ์์ฑ ๋ชจ๋ธ ๊ธฐ๋ฐ ๋ถ์์ ์ค์ง์ ์์ฉ์ด ๊ฐ๋ฅํฉ๋๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์