Unsupervised Machine Learning for Adaptive Immune Receptors with immuneML
์ ์: | ๋ ์ง: 2026-04-18 | URL: https://www.biorxiv.org/content/10.64898/2026.04.15.718648v1 📄 PDF
Essence
Figureย 1 Overview of new immuneML features for dataset exploration and unsupervised machine learning
immuneML ํ๋ซํผ์ด ๋น์ง๋ ํ์ต ๊ธฐ๋ฅ์ ํตํฉํ์ฌ ์ ์ ๋ฉด์ญ ์์ฉ์ฒด ๋ ํผํ ๋ฆฌ(AIRR) ๋ถ์์ ์ํ ํต์ผ๋ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค. clustering, generative modeling, protein language model ์๋ฒ ๋ฉ, ์ฐจ์ ์ถ์, ์๊ฐํ๋ฅผ ํฌํจํ์ฌ AIRR ๋ถ์ผ์ ํ์คํ๋ ๋น์ง๋ ํ์ต ์ํฌํ๋ก๋ฅผ ํ๋ฆฝํ๋ค.
Motivation
- Known: AIRR ๋ฐ์ดํฐ๋ ๋๋ถ๋ถ ๋ถ๋ถ์ ๋๋ ๋ถ์์ ๋ผ๋ฒจ๋ง ์ํ์ด๋ฉฐ, ๋น์ง๋ ํ์ต์ ํตํ motif discovery, clustering, ์ ๊ท ์์ฉ์ฒด ์์ด ์์ฑ์ด ํ์์ ์ด๋ค. ๊ธฐ์กด ์ฐ๊ตฌ์์ clustering, representation learning, generative modeling ๋ฑ์ ๊ฐ๋ณ ์ ๊ทผ๋ฒ๋ค์ด ์ ์๋์์ผ๋, AIRR ๋ถ์ผ์์ ํต์ผ๋ ๋น์ง๋ ํ์ต ํ๋ ์์ํฌ๋ ๋ถ์ฌํ๋ค.
- Gap: AIRR ๋ถ์ผ์ ํต์ผ๋ ๋น์ง๋ ํ์ต ํ๋ ์์ํฌ๊ฐ ์์ด์ ๋ชจ๋ธ ๊ฒฌ๊ณ ์ฑ๊ณผ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ ํ๊ฐ๊ฐ ์ด๋ ต๊ณ , ๋ค์ํ feature representation๊ณผ embedding ๋ฐฉ์๋ค์ ์ฒด๊ณ์ ๋น๊ต๊ฐ ๋ถ๊ฐ๋ฅํ์ผ๋ฉฐ, generative model ํ๊ฐ๋ฅผ ์ํ ํ์คํ๋ ์งํ์ clustering ๊ฒ์ฆ ๋ฐฉ๋ฒ์ด ๋ถ์กฑํ๋ค.
- Why: AIRR ๋ถ์์ ์ง๋ณ ์ง๋จยท์์ธกยท์น๋ฃ ๊ฐ๋ฐ์ ๋ฐ์ด์ค๋ง์ปค ๋ฐ๊ตด์ ํ์์ ์ด๋ฉฐ, ๋๊ท๋ชจ ๋น๋ผ๋ฒจ ๋ฐ์ดํฐ์์ ์๋ฌผํ์ ์๋ฏธ๋ฅผ ์ง๋ ํจํด ๋ฐ๊ฒฌ์ด ์ค์ํ๊ธฐ ๋๋ฌธ์ ์ฒด๊ณ์ ์ด๊ณ ์ฌํ ๊ฐ๋ฅํ ๋น์ง๋ ํ์ต ๋ฐฉ๋ฒ๋ก ์ ํ์คํ๊ฐ ์ค์ํ๋ค.
- Approach: immuneML ํ๋ซํผ์ stability assessment์ resampling-based validation indices๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ clustering model selection, Ullmann ๋ฐฉ๋ฒ๋ก ๊ธฐ๋ฐ clustering validation framework, protein language model ๊ธฐ๋ฐ embedding ํตํฉ, generative model visualization tools๋ฅผ ์ถ๊ฐํ์ฌ ํต์ผ๋ ์ํฌํ๋ก๋ฅผ ๊ตฌ์ถํ๋ค.
Achievement
Figureย 2 Analysis of the sequences produced by different generative models in use case 1. a. The use case
ํต์ผ๋ ๋น์ง๋ ํ์ต ํ๋ ์์ํฌ ์ ์: clustering, generative modeling, dimensionality reduction, ์๊ฐํ๋ฅผ ํ๋์ ํ๋ซํผ์์ ์ํ ๊ฐ๋ฅํ๊ฒ ํตํฉ. ๊ฒฌ๊ณ ํ model selection ๋ฉ์ปค๋์ฆ: stability assessment์ validation indices๋ฅผ ํตํ clustering ๊ฒฐ๊ณผ ๊ฒ์ฆ. ๋ค์ํ ํ๊ฐ ๊ธฐ์ค: epitope-specific sequence generation ๋ฒค์น๋งํน, ์คํ ์์ฉ์ฒด ์์ด์ ์๋ฌผํ์ ํน์ฑ๋ณ clustering ํ๊ฐ, ์คํ AIRR ๋ฐ์ดํฐ์ confounding factor ํ์ง. ์ฌํ์ฑ๊ณผ ํฌ๋ช
์ฑ: ์คํ์์ค ํ๋ซํผ์ผ๋ก ํ์คํ๋ AIRR ๋น์ง๋ ํ์ต ๋ถ์ ์ ๊ณต.
How
Figureย 1 Overview of new immuneML features for dataset exploration and unsupervised machine learning
- Model selection์ ์ํด discovery dataset์์ clustering stability์ validation indices๋ฅผ ๊ณ์ฐํ์ฌ ์ต์ ๋ชจ๋ธ ์ ํ
- Separate validation dataset์์ result-based์ method-based validation ์ํ
- Protein language model (ESM3, ProtTrans, AbLang ๋ฑ) ์๋ฒ ๋ฉ์ ํตํฉํ์ฌ learned representation ์ ๊ณต
- Generative model (VAE, deep learning ๊ธฐ๋ฐ)๋ก epitope-specific ์์ด ์์ฑ ๋ฐ specificity/novelty ํ๊ฐ
- Dimensionality reduction (t-SNE, UMAP ๋ฑ)๊ณผ ์๊ฐํ๋ฅผ ํตํ ๋ฐ์ดํฐ ํ์
- ์ธ ๊ฐ์ง use case๋ฅผ ํตํด ๋ฐฉ๋ฒ๋ก ๊ฒ์ฆ: (i) ์๋ฎฌ๋ ์ด์
๋ฐ์ดํฐ๋ก generative model ๋ฒค์น๋งํน, (ii) ์คํ ์์ด์ biological property ๊ธฐ๋ฐ clustering, (iii) ์คํ AIRR ๋ฐ์ดํฐ์ confounding factor ๋ถ์
Originality
- AIRR ๋ถ์ผ ์ต์ด๋ก ํต์ผ๋ ๋น์ง๋ ํ์ต ํ๋ ์์ํฌ๋ฅผ ์ ์ํ ์
- Stability assessment์ resampling ๊ธฐ๋ฐ validation์ clustering์ ์ ์ฉํ์ฌ ๋ชจ๋ธ ๊ฒฌ๊ณ ์ฑ ํ๊ฐ ๋ฐฉ๋ฒ ๋์
- Protein language model ์๋ฒ ๋ฉ์ AIRR ๋ถ์์ ์ฒด๊ณ์ ์ผ๋ก ํตํฉ
- Generative model ํ๊ฐ๋ฅผ ์ํ ํ์คํ๋ ์๊ฐํ ๋ฐ ๋น๊ต ๋๊ตฌ ๊ฐ๋ฐ
- Clustering validation framework๋ฅผ AIRR ๋งฅ๋ฝ์ ๋ง๊ฒ ์ ์ฉ
Limitation & Further Study
๋ฐฉ๋ฒ๋ก ์ธก๋ฉด: ์ ์๋ clustering approach๋ค์ด ๋ชจ๋ ๊ธฐ์กด ์๊ณ ๋ฆฌ์ฆ ์กฐํฉ์ด๋ฉฐ, protein language model์ ์ฑ๋ฅ ์ฐจ์ด ๋ถ์์ด ์ ํ์ . ํ๊ฐ ์ธก๋ฉด: use case๊ฐ ์ฃผ๋ก ์๋ฎฌ๋ ์ด์
๋ฐ์ดํฐ์ ์์กดํ๋ฉฐ, ์คํ ๋ฐ์ดํฐ์ ground truth ํ๋ณด ์ด๋ ค์. ํ์ฅ์ฑ: ๋๊ท๋ชจ ๋ ํผํ ๋ฆฌ ๋ฐ์ดํฐ์ ๋ํ ํ์ฅ์ฑ ๋ฐ ๊ณ์ฐ ๋ณต์ก๋ ๋ถ์ ๋ถ์ฌ. ์๋ฌผํ์ ํ๋น์ฑ: generative model์ด ์์ฑํ ์์ด์ ์ค์ ๊ธฐ๋ฅ์ ๊ฒ์ฆ์ด ๋ถ์ฌํ์ฌ in vitro/in vivo ๊ฒ์ฆ ํ์. ํ์ ์ฐ๊ตฌ: clustering ๊ฒฐ๊ณผ์ ์๋ฌผํ์ ํด์ ์๋ํ, confounding factor ์กฐ์ ๋ฐฉ๋ฒ ๊ฐ๋ฐ, ๋ค์ํ domain ํนํ embedding ์ถ๊ฐ ํ๊ฐ ํ์.
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 5/5 Clarity: 4/5 Overall: 4/5
์ดํ: AIRR ๋ถ์ผ์ ๋น์ง๋ ํ์ต์ ์ํ ์ฒซ ํต์ผ ํ๋ ์์ํฌ๋ฅผ ์ ๊ณตํ์ฌ ํ์คํ์ ์ฌํ์ฑ์ ํฌ๊ฒ ํฅ์์ํจ ์ฐ์ํ ํ๋ซํผ ๋
ผ๋ฌธ์ด๋ค. ๊ธฐ์กด ๊ธฐ๋ฒ๋ค์ ํตํฉ์ ์ฐฝ์์ฑ์ด ์ ํ์ ์ด๋, AIRR ์ปค๋ฎค๋ํฐ์ ์ค์ง์ ํ์๋ฅผ ์ถฉ์กฑํ๊ณ ์คํ์์ค๋ก ์ ๊ณตํ๋ ์ ์์ ๋์ ์ค์ ์ํฉํธ๊ฐ ๊ธฐ๋๋๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
026์ ๋ํ ์ธ์ด๋ชจ๋ธ ๋ฐ ์์ด์ ํธ์ ๋ํ ์ต๊ทผ ์ฑ๋ฅ ํ๊ฐ์ ๋น๊ต๋ฅผ ๋ค๋ฃจ์ด, 3274์ ํตํฉ๋ ๋จธ์ ๋ฌ๋ ๋ฐ ์ธ์ด๋ชจ๋ธ ์ ๋ต์ ํ์ฃผ์๋ฅผ ๋ถ์ํ๋ ๋ฐ ๋์์ด ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
์๋ฌผ์ ๋ณดํ ๋ถ์ผ์์ ํ์ด๋ฐ์ด์
๋ชจ๋ธ์ ๋์
๊ณผ ๋ด๋ถ ํํ ๋ถ์ ๋ฐฉ๋ฒ์ ์ข
ํฉ์ ์ผ๋ก ์๊ฐํด, AIRR ๋น์ง๋ ํ์ต ํ๋ ์์ํฌ์ ๋ฐฐ๊ฒฝ์ ์ ๊ณตํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
160์ ๋ฉํฐ์์ด์ ํธ ๊ธฐ๋ฐ ๋ฐ์ด์ค์ธํฌ๋งคํฑ์ค ๋ถ์ ์๋ํ ์ฌ๋ก๋ก, 3274์ adaptive immune receptor ๋ถ์๊ณผ ์ง์ ์ ์ธ ๋์ฒด ์ ๊ทผ๋ฒ์ ๋ณด์ฌ์ค๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋ฉํฐ๋ชจ๋ฌ ๊ธฐ๋ฐ ์ ์๋ฉด์ญ ์์ฉ์ฒด ๋ถ์ ๋ฐ ์์ด์ ํธ ํ๊ฐ์์ ๋ฐฉ๋ฒ๊ณผ ํ๊ฐ ์งํ๊ฐ ๋ค๋ฆ
๋๋ค.
ํ์ ์ฐ๊ตฌ
์ธ์ด๋ชจ๋ธ์ ๋ฅ๋์ ํ๊ตฌ ๋ฐ ์ฌ์ธต์ ์๋ฏธ์ดํด ๊ฐํ ๋ฐฉ๋ฒ์ ๋น์ง๋ ์ ์ ๋ฉด์ญ ์์ฉ์ฒด ๋ถ์ ์ํฌํ๋ก ๊ฐ์ ์๋ ์ ์ฉ๋ ์ ์์ต๋๋ค.
ํ์ ์ฐ๊ตฌ
๋ฉด์ญ์์ฉ์ฒด์ ๋ํ ์ธ์ํผ๋ฐ์ด์ฆ๋ ML์ ๊ตฌ์กฐ ์ถ์ถยท์๋ณ ๊ธฐ๋ฒ์ด ๋จ์ผ์ธํฌ ํฌ๋ก๋งํด ๋ฃจํ ํ์ง ์์ฉ์๋ ํ์ฅ ๊ฐ๋ฅํ๋ค.
์์ฉ ์ฌ๋ก
๋จ๋ฐฑ์ง ์ธ์ด๋ชจ๋ธ ๋ฐ ํญ์-์์ฉ์ฒด ์ํธ์์ฉ ์์ธก์์ ๋น์ง๋ ํ์ต ๊ธฐ๋ฐ ์ํฌํ๋ก์ฐ ์ ์ฉ์ด ๊ฐ๋ฅํฉ๋๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์