Contrastive learning for antibody-antigen sequence-to-specificity prediction
์ ์: | ๋ ์ง: 2026-02-26 | URL: https://www.biorxiv.org/content/10.64898/2026.02.25.707916v1 📄 PDF
Essence
Fig 1. Schematic of CALM (Crossโattention Adaptive Immune ReceptorโAntigen Language Model) architecture.
CALM์ contrastive learning์ ํตํด ํญ์ฒด์ ํญ์ ์์ด์ ๊ณต์ ์๋ฒ ๋ฉ ๊ณต๊ฐ์ ์ ๋ ฌํ๋ dual-encoder ์ํคํ
์ฒ๋ก, sequence-to-specificity ์์ธก ๋ฌธ์ ๋ฅผ ํ๊ธฐ ์ํ ๊ธฐ์ด ๋ชจ๋ธ์ด๋ค. SAbDab์ 4,138๊ฐ ํญ์ฒด-ํญ์ ์์ผ๋ก ํ์ตํ ๊ฒฐ๊ณผ, 80% ๋์ผ์ฑ ์์ค์ ์ ์ถ ํต์ ํ๊ฐ์์ ์๋ฐฉํฅ R@1 ํ๊ท 7%๋ฅผ ๋ฌ์ฑํ๋ค.
Motivation
- Known: ํญ์ฒด-ํญ์ ํน์ด์ฑ ์์ธก์ ์๋ฌผ์์ฝํ ๋ฐ๊ฒฌ๊ณผ ๋ฉด์ญ ๋ ํผํ ๋ฆฌ ํ๋กํ์ผ๋ง์์ ํต์ฌ ๋ณ๋ชฉ์ด๋ค. ์ต๊ทผ ALphaFold 3, Boltz-2 ๋ฑ์ ๊ตฌ์กฐ ๊ธฐ๋ฐ ์ค๊ณ ํ๋ ์์ํฌ์ ESM-2, AntiBERTy ๋ฑ์ ๋จ๋ฐฑ์ง ์ธ์ด ๋ชจ๋ธ์ด ๋ฐ์ ํ์ผ๋, ์์ด๋ง์ผ๋ก ์๋ฐฉํฅ binding specificity๋ฅผ ์ง์ ํ์ตํ๋ ํตํฉ ํ๋ ์์ํฌ๋ ๋ถ์ฌํ๋ค.
- Gap: ๊ธฐ์กด ๊ตฌ์กฐ ๊ธฐ๋ฐ ์์ฑ ์์คํ
(RFdiffusion, BoltzGen ๋ฑ)๊ณผ ๋จ๋ฐฑ์ง ์ธ์ด ๋ชจ๋ธ์ ๊ฐ๋ณ ์์ด ๋ชจ๋ธ๋ง์ ๊ฐํ์ง๋ง, ํญ์ฒด์ ํญ์์ ๋จ์ผ sequence-native ์์คํ
์์ binding specificity ํ์ต๊ณผ ๋ ํผํ ๋ฆฌ ๊ท๋ชจ์ ๊ฒ์์ ๋์์ ์ํํ๋ ์ ๊ทผ๋ฒ์ด ๋ถ์กฑํ๋ค.
- Why: Immune Specificity Foundation Model (ISFM)์ therapeutic discovery์ immune diagnostics๋ฅผ ํ์ ํ ์ ์๋ค. ๋ ํผํ ๋ฆฌ ๊ท๋ชจ์์ ์๋ํ๊ณ ๋ฏธ์ ํญ์์ ๋์ด ์ผ๋ฐํํ๋ฉฐ ๋ฐฐํฌ ์ ๊ตฌ์กฐ ์ถ๋ก ์์ด ์๋ํ ์ ์๋ sequence-only ๊ธฐ์ด ๋ชจ๋ธ์ด ํ์ํ๋ค.
- Approach: CALM์ CLIP ํจ๋ฌ๋ค์์ ์๊ฐ๋ฐ์ dual-encoder contrastive ์ํคํ
์ฒ๋ก ์ค๊ณ๋์๋ค. AntiBERTy์ ESM-2๋ก ์ด๊ธฐํ๋ ํญ์ฒด(paratope)์ ํญ์(epitope) ์ธ์ฝ๋๋ฅผ contrastive objective๋ก ํ์ตํ์ฌ true binder ์์ ์๋ฒ ๋ฉ ๊ณต๊ฐ์์ ๊ฐ๊น๊ฒ, non-binder ์์ ๋ฉ๋ฆฌ ๋ฐฐ์นํ๋ค. ๋ํ cross-attention decoder๋ฅผ ํตํ autoregressive ์์ฑ ํ์ฅ์ ์ ์ํ๋ค(ํฅํ ๊ตฌํ ์์ ).
Achievement
Fig 1. Schematic of CALM (Crossโattention Adaptive Immune ReceptorโAntigen Language Model) architecture.
ํญ์ฒด-ํญ์ co-embedding ๊ตฌํ: dual-encoder contrastive stage๋ฅผ ์์ ๊ตฌํํ์ฌ ์๋ฐฉํฅ ๊ฒ์(AbโAg, AgโAb) ์ง์. ์ ์ถ ํต์ ํ๊ฐ: SAbDab 4,138๊ฐ ์ ์ค 5ร
๊ฑฐ๋ฆฌ ๊ธฐ๋ฐ binding-site mask ์์ฑ, MMseqs2 ํด๋ฌ์คํฐ๋ง์ผ๋ก 80% ๋์ผ์ฑ ๋์ถ ํต์ ํ
์คํธ ์ธํธ ๊ตฌ์ฑ. ์ฑ๋ฅ: 80% ๋์ผ์ฑ ํด๋ฌ์คํฐ ๋์ถ ํต์ ํ๊ฐ์์ ํ๊ท R@1 7% ๋ฌ์ฑ, ์๋ฐฉํฅ ์ฑ๋ฅ ์ผ๊ด์ฑ ํ์ธ. ๊ตฌ์กฐ ์ค๊ณ: decoder stage ๊ฐ๋
์ ํ๋ ์์ํฌ๋ก ํฅํ epitope mapping๊ณผ ์กฐ๊ฑด๋ถ ์ค๊ณ ๊ฐ๋ฅ์ฑ ์ ์.
How
Fig 2. Dataset curation and preprocessing. AbโAg complex structures were extracted from SAbDab. Complexes were
- AntiBERTy์ ESM-2 pre-trained ๋ชจ๋ธ๋ก ์์ด ์๋ฒ ๋ฉ ์์ฑ ํ ๋ง์ง๋ง hidden layer์์ ์ถ์ถ. - ๊ตฌ์กฐ ํ์ผ๋ก๋ถํฐ BioPython ๊ธฐ๋ฐ 5ร
๊ฑฐ๋ฆฌ threshold๋ก paratope/epitope ๋ง์คํฌ ์์ฑ. - MMseqs2๋ก ํญ์ ์์ด ๋์ผ์ฑ ๊ธฐ์ค(40%, 60%, 80%) ํด๋ฌ์คํฐ๋ง ์ค์. - Contrastive learning objective๋ก true binder ์์ ๊ณต์ ์๋ฒ ๋ฉ ๊ณต๊ฐ์ ์ ๋ ฌ.
Originality
- CLIP ํจ๋ฌ๋ค์์ ๋ฉด์ญ ๋๋ฉ์ธ ์ ์ฉ: vision-language co-embedding์ ํญ์ฒด-ํญ์ ์์ด์ ์ต์ด๋ก ์ ์ฉํ์ฌ sequence-native dual-encoder ์ค๊ณ. - ์๋ฐฉํฅ binding specificity: ์ข
๋์ ๋จ๋ฐฉํฅ AbโAg ๋๋ ๊ตฌ์กฐ ๊ธฐ๋ฐ ์์ฑ ์ค์ฌ์์ ๋ฒ์ด๋ AgโAb ๊ฒ์๋ ๋๋ฑํ๊ฒ ์ง์. - ์ ์ถ ํต์ ํด๋ฌ์คํฐ ๊ธฐ๋ฐ ํ๊ฐ: 80% ๋์ผ์ฑ threshold๋ก training ๋จ๊ณ์ ๋ฏธํฌํจ๋ novel antigen ํด๋ฌ์คํฐ ๊ธฐ์ค ์๊ฒฉํ ํ๊ฐ ์ค๊ณ.
Limitation & Further Study
์ ํ์ฌํญ: - R@1 7%๋ ์ค๋ฌด ์ ์ฉ ๊ธฐ์ค(์: ์ง๋จ, ์น๋ฃ์ ์ค๊ณ)์ ๋นํด ๋ฎ์ผ๋ฉฐ, ์์-k ๊ฒ์(R@5, R@10) ์ฑ๋ฅ ๋ฏธ์ ์. - 4,138๊ฐ ์์ proteome/repertoire ๊ท๋ชจ ๋๋น ์ ํ์ ์ด๋ฉฐ, ๊ตฌ์กฐ ์ฃผ์ ์์กด์ฑ์ผ๋ก ์ธํด ํ์ฅ์ฑ ์ ์ฝ. - Proposed decoder stage๋ ๋ฏธ๊ตฌํ์ผ๋ก ์์ฑ ๋ฅ๋ ฅ ๋ฏธ๊ฒ์ฆ; contrastive retrieval๋ง ํ๊ฐ๋จ. - ํญ์ ์ข
๋ฅ(๋ฐ์ด๋ฌ์ค, ์ข
์ ํญ์ ๋ฑ) ๋ฐ ํญ์ฒด ์ธ๋ถ ํน์ฑ(affinity, somatic mutation ์์ค) ๋ณ ์ฑ๋ฅ ๋ถ์ ๋ถ์ฌ. ํ์ ์ฐ๊ตฌ: - ๋๊ท๋ชจ ๋ฐ์ดํฐ์
๊ณผ ๊ตฌ์กฐ ๋ฏธ์ฃผ์ ์์ด ํตํฉ. - Decoder ๊ตฌํ ๋ฐ ์กฐ๊ฑด๋ถ ์์ฑ ํ๊ฐ. - ๋ฏธ์ ํญ์(novel epitope) ์ผ๋ฐํ ๋ฅ๋ ฅ ํฅ์.
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: CALM์ contrastive learning์ผ๋ก ํญ์ฒด-ํญ์ sequence-to-specificity ์์ธก์ ๊ธฐ์ด๋ฅผ ๊ตฌ์ถํ ์๋ฏธ ์๋ ์ฐ๊ตฌ์ด๋ค. ์๋ฐฉํฅ ๊ฒ์๊ณผ ์ ์ถ ํต์ ํ๊ฐ ์ค๊ณ๊ฐ ๊ฒฌ๊ณ ํ๋ฉฐ ISFM ๊ฐ๋
์ ๊ตฌ์ฒดํํ์ผ๋, R@1 7%์ ๋ฎ์ ์ ๋ ์ฑ๋ฅ๊ณผ ๋ฏธ๊ตฌํ decoder, ์ ํ๋ ๋ฐ์ดํฐ์
๊ท๋ชจ๋ ์ค๋ฌด ์ ์ฉ ์ ์ ํด๊ฒฐ์ด ํ์ํ๋ค. ๋ถํธ๊ฐ(Immune Specificity Foundation Model) ๊ฐ๋ฐ ๋ฐฉํฅ ์ ์๋ก์์ ๊ฐ์น๋ ๋๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
์์ฒด๋ถ์์ ์ธ์ด๋ชจ๋ธ์ ๋ฉํฐ๋ชจ๋ฌ ์๋ฒ ๋ฉ ํ์ฉ ์ฐ๊ตฌ๋ก, ์ํ์ค-ํฌ-ํน์ด์ฑ ๋ฌธ์ ์ ๋ํ ํ๋์ ๋ชจ๋ธ ๊ตฌ์กฐ์ ๊ธฐ์ด๋ฅผ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
344๋ฒ ๋
ผ๋ฌธ์ ์๋ฌผ์ ๋ณดํ ํ์ด๋ฐ์ด์
๋ชจ๋ธ ๋ฐ ํญ์ฒด ์์ธก AI์ ๊ธฐ์ ์ ํ ๋๋ฅผ ์ ๋ฆฌํ์ฌ, CALM์ ์ค๊ณยท์์ฉ ์ดํด์ ๋์์ด ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
ํญ์ฒด-ํญ์ ๊ฒฐํฉ ์นํ์ฑ ์์ธก์์ LLM ๊ธฐ๋ฐ ๋ชจ๋ธ ์ฌ์ฉ ์ฌ๋ก๋ก, CALM์ contrastive learning ๋ฐฉ์ ๋ foundation LLM ๋น๊ต ๊ธฐ๋ฐ์ ์ ๊ณตํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
3000๋ฒ ๋
ผ๋ฌธ์ ๋ฆฌ์คํธ ๋ญํน ๊ธฐ๋ฐ ํญ์ฒด-ํญ์ ์นํ๋ ์์ธก์ผ๋ก, sequence-to-specificity ๋ฌธ์ ์ ๋ฆฌ์คํธ ๊ธฐ๋ฐ ์ ๊ทผ๊ณผ contrastive approach์ ์ฐจ์ด๋ฅผ ๋น๊ตํ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
ํญ์ฒด-ํญ์ ํน์ด์ฑ ์์ธก์ ์์ดยท๊ตฌ์กฐยทํต๊ณ ๊ธฐ๋ฐ ๋ชจ๋ธ (GVP, DCA ๋ฑ) ๊ฐ ํน์ง ๋ฐ ์ฑ๋ฅ์ ๋น๊ตํ ์ ์์ต๋๋ค.
ํ์ ์ฐ๊ตฌ
ํญ์ฒด-ํญ์ ๊ฒฐํฉ ํน์ด์ฑ ์์ธก์ ์ํ ๋ฅ๋ฌ๋ ๊ธฐ๋ฐ ๋ฐฉ๋ฒ์ผ๋ก, ๋จ๋ฐฑ์ง ์์ด ์ค๊ณ์ ์ค์ ์์ฉ์ฌ๋ก๋ฅผ ์ ์ํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
3062 ๋
ผ๋ฌธ์ ๋์กฐํ์ต์ ๊ธฐ๋ฐ์ผ๋ก ํญ์ฒด-ํญ์ ์ํธ์์ฉ๊น์ง ๋ฒ์๋ฅผ ํ์ฅํ์ฌ DrugCLIP์ ๋ฐฉ๋ฒ๋ก ์ ์ฌํ์ํต๋๋ค.
ํ์ ์ฐ๊ตฌ
ํญ์-ํญ์ฒด ์์ด-ํน์ด์ฑ ์์ธก์ ํนํ๋ ๋ฅ๋ฌ๋ ๊ธฐ๋ฒ์ ์๊ฐํ์ฌ, ์์์ ์ ํ๋ ํญ์ฒด ์ค๊ณ์ ํ์ ๋ฐ์ ์ฐ๊ตฌ์ ์์ด๋์ด๋ฅผ ์ ๊ณตํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
Latent-Y๋ de novo ํญ์ฒด ์ค๊ณ ์์ด์ ํธ ์์คํ
์ผ๋ก, CALM๊ณผ ๊ฐ์ sequence-to-specificity ๋ชจ๋ธ์ด ์คํ ํ์ดํ๋ผ์ธ์ ์ ์ฉ๋๋ ์ฌ๋ก๋ฅผ ๋ณด์ฌ์ค๋ค.
ํ์ ์ฐ๊ตฌ
3062 ๋
ผ๋ฌธ์ ํญ์ฒด-ํญ์ ์ํธ์์ฉ๊น์ง ์์ธก๋ฒ์๋ฅผ ํ์ฅํจ์ผ๋ก์จ AbAffinity์ ๋จ๋ฐฑ์ง-ํญ์ฒด ๊ฒฐํฉ ์์ธก์ ๋ณด์ ์ฌํํฉ๋๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์