Multi-to-uni modal knowledge transfer pre-training for molecular representation learning
์ ์: Zhankun Xiong, Ziyan Wang, Feng Huang, Minyao Qiu, Shuyan Fang, Liuqing Yang, Xionghui Zhou, Shichao Liu, Ping Zhang, Wen Zhang | ๋ ์ง: 2026-02-14 | DOI: 10.1038/s41467-026-69302-6 📄 PDF
Essence
Fig. 1 | Overview of the M2UMol framework. a The four types of molecular
๋ถ์ ํํ ํ์ต(MRL)์์ ์์ ํ ๋ชจ๋ฌ๋ฆฌํฐ๋ฅผ ์๊ตฌํ๋ ๊ธฐ์กด ๋ค์ค ๋ชจ๋ฌ ์ฌ์ ํ์ต์ ํ๊ณ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, M2UMol์ 2D ๋ชจ๋ฌ๋ฆฌํฐ์ ๋ค์ค ๋ชจ๋ฌ ์ง์์ ์ ์ดํ๋ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค. ์ด๋ฅผ ํตํด 2D ๊ทธ๋ํ๋ง ์ฃผ์ด์ง ์ค์ ๋ค์ด์คํธ๋ฆผ ๊ณผ์ ์์๋ ์ ํํ ๋ถ์ ์์ฑ ์์ธก์ ๊ฐ๋ฅํ๊ฒ ํ๋ค.
Motivation
- Known: ๋ถ์ ํํ ํ์ต์ SMILES, 2D ๊ทธ๋ํ, 3D ๊ทธ๋ํ ๋ฑ ๋ค์ํ ๋ชจ๋ฌ๋ฆฌํฐ๋ฅผ ํ์ฉํ ์๊ฐ ์ง๋ ์ฌ์ ํ์ต์ผ๋ก ๋ฐ์ ํด ์๋ค. ๊ธฐ์กด์ "one-one" ํจ๋ฌ๋ค์์ ๋ ๋ชจ๋ฌ๋ฆฌํฐ ๊ฐ ๊ด๊ณ๋ง ๋ชจ๋ธ๋งํ๊ณ , "one-others" ํจ๋ฌ๋ค์์ ์์ ํ ๋ชจ๋ฌ๋ฆฌํฐ๋ฅผ ์๊ตฌํ๋ ํ๊ณ๊ฐ ์๋ค.
- Gap: ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ์ฌ์ ํ์ต ๋ฐ ๋ฏธ์ธ ์กฐ์ ๋จ๊ณ์์ ๋ชจ๋ ๋ชจ๋ฌ๋ฆฌํฐ์ ์์ ์ฑ์ ์๊ตฌํ์ง๋ง, ์ค์ ์ฝ๋ฌผ ๋ฐ๊ฒฌ ์์ฉ์์๋ 2D ์์ ๊ทธ๋ํ๋ง ์ด์ฉ ๊ฐ๋ฅํ ๊ฒฝ์ฐ๊ฐ ๋๋ถ๋ถ์ด๋ค. ๋ฐ๋ผ์ ๋ถ์์ ํ ๋ชจ๋ฌ๋ฆฌํฐ ํ๊ฒฝ๊ณผ ๋จ์ผ ๋ชจ๋ฌ๋ฆฌํฐ ๋ค์ด์คํธ๋ฆผ ๊ณผ์ ์ ๋ํ ์ค์ง์ ํด๊ฒฐ์ฑ
์ด ํ์ํ๋ค.
- Why: ํ์ค์ ๋ถ์ ๋ฐ์ดํฐ์์ 3D ๊ตฌ์กฐ๋ ์ํํ์ ํน์ฑ์ ๊ณ์ฐ ๋น์ฉ์ด๋ ๋ฐ์ดํฐ ๊ฐ์ฉ์ฑ ๋ฌธ์ ๋ก ํญ์ ํ๋ณดํ ์ ์๋ค. M2UMol์ด ์ ์ํ๋ ๋ค์ค-๋จ์ผ ๋ชจ๋ฌ ์ง์ ์ ์ด๋ ์ ํ๋ ์์์ผ๋ก๋ ๋ค์ค ๋ชจ๋ฌ ํ์ต์ ์ด์ ์ ํ์ฉํ ์ ์๊ฒ ํ์ฌ ์ค์ ์ ์ฝ ๊ฐ๋ฐ ์ํฌํ๋ก์ฐ์ ์ง์ ์ ์ฉ ๊ฐ๋ฅํ๋ค.
- Approach: M2UMol์ 2D ๋ถ์ ํํ์ผ๋ก๋ถํฐ ๋ชจ๋ฌ ํนํ ์ด๋ํฐ๋ฅผ ํตํด ์์ฌ(pseudo) ๋ค์ค ๋ชจ๋ฌ ํํ์ ์์ฑํ๋ค. generated-actual multimodal contrastive learning๊ณผ modality classification์ ๋ ์๊ฐ ์ง๋ ๊ณผ์ ๋ก ์ฌ์ ํ์ตํ๋ฉฐ, ๋ฏธ์ธ ์กฐ์ ์ ์ฌ์ ํ์ต๋ 2D ์ธ์ฝ๋์ ์ด๋ํฐ๋ฅผ ํ์ฉํด ๋ค์ค ํค๋ ์ดํ
์
์ผ๋ก ํํ์ ํตํฉํ๋ค.
Achievement
M2UMol์ ์ฃผ์ ์ฑ๊ณผ:
- ๋ถ์์ ํ ๋ชจ๋ฌ๋ฆฌํฐ ํ๊ฒฝ์์ ์ฌ์ ํ์ต ๊ฐ๋ฅ (11,571๊ฐ ์ฝ๋ฌผ์ฑ ๋ถ์)
- 2D ๋ชจ๋ฌ๋ฆฌํฐ๋ง์ผ๋ก ๋ค์ด์คํธ๋ฆผ ๊ณผ์ ์์ ์ฐ์ํ ์ฑ๋ฅ ๋ฌ์ฑ
- ๋ถ์ ์์ฑ ์์ธก(molecular property prediction) ๊ณผ์ ์์ ๊ธฐ์กด ๋ชจ๋ธ ๋ฅ๊ฐ
- ๋ถ์ ์ํธ ์์ฉ ์์ธก(drug-target interaction, drug-drug interaction) ๊ณผ์ ์์ ๋์ ์ฑ๋ฅ
- Scaffold split ๊ฐ์ ์๊ฒฉํ ํ๊ฐ ์๋๋ฆฌ์ค์์ ๊ฐ๊ฑดํ ์ฑ๋ฅ
- ์ ๊ตฌ์ ๋ชจ๋ธ ๋๋น ํจ์ฌ ์ ์ ๊ณ์ฐ ๋น์ฉ(11k ๋ถ์๋ก ์ฌ์ ํ์ต)๊ณผ ์งง์ ํ์ต ์๊ฐ
- ์ํํ์ ํน์ง(Bio modality) ๋ฑ ๊ธฐ์กด์ ๊ฐ๊ณผ๋ ๋ชจ๋ฌ๋ฆฌํฐ ํตํฉ
How
Fig. 3 | Investigation of the designed multi-to-uni modal knowledge transfer
- ๋ค ๊ฐ์ง ๋ชจ๋ฌ๋ฆฌํฐ(2D, 3D, Text, Bio)๋ฅผ ํฌํจํ 11,571๊ฐ ์ฝ๋ฌผ์ฑ ๋ถ์ ๋ฐ์ดํฐ์
๊ตฌ์ถ
- ๊ฐ ๋ชจ๋ฌ๋ฆฌํฐ๋ณ ์ธ์ฝ๋ ์ค๊ณ (2D, 3D, Text, Bio ์ธ์ฝ๋)
- ๋ชจ๋ฌ ํนํ ์ด๋ํฐ๋ฅผ ํตํ ์์ฌ ๋ค์ค ๋ชจ๋ฌ ํํ ์์ฑ ๋ฉ์ปค๋์ฆ
- generated-actual multimodal contrastive learning์ผ๋ก ์์ฑ๋ ํํ๊ณผ ์ค์ ํํ ์ ๋ ฌ
- modality classification ๊ณผ์ ๋ก ์ด๋ํฐ๊ฐ ๋ชจ๋ฌ ํนํ ์ง์ ํ์ต ์ ๋
- ๋ฏธ์ธ ์กฐ์ ์ multi-head attention์ ํตํ ์ ์์ ํํ ํตํฉ
- ์ ์ฝ ๊ฐ๋ฐ์ ์ํ ์ฌ์ฉ์ ์นํ์ ํจํค์ง ๊ฐ๋ฐ (๋ถ์ ํํ ํ์ต, ๊ธฐ๋ฅ ๊ทธ๋ฃน ๋ถ์, ๋ค์ค ๋ชจ๋ฌ ๊ฒ์ ๊ธฐ๋ฅ ํตํฉ)
Originality
- ๊ธฐ์กด์ "one-one", "one-others" ํจ๋ฌ๋ค์๊ณผ ๋ค๋ฅธ "multi-to-uni modal" ํจ๋ฌ๋ค์์ ์ฐฝ์์ ์ ์
- 2D ์ธ์ฝ๋๋ง์ผ๋ก ๋ค์ค ๋ชจ๋ฌ ์ ๋ณด๋ฅผ ์์ฌ ํํ์ผ๋ก ์ฌ์์ฑํ๋ ํ์ ์ ์ ๊ทผ
- ๋ชจ๋ฌ ํนํ ์ด๋ํฐ๋ผ๋ ์๋ก์ด ๊ตฌ์กฐ ๋์
์ผ๋ก ๊ฐ ๋ชจ๋ฌ๋ฆฌํฐ์ ํน์ดํ ์ ๋ณด ๋ณด์กด
- ๋ถ์์ ํ ๋ชจ๋ฌ๋ฆฌํฐ ๋ฐ์ดํฐ๋ฅผ ํ์ฉ ๊ฐ๋ฅํ๊ฒ ํ ์ค์ฉ์ ํ์
- Bio modality(์ํํ์ ํน์ง)๋ฅผ ์ฃผ์ ๋ชจ๋ฌ๋ฆฌํฐ๋ก ๋ช
์์ ์ผ๋ก ํฌํจํ ์ฒซ ์๋
Limitation & Further Study
- ์ฌ์ ํ์ต ๋ฐ์ดํฐ์
๊ท๋ชจ๊ฐ 11,571๊ฐ๋ก ์๋์ ์ผ๋ก ์์ (์๋ฐฑ๋ง ๊ฐ ๋ถ์ ์ฌ์ ํ์ต ๋ชจ๋ธ๊ณผ์ ๋น๊ต ํ์)
- ์์ฑ๋ ์์ฌ ๋ค์ค ๋ชจ๋ฌ ํํ์ ํ์ง์ด ์ค์ ๋ชจ๋ฌ๋ฆฌํฐ ํํ๊ณผ ์์ ํ ์ผ์นํ์ง ์์ ์ ์์
- 3D, Text, Bio ๋ชจ๋ฌ๋ฆฌํฐ๊ฐ ๋ชจ๋ ์ฌ์ฉ ๋ถ๊ฐ๋ฅํ ๊ทน๋จ์ ์ํฉ์ ๋ํ ๋์ ๋ฐฉ์ ๋ถ์กฑ
- ๋ชจ๋ฌ ํนํ ์ด๋ํฐ์ ์ต์ ๊ตฌ์กฐ ์ค๊ณ์ ๋ํ ์ด๋ก ์ ๊ทผ๊ฑฐ ์ ์ ๋ฏธํก
ํ์ ์ฐ๊ตฌ ๋ฐฉํฅ:
- ๋ ํฐ ๊ท๋ชจ์ ๋ถ์ ๋ฐ์ดํฐ์
์์์ ์ฑ๋ฅ ๊ฒ์ฆ
- ์์ฑ๋ ํํ๊ณผ ์ค์ ํํ ๊ฐ ์ฐจ์ด๋ฅผ ์ ๋์ ์ผ๋ก ๋ถ์ํ๋ ์์ธ ์ฐ๊ตฌ
- ๋ค์ํ ๋ค์ด์คํธ๋ฆผ ๊ณผ์ ์์์ ์ผ๋ฐํ ๋ฅ๋ ฅ ๊ฒ์ฆ
- ์ ์์ ํํ ํตํฉ ๋ฉ์ปค๋์ฆ์ ํด์์ฑ ๊ฐ์
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: M2UMol์ ์ค์ ์ ์ฝ ๊ฐ๋ฐ ํ๊ฒฝ์ ๋ถ์์ ํ ๋ชจ๋ฌ๋ฆฌํฐ ๋ฌธ์ ๋ฅผ ์ฐฝ์์ ์ผ๋ก ํด๊ฒฐํ ์ค์ฉ์ ์ด๊ณ ํ์ ์ ์ธ ์ฐ๊ตฌ์ด๋ค. ๋ค์ค-๋จ์ผ ๋ชจ๋ฌ ์ง์ ์ ์ด ํจ๋ฌ๋ค์๊ณผ ๋ชจ๋ฌ ํนํ ์ด๋ํฐ ์ค๊ณ๋ฅผ ํตํด 2D ํํ์์ ๋ค์ค ๋ชจ๋ฌ ์ ๋ณด๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์์ฑํ๋ฉฐ, ์ข
ํฉ์ ์ธ ์คํ๊ณผ ์คํ์์ค ํจํค์ง ์ ๊ณต์ผ๋ก ๋์ ์ฌํ์ฑ๊ณผ ์ ์ฉ ๊ฐ๋ฅ์ฑ์ ๋ณด์ฅํ๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
๋ถ์ geometry ์ ๋ณด๋ฅผ ํ์ต์ ๋ฐ์ํ๋ ํ ํฌ๋์ด์ง ๋ฐฉ์์ด, multi-to-uni modal knowledge transfer ์ฌ์ ํ์ต์ ์ด๋ก ์ ๊ธฐ๋ฐ์ด ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๋จ๋ฐฑ์งยท๋ถ์ ๋ถ์ผ foundation model์ ๋ฐ์ดํฐ ํ์ฉ๊ณผ ๋ฒค์น๋งํฌ ํํฉ์ ์ ์ ์์ผ๋ฏ๋ก, M2UMol์ ์ฌ์ ํ์ตยท์ ์ด ์ ๋ต ์ดํด์ ์ฐธ๊ณ ๊ฐ ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
์์ฒด๋ถ์์ ์์ฐ์ด ์ฌ์ด์ ๋ค์ค ๋ชจ๋ฌ ๊ฒฐํฉ์ ํตํ ๋ถ์ ํํ ํ์ต์ ์๋ํ์ฌ, M2UMol์ ๋ฉํฐ๋ชจ๋ฌโ2D ์ ์ด ์ ๊ทผ๊ณผ ๋๋นํ ์ ์๋ค.
๋ค๋ฅธ ์ ๊ทผ
Linear-time prediction of proteome-scale ๋จ๋ฐฑ์ง ๊ตฌ์กฐ ์์ธก ๋
ผ๋ฌธ์ multimodal representation์ด ์๋ ์ํ์ค ๊ธฐ๋ฐ ์์ธก๋ฒ์ ์ ์ํด M2UMol์ multi-to-uni modal ์ ์ด์ ๋ํ ๋ค๋ฅธ ๊ด์ ์ ์ ๊ณตํ๋ค.
ํ์ ์ฐ๊ตฌ
ํํ ๊ณต๊ฐ์์ ๋ํ์ธ์ด๋ชจ๋ธ์ ํ์ฉํ ํ์ ๋ฐฉ์์ด, M2UMol์ ์ค์ ๋ถ์ ์์ฑ ์์ธก ์ ์ฉ์ ์ง์ ์ฐ๊ฒฐ๋๋ค.
์์ฉ ์ฌ๋ก
BioMiner ๋
ผ๋ฌธ์ multi-modal protein-ligand data extraction์ ๋ค๋ฃจ์ด M2UMol์ modality knowledge transfer ๋ฐฉ์์ ์ค์ ์๋ฌผํ ๋ฐ์ดํฐ์ ์ ์ฉํ๋ ์์๊ฐ ๋๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์