Essence
ProteinMPNN ์ํคํ
์ฒ: ๋ฉ์์ง ํจ์ฑ ์ ๊ฒฝ๋ง(MPNN) ๊ธฐ๋ฐ์ ์์-๋น์์กด์ ์๊ฐํ๊ท ๋ชจ๋ธ๋ก, ๋ค์ค ์ฒด์ธ ๋ฐ ๋์นญ์ฑ์ ๊ณ ๋ คํ ์์น ๊ฒฐํฉ ์ค๊ณ ๊ฐ๋ฅ
๊น์ ์ ๊ฒฝ๋ง ๊ธฐ๋ฐ ๋จ๋ฐฑ์ง ์์ด ์ค๊ณ ๋ฐฉ๋ฒ ProteinMPNN์ ๊ฐ๋ฐํ์ฌ, ๊ธฐ์กด์ ๋ฌผ๋ฆฌ ๊ธฐ๋ฐ ๋ฐฉ๋ฒ(Rosetta)๋ณด๋ค ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ด๋ฉฐ ๋ค์ํ ๋จ๋ฐฑ์ง ์ค๊ณ ๋ฌธ์ ์ ๊ด๋ฒ์ํ๊ฒ ์ ์ฉ ๊ฐ๋ฅํจ์ ์
์ฆํ๋ค.
Achievement
ProteinMPNN์ ์ ์ฐ ํ๊ฐ: (A) Rosetta ๋๋น ์๋ฑํ ์์ด ๋ณต๊ตฌ์จ(52.4% vs 32.9%), (B) ๋ชจ๋
ธ๋จธ(52%), ํธ๋ชจ๋จธ(55%), ํคํ
๋ก๋จธ(51%) ์ค์ ์์ด ๋ณต๊ตฌ์จ, (C) ๋ฐฑ๋ณธ ๋
ธ์ด์ฆ ์ถ๊ฐ ํ์ต์ ์ํฅ, (E) ๋จ์ผ ์์ด AlphaFold ์์ธก์์ ProteinMPNN ์์ด์ ์ฐ์ํ ๊ตฌ์กฐ ๋ถํธํ
- ๋์ ์์ด ๋ณต๊ตฌ์จ: ๋ค์ดํฐ๋ธ ๋จ๋ฐฑ์ง ๋ฐฑ๋ณธ์์ 52.4% ์์ด ๋ณต๊ตฌ์จ๋ก Rosetta(32.9%)๋ฅผ 60% ์ด์ ๋ฅ๊ฐํ๋ฉฐ, ๋จ๋ฐฑ์ง ํต์ฌ์์ ํ๋ฉด๊น์ง ๋ชจ๋ ์์ญ์์ ์ผ๊ด๋๊ฒ ์ฐ์ํ ์ฑ๋ฅ
- ๊ด๋ฒ์ํ ์ ์ฉ์ฑ:
- ๋ชจ๋
ธ๋จธ, ํธ๋ชจ์ฌ๋ฆฌ๋จธ, ํคํ
๋ก๋จธ์ ์ผ๊ด๋๊ฒ ๋์ ์ฑ๋ฅ(51-55% ์ค์ ๋ณต๊ตฌ์จ)
- ์์-๋น์์กด์ ๋์ฝ๋ฉ์ผ๋ก ๋ถ๋ถ ๊ณ ์ ์ค๊ณ ๊ฐ๋ฅ(์: ๋ฆฌ๊ฐ๋ ๊ฒฐํฉ ์์ญ ๊ณ ์ )
- ๋์นญ์ฑ ์ ์ฝ ๋ฐ ๋ฉํฐ-์ํ ์ค๊ณ ์ง์์ผ๋ก ๋์นญ ๋จ๋ฐฑ์ง, ๋ฐ๋ณต ๋จ๋ฐฑ์ง ์ค๊ณ ๊ฐ๋ฅ
- ๊ตฌ์กฐ ๊ฒฌ๊ณ ์ฑ ํฅ์: ๋ฐฑ๋ณธ ๋
ธ์ด์ฆ(std=0.02ร
) ์ถ๊ฐ ํ์ต์ผ๋ก AlphaFold ์์ธก ๊ตฌ์กฐ์์ ์์ด ๋ณต๊ตฌ์จ ์ฆ๋, ProteinMPNN ์ค๊ณ ์์ด์ด ๋จ์ผ ์์ด AlphaFold ์์ธก์์ ์๋ณธ ๋ค์ดํฐ๋ธ ์์ด๋ณด๋ค ํจ์ฌ ์ ํํ๊ฒ ๋ชฉํ ๊ตฌ์กฐ ์ฑํ
- ๊ณ์ฐ ํจ์จ์ฑ: 100๊ฐ ์๊ธฐ๋น 1.2์ด(ProteinMPNN) vs 4.3๋ถ(Rosetta) - ์ฝ 200๋ฐฐ ๋น ๋ฅธ ์๋
How
ProteinMPNN ๋ชจ๋ธ ์ํคํ
์ฒ์ ์ฃผ์ ๊ฐ์ ์ฌํญ
์ํคํ
์ฒ ๊ฐ์ :
- ์
๋ ฅ ํน์ง: Cฮฑ-Cฮฑ ๊ฑฐ๋ฆฌ, ์๋ ๋ฐฉํฅ(relative orientation), ๋ฐฑ๋ณธ ์ด๋ฉด๊ฐ์์ N, Cฮฑ, C, O ๋ฐ ๊ฐ์ Cฮฒ ์์ ๊ฐ ๊ฑฐ๋ฆฌ๋ก ํ์ฅ (41.2% โ 49.0% ๋ณต๊ตฌ์จ)
- ๋
ธ๋ ์
๋ฐ์ดํธ ์ธ ์ฃ์ง ์
๋ฐ์ดํธ ์ถ๊ฐ (49.0% โ 50.5%)
- ๊ตญ์ ์ฐ๊ฒฐ ๊ทธ๋ํ ์ ๊ฒฝ๋ง: 32-48๊ฐ ์ต๊ทผ์ Cฮฑ ์ด์์ผ๋ก ํฌํ (๊ตฌ์กฐ ์์ธก๊ณผ ๋ฌ๋ฆฌ ๋ฐฑ๋ณธ ๊ตญ์์ฑ์ด ์ค์)
์์-๋น์์กด์ ์๊ฐํ๊ท ๋ชจ๋ธ:
- ๊ณ ์ NโC ํฐ๋ฏธ๋ ๋์ฝ๋ฉ ๋์ ๋ชจ๋ ์์ด์์ ๋ฌด์์ ์ํ๋ง
- ์ด๋ ๋ถ๋ถ ์์ด ๊ณ ์ ์ค๊ณ(์: ์๋ ค์ง ๋ฆฌ๊ฐ๋ ๊ฒฐํฉ ์์ญ) ๋ฐ ๋ค์ค ์ฒด์ธ ์ค๊ณ ๊ฐ๋ฅํ๊ฒ ํจ
๋ค์ค ์ฒด์ธ ๋ฐ ๋์นญ์ฑ ์ธ์:
- ์ฒด์ธ ์์ ๋ฑ๋ณ์ฑ(equivariance): ์๋ ์์น ์ธ์ฝ๋ฉ ยฑ32 ์๊ธฐ๋ก ์ ํ + ์ฒด์ธ ๊ฐ/์ฒด์ธ ๋ด ์ด์ง ํน์ง
- ์์น ๊ฒฐํฉ ์ค๊ณ: ๋์ ์์น(์: C2 ํธ๋ชจ์ด๋์ฒด์ A1/B1)์ ๋ํด ๊ฒฐํฉ๋ ๋ก์ง ์์ฑ ํ ์ ๊ทํ๋ ํ๋ฅ ๋ถํฌ ๊ตฌ์ฑ
- ๋ฉํฐ-์ํ ์ค๊ณ: ์ฌ๋ฌ ์ํ์์ ์์ธก๋ ๋ก์ง ํ๊ท ํ ๋๋ ์ ํ๊ฒฐํฉ์ผ๋ก ์์ฑ/์์ฑ ์์ด ์ค๊ณ ๊ฐ๋ฅ
ํ์ต ์ค์ :
- PDB ๊ณ ํด์๋(>3.5ร
) X-์ ๊ฒฐ์ ํ/๊ทน์ ์จ์ ์ํ๋ฏธ๊ฒฝ(cryo-EM) ๊ตฌ์กฐ: 25,361๊ฐ ํด๋ฌ์คํฐ(30% ์์ด ๋์ผ์ฑ ๊ธฐ์ค)
- ๋ฐฑ๋ณธ ๋
ธ์ด์ฆ ํ์ต: ๋ถ์์ ํ ๊ตฌ์กฐ ๋ชจ๋ธ(AlphaFold ๋ฑ)์ ๋ํ ๊ฒฌ๊ณ ์ฑ ์ฆ์ง
- ๋์ ์จ๋(higher temperature)์์์ ํ๋ฅ ์ ์ถ๋ก ์ผ๋ก ์ค๊ณ๋ ์์ด์ ๊ตฌ์กฐ ๋ถํธํ ๊ฐํ
Evaluation
Novelty: 4.5/5 Technical Soundness: 4.5/5 Significance: 5/5 Clarity: 4/5 Overall: 4.5/5
์ดํ: ProteinMPNN์ ๊น์ ํ์ต ๊ธฐ๋ฐ ๋จ๋ฐฑ์ง ์ค๊ณ์์ ๊ธฐ์กด ๋ฌผ๋ฆฌ ๊ธฐ๋ฐ ๋ฐฉ๋ฒ์ ํ๊ณ๋ฅผ ํ์ ์ ์ผ๋ก ๊ทน๋ณตํ ์์
์ผ๋ก, ์์-๋น์์กด์ ์๊ฐํ๊ท์ ๊ฒฌ๊ณ ์ฑ ์ค์ฌ์ ํ์ต ์ฒ ํ์ด ํต์ฌ์ด๋ฉฐ, ๋ชจ๋
ธ๋จธ๋ถํฐ ์ฌ๋ฆฌ๋จธ, ๋๋
ธ์
์๊น์ง ๊ด๋ฒ์ํ ์ค์ฉ์ ์ ์ฉ ๊ฐ๋ฅ์ฑ์ ๊ฐ์ถ ๋ถ์ผ ์ ๋์ ์ฐ๊ตฌ๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
๋จ๋ฐฑ์ง ๊ตฌ์กฐ ์์ธก์ ์ด๋ก ์ ยท๋ฐฉ๋ฒ๋ก ์ ๊ธฐ๋ฐ์ ์ ๊ณตํ๋ ์ ํ ์ฐ๊ตฌ์ด๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
ProteinMPNN ๊ธฐ๋ฐ ๋จ๋ฐฑ์ง ์ค๊ณ ์ฐ๊ตฌ๋ก, ๋์ผ ๋ถ์ผ ๋ค๋ฅธ ๋ฐ์ดํฐ์
/๊ณผ์ ์ค์ ์ ๋ํ ๋น๊ต๊ฐ ๊ฐ๋ฅํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
ProteinMPNN ๊ธฐ๋ฐ ๋จ๋ฐฑ์ง ์์ด-๊ตฌ์กฐ ์์ธก์ ์๋ํ ์คํ ์์คํ
์ ํจ์จ์ ์ค๊ณ ๋ฐ ํ๊ฐ์ ์ง๊ฐ์ ์ ์ด๋ก ์ ๊ธฐ์ด๊ฐ ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
์๋ฌผ์ ๋ณดํ ๋ถ์ผ์ foundation model ์๋ฒ ์ด(344)๋ 686๊ณผ ๊ฐ์ ๋จ๋ฐฑ์ง ์ค๊ณ ์ฌํ ์ฐ๊ตฌ์ ๊ธฐ๋ฐ์ ์ ๊ณตํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๋จ๋ฐฑ์ง/ํญ์ฒด ์์ด ๋์์ธ์ ํนํ๋ deep learning ๊ธฐ๋ฐ robust ๋ชจ๋ธ๋ง ์ฐ๊ตฌ์
๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋จ๋ฐฑ์ง ๊ตฌ์กฐ ๋ฐ ์์ฒด๋ถ์ ๋ณตํฉ์ฒด ์์ธก์ ์ํ ๋ฅ๋ฌ๋ ๊ธฐ๋ฐ ์ ๊ทผ๋ฒ์ ์ฐ๊ตฌํ๋ ๊ด๋ จ ๋
ผ๋ฌธ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
Sparks ๋
ผ๋ฌธ์ ๋ค์ค ์์ด์ ํธ ๊ธฐ๋ฐ์ ๋จ๋ฐฑ์ง ๋ฐ๊ฒฌ์ ๋ค๋ฃจ๋ฉฐ, ๋จ๋ฐฑ์ง ์ค๊ณ์ ์๋ํ ํจ๋ฌ๋ค์์์ ์ํธ ๋ณด์์ ๊ด์ ์ ์ ๊ณตํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋จ๋ฐฑ์ง ๊ฒฐํฉ์๋ฆฌ ์์ธก์์ 3028์ de novo ํฉํ์ด๋ ๋์์ธ ๋ฐฉ๋ฒ๋ก ์ ๋ค๋ฃจ์ด 686์ ์ ๊ทผ์ ๋ํ ๋์์ ์ ๊ทผ์ ์ ์ํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋จ๋ฐฑ์ง ์์ด-๊ธฐ๋ฅ ๊ด๊ณ๋ฅผ ๋ชจ๋ธ๋งํ๋ ๋์์ ๋ฅ๋ฌ๋ ์ ๊ทผ๋ฒ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋จ๋ฐฑ์ง-๋ฆฌ๊ฐ๋ ์ํธ์์ฉ ํน์ด์ฑ ์์ธก์ ๋ํ ์ ์ฌํ ๋ฌธ์ ๋ฅผ ๋ค๋ฅธ ๋ฐฉ๋ฒ์ผ๋ก ์ ๊ทผํ๋ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
์ด ๋
ผ๋ฌธ์ ๋จ๋ฐฑ์ง ๋ณตํฉ์ฒด ๊ตฌ์กฐ ์์ธก์ AlphaFold ๋ฐ์ดํฐ๋ฒ ์ด์ค ํ์ฅ์ ๋ค๋ฃจ์ด, ๋จ๋ฐฑ์ง ์ค๊ณ์ ๊ฒฐํฉ ๋ถ์ ์์ธก์ ๋ค์ํ ์ต์ ์ ๊ทผ๋ฒ์ ๋น๊ตํด๋ณผ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
์๋ถ์ ๊ฒฐํฉ ๋ถ์ ์์ธก์ ์ํ ๋ค๋ฅธ ๋ฅ๋ฌ๋ ๊ธฐ๋ฐ ์ ๊ทผ๋ฒ์ ์ ์ํ๋ ๋์์ ์ฐ๊ตฌ์ด๋ค
๋ค๋ฅธ ์ ๊ทผ
๊ธ๋ฆฌ์นธ ๊ตฌ์กฐ ์์ธก ๋ฐ ์ํธ์์ฉ ๋ชจ๋ธ๋ง์ ์ํ ๋์์ ์ ๊ทผ๋ฒ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
์ ๋ถ์ ๋ฐ์ธ๋ ๋จ๋ฐฑ์ง ์ค๊ณ๋ฅผ ์ํ ๋์์ ์ปดํจํฐ ์ค๊ณ ์ ๊ทผ๋ฒ์ ์ ์ํ๋ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋จ๋ฐฑ์ง ์ํ์ค์ ์ค๊ณ๊ณผ์ ์์ ๊ฐ๊ฑด์ฑ, ์ ํฉ์ฑ ๋ฑ ๋ค์ ํน์ฑ์ ๋จธ์ ๋ฌ๋์ผ๋ก ์์ธกํ์ฌ ๋จ๋ฐฑ์ง ๋์ญํ ์์ธก ๋ฐฉ์ ๋น๊ต๊ฐ ๊ฐ๋ฅํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋จ๋ฐฑ์ง ๊ธฐ๋ฅ ์ด๋
ธํ
์ด์
์ ์ํ ๋์์ ๊ณ์ฐ ์ ๊ทผ๋ฒ์ ์ ์ํ๋ค.
ํ์ ์ฐ๊ตฌ
SAMPLE self-driving laboratory๋ ๋จ๋ฐฑ์ง ์ค๊ณ ๋ฐ ํ๊ฐ์ ์์ ์๋ํ ์ฌ๋ก๋ก ProteinMPNN ๊ธฐ๋ฐ ์ฐ๊ตฌ ๊ฒฝํ์ ํ์ฅํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
De novo design of protein structure with RFdiff ๋
ผ๋ฌธ์ ๋จ๋ฐฑ์ง ๊ตฌ์กฐ ์ค๊ณ์ ์๋ก์ด ๊ธฐ๊ณํ์ต ๊ธฐ๋ฐ์ ์ ์ํ์ฌ ProteinMPNN๊ณผ ๋น๊ต๋ ์ ์์ต๋๋ค.
ํ์ ์ฐ๊ตฌ
AlphaFold ๋ฑ ๊ตฌ์กฐ ์์ธก ๋ชจ๋ธ์ ํน์ ์์ฉ ๋ถ์ผ์ ํ์ฅํ ์ฐ๊ตฌ์ด๋ค.
ํ์ ์ฐ๊ตฌ
ํญ์ฒด-ํญ์ ๊ฒฐํฉ ํน์ด์ฑ ์์ธก์ ์ํ ๋ฅ๋ฌ๋ ๊ธฐ๋ฐ ๋ฐฉ๋ฒ์ผ๋ก, ๋จ๋ฐฑ์ง ์์ด ์ค๊ณ์ ์ค์ ์์ฉ์ฌ๋ก๋ฅผ ์ ์ํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
ํฉ์ฑ ๋จ๋ฐฑ์ง-์์ด์ ๊ตฌ์กฐ ์์ธก์์ ๋จธ์ ๋ฌ๋ ๊ธฐ๋ฐ ์ผ๋ฐํ ์ฑ๋ฅ ์ฐ๊ตฌ๋ฅผ ์ค์ ๋จ๋ฐฑ์ง ์ค๊ณ ์์
์ ์ ์ฉํ ๋
ผ๋ฌธ์
๋๋ค.
์์ฉ ์ฌ๋ก
ProteinMPNN ๋ฑ ๋จ๋ฐฑ์ง ์์ด-๊ตฌ์กฐ ์ค๊ณ ์ ๊ฒฝ๋ง์ด Sparks ๋ชจ๋ธ์ AI ๊ธฐ๋ฐ ์๋ ๋ฐ๊ฒฌ ์ฌ์ดํด์ ์ค์ ๊ธฐ๋ฐ์ด ๋์์์ ๋ณด์ฌ์ค๋๋ค.
๋ฐ๋ก /๋นํ
On the Reliability of AI Methods in Drug Discovery ๋
ผ๋ฌธ์ ๋จ๋ฐฑ์ง ์ค๊ณ ์๋ํ์ ์ ๋ขฐ์ฑ ๋ฌธ์ ๋ฅผ ๋นํ์ ์ผ๋ก ๋ค๋ฃน๋๋ค.