Robust deep learning based protein sequence design using ProteinMPNN

์ €์ž: J. Dauparas, I. Anishchenko, N. Bennett, H. Bai, R. Ragotte | ๋‚ ์งœ: 2022 | DOI: 10.1126/science.add2187 📄 PDF


Essence

Figure 1

ProteinMPNN ์•„ํ‚คํ…์ฒ˜: ๋ฉ”์‹œ์ง€ ํŒจ์‹ฑ ์‹ ๊ฒฝ๋ง(MPNN) ๊ธฐ๋ฐ˜์˜ ์ˆœ์„œ-๋น„์˜์กด์  ์ž๊ฐ€ํšŒ๊ท€ ๋ชจ๋ธ๋กœ, ๋‹ค์ค‘ ์ฒด์ธ ๋ฐ ๋Œ€์นญ์„ฑ์„ ๊ณ ๋ คํ•œ ์œ„์น˜ ๊ฒฐํ•ฉ ์„ค๊ณ„ ๊ฐ€๋Šฅ

๊นŠ์€ ์‹ ๊ฒฝ๋ง ๊ธฐ๋ฐ˜ ๋‹จ๋ฐฑ์งˆ ์„œ์—ด ์„ค๊ณ„ ๋ฐฉ๋ฒ• ProteinMPNN์„ ๊ฐœ๋ฐœํ•˜์—ฌ, ๊ธฐ์กด์˜ ๋ฌผ๋ฆฌ ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•(Rosetta)๋ณด๋‹ค ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์ด๋ฉฐ ๋‹ค์–‘ํ•œ ๋‹จ๋ฐฑ์งˆ ์„ค๊ณ„ ๋ฌธ์ œ์— ๊ด‘๋ฒ”์œ„ํ•˜๊ฒŒ ์ ์šฉ ๊ฐ€๋Šฅํ•จ์„ ์ž…์ฆํ–ˆ๋‹ค.

Motivation

Achievement

Figure 2

ProteinMPNN์˜ ์ „์‚ฐ ํ‰๊ฐ€: (A) Rosetta ๋Œ€๋น„ ์›”๋“ฑํ•œ ์„œ์—ด ๋ณต๊ตฌ์œจ(52.4% vs 32.9%), (B) ๋ชจ๋…ธ๋จธ(52%), ํ˜ธ๋ชจ๋จธ(55%), ํ—คํ…Œ๋กœ๋จธ(51%) ์ค‘์œ„ ์„œ์—ด ๋ณต๊ตฌ์œจ, (C) ๋ฐฑ๋ณธ ๋…ธ์ด์ฆˆ ์ถ”๊ฐ€ ํ•™์Šต์˜ ์˜ํ–ฅ, (E) ๋‹จ์ผ ์„œ์—ด AlphaFold ์˜ˆ์ธก์—์„œ ProteinMPNN ์„œ์—ด์˜ ์šฐ์ˆ˜ํ•œ ๊ตฌ์กฐ ๋ถ€ํ˜ธํ™”

  1. ๋†’์€ ์„œ์—ด ๋ณต๊ตฌ์œจ: ๋„ค์ดํ‹ฐ๋ธŒ ๋‹จ๋ฐฑ์งˆ ๋ฐฑ๋ณธ์—์„œ 52.4% ์„œ์—ด ๋ณต๊ตฌ์œจ๋กœ Rosetta(32.9%)๋ฅผ 60% ์ด์ƒ ๋Šฅ๊ฐ€ํ•˜๋ฉฐ, ๋‹จ๋ฐฑ์งˆ ํ•ต์‹ฌ์—์„œ ํ‘œ๋ฉด๊นŒ์ง€ ๋ชจ๋“  ์˜์—ญ์—์„œ ์ผ๊ด€๋˜๊ฒŒ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ
  2. ๊ด‘๋ฒ”์œ„ํ•œ ์ ์šฉ์„ฑ:
    • ๋ชจ๋…ธ๋จธ, ํ˜ธ๋ชจ์˜ฌ๋ฆฌ๋จธ, ํ—คํ…Œ๋กœ๋จธ์— ์ผ๊ด€๋˜๊ฒŒ ๋†’์€ ์„ฑ๋Šฅ(51-55% ์ค‘์œ„ ๋ณต๊ตฌ์œจ)
    • ์ˆœ์„œ-๋น„์˜์กด์  ๋””์ฝ”๋”ฉ์œผ๋กœ ๋ถ€๋ถ„ ๊ณ ์ • ์„ค๊ณ„ ๊ฐ€๋Šฅ(์˜ˆ: ๋ฆฌ๊ฐ„๋“œ ๊ฒฐํ•ฉ ์˜์—ญ ๊ณ ์ •)
    • ๋Œ€์นญ์„ฑ ์ œ์•ฝ ๋ฐ ๋ฉ€ํ‹ฐ-์ƒํƒœ ์„ค๊ณ„ ์ง€์›์œผ๋กœ ๋Œ€์นญ ๋‹จ๋ฐฑ์งˆ, ๋ฐ˜๋ณต ๋‹จ๋ฐฑ์งˆ ์„ค๊ณ„ ๊ฐ€๋Šฅ
  3. ๊ตฌ์กฐ ๊ฒฌ๊ณ ์„ฑ ํ–ฅ์ƒ: ๋ฐฑ๋ณธ ๋…ธ์ด์ฆˆ(std=0.02ร…) ์ถ”๊ฐ€ ํ•™์Šต์œผ๋กœ AlphaFold ์˜ˆ์ธก ๊ตฌ์กฐ์—์„œ ์„œ์—ด ๋ณต๊ตฌ์œจ ์ฆ๋Œ€, ProteinMPNN ์„ค๊ณ„ ์„œ์—ด์ด ๋‹จ์ผ ์„œ์—ด AlphaFold ์˜ˆ์ธก์—์„œ ์›๋ณธ ๋„ค์ดํ‹ฐ๋ธŒ ์„œ์—ด๋ณด๋‹ค ํ›จ์”ฌ ์ •ํ™•ํ•˜๊ฒŒ ๋ชฉํ‘œ ๊ตฌ์กฐ ์ฑ„ํƒ
  4. ๊ณ„์‚ฐ ํšจ์œจ์„ฑ: 100๊ฐœ ์ž”๊ธฐ๋‹น 1.2์ดˆ(ProteinMPNN) vs 4.3๋ถ„(Rosetta) - ์•ฝ 200๋ฐฐ ๋น ๋ฅธ ์†๋„

How

Figure 1

ProteinMPNN ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜์˜ ์ฃผ์š” ๊ฐœ์„  ์‚ฌํ•ญ

์•„ํ‚คํ…์ฒ˜ ๊ฐœ์„ :

์ˆœ์„œ-๋น„์˜์กด์  ์ž๊ฐ€ํšŒ๊ท€ ๋ชจ๋ธ:

๋‹ค์ค‘ ์ฒด์ธ ๋ฐ ๋Œ€์นญ์„ฑ ์ธ์‹:

ํ•™์Šต ์„ค์ •:

Originality

Limitation & Further Study

ํ•œ๊ณ„:

ํ›„์† ์—ฐ๊ตฌ ๋ฐฉํ–ฅ:

Evaluation

Novelty: 4.5/5 Technical Soundness: 4.5/5 Significance: 5/5 Clarity: 4/5 Overall: 4.5/5

์ดํ‰: ProteinMPNN์€ ๊นŠ์€ ํ•™์Šต ๊ธฐ๋ฐ˜ ๋‹จ๋ฐฑ์งˆ ์„ค๊ณ„์—์„œ ๊ธฐ์กด ๋ฌผ๋ฆฌ ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•์˜ ํ•œ๊ณ„๋ฅผ ํ˜์‹ ์ ์œผ๋กœ ๊ทน๋ณตํ•œ ์ž‘์—…์œผ๋กœ, ์ˆœ์„œ-๋น„์˜์กด์  ์ž๊ฐ€ํšŒ๊ท€์™€ ๊ฒฌ๊ณ ์„ฑ ์ค‘์‹ฌ์˜ ํ•™์Šต ์ฒ ํ•™์ด ํ•ต์‹ฌ์ด๋ฉฐ, ๋ชจ๋…ธ๋จธ๋ถ€ํ„ฐ ์˜ฌ๋ฆฌ๋จธ, ๋‚˜๋…ธ์ž…์ž๊นŒ์ง€ ๊ด‘๋ฒ”์œ„ํ•œ ์‹ค์šฉ์  ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ์„ ๊ฐ–์ถ˜ ๋ถ„์•ผ ์„ ๋„์  ์—ฐ๊ตฌ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๋‹จ๋ฐฑ์งˆ ๊ตฌ์กฐ ์˜ˆ์ธก์˜ ์ด๋ก ์ ยท๋ฐฉ๋ฒ•๋ก ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•˜๋Š” ์„ ํ–‰ ์—ฐ๊ตฌ์ด๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
ProteinMPNN ๊ธฐ๋ฐ˜ ๋‹จ๋ฐฑ์งˆ ์„ค๊ณ„ ์—ฐ๊ตฌ๋กœ, ๋™์ผ ๋ถ„์•ผ ๋‹ค๋ฅธ ๋ฐ์ดํ„ฐ์…‹/๊ณผ์ œ ์„ค์ •์— ๋Œ€ํ•œ ๋น„๊ต๊ฐ€ ๊ฐ€๋Šฅํ•˜๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
ProteinMPNN ๊ธฐ๋ฐ˜ ๋‹จ๋ฐฑ์งˆ ์„œ์—ด-๊ตฌ์กฐ ์˜ˆ์ธก์€ ์ž๋™ํ™” ์‹คํ—˜ ์‹œ์Šคํ…œ์˜ ํšจ์œจ์  ์„ค๊ณ„ ๋ฐ ํ‰๊ฐ€์— ์ง๊ฐ„์ ‘์  ์ด๋ก ์  ๊ธฐ์ดˆ๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
์ƒ๋ฌผ์ •๋ณดํ•™ ๋ถ„์•ผ์˜ foundation model ์„œ๋ฒ ์ด(344)๋Š” 686๊ณผ ๊ฐ™์€ ๋‹จ๋ฐฑ์งˆ ์„ค๊ณ„ ์‹ฌํ™” ์—ฐ๊ตฌ์˜ ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๋‹จ๋ฐฑ์งˆ/ํ•ญ์ฒด ์„œ์—ด ๋””์ž์ธ์— ํŠนํ™”๋œ deep learning ๊ธฐ๋ฐ˜ robust ๋ชจ๋ธ๋ง ์—ฐ๊ตฌ์ž…๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋‹จ๋ฐฑ์งˆ ๊ตฌ์กฐ ๋ฐ ์ƒ์ฒด๋ถ„์ž ๋ณตํ•ฉ์ฒด ์˜ˆ์ธก์„ ์œ„ํ•œ ๋”ฅ๋Ÿฌ๋‹ ๊ธฐ๋ฐ˜ ์ ‘๊ทผ๋ฒ•์„ ์—ฐ๊ตฌํ•˜๋Š” ๊ด€๋ จ ๋…ผ๋ฌธ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Sparks ๋…ผ๋ฌธ์€ ๋‹ค์ค‘ ์—์ด์ „ํŠธ ๊ธฐ๋ฐ˜์˜ ๋‹จ๋ฐฑ์งˆ ๋ฐœ๊ฒฌ์„ ๋‹ค๋ฃจ๋ฉฐ, ๋‹จ๋ฐฑ์งˆ ์„ค๊ณ„์˜ ์ž๋™ํ™” ํŒจ๋Ÿฌ๋‹ค์ž„์—์„œ ์ƒํ˜ธ ๋ณด์™„์  ๊ด€์ ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋‹จ๋ฐฑ์งˆ ๊ฒฐํ•ฉ์ž๋ฆฌ ์˜ˆ์ธก์—์„œ 3028์€ de novo ํŽฉํƒ€์ด๋“œ ๋””์ž์ธ ๋ฐฉ๋ฒ•๋ก ์„ ๋‹ค๋ฃจ์–ด 686์˜ ์ ‘๊ทผ์— ๋Œ€ํ•œ ๋Œ€์•ˆ์  ์ ‘๊ทผ์„ ์ œ์‹œํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋‹จ๋ฐฑ์งˆ ์„œ์—ด-๊ธฐ๋Šฅ ๊ด€๊ณ„๋ฅผ ๋ชจ๋ธ๋งํ•˜๋Š” ๋Œ€์•ˆ์  ๋”ฅ๋Ÿฌ๋‹ ์ ‘๊ทผ๋ฒ•์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋‹จ๋ฐฑ์งˆ-๋ฆฌ๊ฐ„๋“œ ์ƒํ˜ธ์ž‘์šฉ ํŠน์ด์„ฑ ์˜ˆ์ธก์— ๋Œ€ํ•œ ์œ ์‚ฌํ•œ ๋ฌธ์ œ๋ฅผ ๋‹ค๋ฅธ ๋ฐฉ๋ฒ•์œผ๋กœ ์ ‘๊ทผํ•˜๋Š” ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ด ๋…ผ๋ฌธ์€ ๋‹จ๋ฐฑ์งˆ ๋ณตํ•ฉ์ฒด ๊ตฌ์กฐ ์˜ˆ์ธก์— AlphaFold ๋ฐ์ดํ„ฐ๋ฒ ์ด์Šค ํ™•์žฅ์„ ๋‹ค๋ฃจ์–ด, ๋‹จ๋ฐฑ์งˆ ์„ค๊ณ„์™€ ๊ฒฐํ•ฉ ๋ถ€์œ„ ์˜ˆ์ธก์˜ ๋‹ค์–‘ํ•œ ์ตœ์‹  ์ ‘๊ทผ๋ฒ•์„ ๋น„๊ตํ•ด๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์†Œ๋ถ„์ž ๊ฒฐํ•ฉ ๋ถ€์œ„ ์˜ˆ์ธก์„ ์œ„ํ•œ ๋‹ค๋ฅธ ๋”ฅ๋Ÿฌ๋‹ ๊ธฐ๋ฐ˜ ์ ‘๊ทผ๋ฒ•์„ ์ œ์‹œํ•˜๋Š” ๋Œ€์•ˆ์  ์—ฐ๊ตฌ์ด๋‹ค
๋‹ค๋ฅธ ์ ‘๊ทผ
๊ธ€๋ฆฌ์นธ ๊ตฌ์กฐ ์˜ˆ์ธก ๋ฐ ์ƒํ˜ธ์ž‘์šฉ ๋ชจ๋ธ๋ง์„ ์œ„ํ•œ ๋Œ€์•ˆ์  ์ ‘๊ทผ๋ฒ•์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ €๋ถ„์ž ๋ฐ”์ธ๋” ๋‹จ๋ฐฑ์งˆ ์„ค๊ณ„๋ฅผ ์œ„ํ•œ ๋Œ€์•ˆ์  ์ปดํ“จํ„ฐ ์„ค๊ณ„ ์ ‘๊ทผ๋ฒ•์„ ์ œ์‹œํ•˜๋Š” ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋‹จ๋ฐฑ์งˆ ์‹œํ€€์Šค์˜ ์„ค๊ณ„๊ณผ์ •์—์„œ ๊ฐ•๊ฑด์„ฑ, ์ ํ•ฉ์„ฑ ๋“ฑ ๋‹ค์ˆ˜ ํŠน์„ฑ์„ ๋จธ์‹ ๋Ÿฌ๋‹์œผ๋กœ ์˜ˆ์ธกํ•˜์—ฌ ๋‹จ๋ฐฑ์งˆ ๋™์—ญํ•™ ์˜ˆ์ธก ๋ฐฉ์‹ ๋น„๊ต๊ฐ€ ๊ฐ€๋Šฅํ•˜๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋‹จ๋ฐฑ์งˆ ๊ธฐ๋Šฅ ์–ด๋…ธํ…Œ์ด์…˜์„ ์œ„ํ•œ ๋Œ€์•ˆ์  ๊ณ„์‚ฐ ์ ‘๊ทผ๋ฒ•์„ ์ œ์‹œํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
SAMPLE self-driving laboratory๋Š” ๋‹จ๋ฐฑ์งˆ ์„ค๊ณ„ ๋ฐ ํ‰๊ฐ€์˜ ์™„์ „ ์ž๋™ํ™” ์‚ฌ๋ก€๋กœ ProteinMPNN ๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ ๊ฒฝํ—˜์„ ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
De novo design of protein structure with RFdiff ๋…ผ๋ฌธ์€ ๋‹จ๋ฐฑ์งˆ ๊ตฌ์กฐ ์„ค๊ณ„์˜ ์ƒˆ๋กœ์šด ๊ธฐ๊ณ„ํ•™์Šต ๊ธฐ๋ฐ˜์„ ์ œ์‹œํ•˜์—ฌ ProteinMPNN๊ณผ ๋น„๊ต๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
AlphaFold ๋“ฑ ๊ตฌ์กฐ ์˜ˆ์ธก ๋ชจ๋ธ์„ ํŠน์ • ์‘์šฉ ๋ถ„์•ผ์— ํ™•์žฅํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
ํ•ญ์ฒด-ํ•ญ์› ๊ฒฐํ•ฉ ํŠน์ด์„ฑ ์˜ˆ์ธก์„ ์œ„ํ•œ ๋”ฅ๋Ÿฌ๋‹ ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•์œผ๋กœ, ๋‹จ๋ฐฑ์งˆ ์„œ์—ด ์„ค๊ณ„์˜ ์‹ค์ œ ์‘์šฉ์‚ฌ๋ก€๋ฅผ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
ํ•ฉ์„ฑ ๋‹จ๋ฐฑ์งˆ-์„œ์—ด์˜ ๊ตฌ์กฐ ์˜ˆ์ธก์—์„œ ๋จธ์‹ ๋Ÿฌ๋‹ ๊ธฐ๋ฐ˜ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ ์—ฐ๊ตฌ๋ฅผ ์‹ค์ œ ๋‹จ๋ฐฑ์งˆ ์„ค๊ณ„ ์ž‘์—…์— ์ ์šฉํ•œ ๋…ผ๋ฌธ์ž…๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
ProteinMPNN ๋“ฑ ๋‹จ๋ฐฑ์งˆ ์„œ์—ด-๊ตฌ์กฐ ์„ค๊ณ„ ์‹ ๊ฒฝ๋ง์ด Sparks ๋ชจ๋ธ์˜ AI ๊ธฐ๋ฐ˜ ์ž๋™ ๋ฐœ๊ฒฌ ์‚ฌ์ดํด์˜ ์‹ค์ œ ๊ธฐ๋ฐ˜์ด ๋˜์—ˆ์Œ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
๋ฐ˜๋ก /๋น„ํŒ
On the Reliability of AI Methods in Drug Discovery ๋…ผ๋ฌธ์€ ๋‹จ๋ฐฑ์งˆ ์„ค๊ณ„ ์ž๋™ํ™”์˜ ์‹ ๋ขฐ์„ฑ ๋ฌธ์ œ๋ฅผ ๋น„ํŒ์ ์œผ๋กœ ๋‹ค๋ฃน๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •