์ ์: Zeming Lin, Halil Akin, Roshan Rao, Brian Hie, Zhongkai Zhu, Wenting Lu, Nikita Smetanin, Robert Verkuil, Ori Kabeli, Yaniv Shmueli, Allan Dos Santos Costa, Maryam Fazel-Zarandi, Tom Sercu, Salvatore Candido, Alexander Rives | ๋ ์ง: 2023-03-17 | DOI: 10.1126/science.ade2574 📄 PDF
Essence
15์ต ๊ฐ ํ๋ผ๋ฏธํฐ ๊ท๋ชจ์ protein language model์ ํ๋ จํ์ฌ ๋ค์ค ์์ด ์ ๋ ฌ ์์ด ๋จ์ผ ์์ด์์ ์์ ์์ค์ ๋จ๋ฐฑ์ง ๊ตฌ์กฐ๋ฅผ ์ง์ ์์ธกํ๋ ESMFold๋ฅผ ๊ฐ๋ฐํ๊ณ , 6์ต ๊ฐ ์ด์์ ๋ฉํ๊ฒ๋ ๋จ๋ฐฑ์ง ๊ตฌ์กฐ๋ฅผ ์์ธกํ์ฌ ESM Metagenomic Atlas๋ฅผ ๊ตฌ์ฑํ๋ค.
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: Language model์ ๊ท๋ชจ ์ฆ๊ฐ์ ๋ฐ๋ฅธ ๋จ๋ฐฑ์ง ๊ตฌ์กฐ์ ์ฐฝ๋ฐ์ ์ถํ์ ์ฒด๊ณ์ ์ผ๋ก ์ฆ๋ช
ํ๊ณ , MSA ์์ด ๋จ์ผ ์์ด๋ก ์์ ์์ค ๊ตฌ์กฐ๋ฅผ ๊ณ ์ ์์ธกํ๋ ESMFold๋ฅผ ํตํด ๋จ๋ฐฑ์ง ๊ตฌ์กฐ ์์ธก์ ํจ๋ฌ๋ค์์ ์ ํํ์ผ๋ฉฐ, 6์ต ๊ฐ ๋ฉํ๊ฒ๋ ๋จ๋ฐฑ์ง์ ๋๊ท๋ชจ ๊ตฌ์กฐ ๋ฐ์ดํฐ๋ฒ ์ด์ค ๊ตฌ์ถ์ผ๋ก ์์ฐ ๋จ๋ฐฑ์ง์ ๊ตฌ์กฐ์ ๋ค์์ฑ์ ๋ํ ์๋ก์ด ์๋ฌผํ์ ํต์ฐฐ์ ์ ๊ณตํ๋ ํ๊ธฐ์ ์ฐ๊ตฌ์ด๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
์๋ฌผํ ํ
์คํธ ๊ธฐ๋ฐ์ LLM ํ์ฉ ํํฉ์ ์ ๋ฆฌํ์ฌ, ESMFold ๊ฐ์ protein language model ์ ๊ทผ์ ์ด๋ก ์ ๋ฐฐ๊ฒฝ์ ์ ๊ณตํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
2196๋ฒ ๋
ผ๋ฌธ์ ๋๊ท๋ชจ ์งํ ์์ด์์ ๋จ๋ฐฑ์ง ๊ตฌ์กฐ ์์ธก์ ์ต์ ์ฌ์ ํ์ต ๋ชจ๋ธ์ ์ ์ํด, 3109์ single-sequence ๊ธฐ๋ฐ ์ธ์ด๋ชจ๋ธ๊ณผ ์ต์ ์ฑ๋ฅ ์ฐจ์ด๋ฅผ ๋
ผํ ๋ ์ด์์ ์
๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๋๊ท๋ชจ ์งํ ์ค์ผ์ผ ๋จ๋ฐฑ์ง ๊ตฌ์กฐ ์์ธก ์ธ์ด๋ชจ๋ธ์ด ํจ์ ํ์ฑ ํจํด ๋ฐ๊ตด์ ๊ธฐ์ด๊ฐ ๋ฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
403 ๋
ผ๋ฌธ์ AlphaFold๋ก ๋๋์ ๋จ๋ฐฑ์ง ๊ตฌ์กฐ ์์ธก์ ์์ฐํ์ฌ, 2196์ ESMFold ๊ธฐ๋ฐ ์งํ์ ์ธ์ด๋ชจ๋ธ๊ณผ ์ง์ ์ ๋น๊ต ๋ถ์์ด ๊ฐ๋ฅํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋จ๋ฐฑ์ง ์ธ์ด ๋ชจ๋ธ์ ํํ ํ์ต๊ณผ ํจ์จ์ฑ ๊ฐ์ ์ ๋ํ ์ ์ฌํ ๋ฌธ์ ๋ฅผ ๋ค๋ฃจ๋ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋๊ท๋ชจ ์์ธก/์ค๊ณ ์ญ๋์ญํ ๊ธฐ๋ฐ์ ๋จ๋ฐฑ์ง-๊ธ๋ฆฌ์นธ ์ํธ์์ฉ์ ํนํ๋ AI ๊ธฐ๋ฐ ์ ๊ทผ๋ฒ์
๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM ๊ธฐ๋ฐ ๋จ๋ฐฑ์ง ๋ฐ ํํฉ๋ฌผ ๊ตฌ์กฐ-๊ธฐ๋ฅ ์์ธก์ ๋ ๋ค๋ฅธ ์์ฉ ์ฌ๋ก๋ก, ๊ณผํ ๋ํํ AI ์ฐ๊ตฌ์ ๋น๊ต๊ฐ ๊ฐ๋ฅํ๋ค.
ํ์ ์ฐ๊ตฌ
AlphaFold ๋ฐ์ดํฐ๋ฒ ์ด์ค ํ๋ ์ฐ๊ตฌ๋ ESMFold์ ๋๊ท๋ชจ ์์ธก๋ ๋จ๋ฐฑ์ง ๊ตฌ์กฐ ๋ฐ์ดํฐ์
๊ณผ ์ํธ๋ณด์์ ์ด๋ค.
๋ฐ๋ก /๋นํ
3221 ๋
ผ๋ฌธ์ ๋จ๋ฐฑ์ง ์ธ์ด ๋ชจ๋ธ๊ณผ ์์ฐ์ด ์ฒ๋ฆฌ ์ธ์ด๋ชจ๋ธ ๊ฐ์ ๋ณธ์ง์ ์ฐจ์ด๋ฅผ ๋ถ์ํ์ฌ, 2196์ ์ ๊ทผ ๋ฐฉ์์ ๋ํ ์ฌํ ํ ๋ก ์ ์ ๊ณตํฉ๋๋ค.