์ ์: Garyk Brixi, Matthew G. Durrant, Jerome Ku, Michael Poli, Greg Brockman, Daniel Chang, Gabriel A. Gonzalez, Samuel H. King, David B. Li, Aditi T. Merchant, Mohsen Naghipourfar, Eric Nguyen, Chiara Ricci-Tam, David W. Romero, Gwanggyu Sun, Ali Taghibakshi, Anton Vorontsov, Brandon Yang, Myra Deng, Liv Gorton, Nam Nguyen, Nicholas K. Wang, Etowah Adams, Stephen A. Baccus, Steven Dillmann, Stefano Ermon, Daniel Guo, Rajesh Ilango, Ken Janik, Amy X. Lu, Reshma Mehta, Mohammad R.K. Mofrad, Madelena Y. Ng, Jaspreet Pannu, Christopher Rรฉ, Jonathan C. Schmok, John St. John, Jeremy Sullivan, Kevin Zhu, Greg Zynda, Daniel Balsam, Patrick Collison, Anthony B. Costa, Tina Hernandez-Boussard, Eric Ho, Ming-Yu Liu, Thomas McGrath, Kimberly Powell, Dave P. Burke, Hani Goodarzi, Patrick D. Hsu, Brian L. Hie | ๋ ์ง: 2025-02-21 | DOI: 10.1101/2025.02.18.638918 📄 PDF
Essence
Figure 1 | Overview of model architecture, training procedure, datasets, and evaluations for Evo 2.
Evo 2๋ 9.3์กฐ ๊ฐ์ DNA ์ผ๊ธฐ์์ผ๋ก ํ๋ จ๋ ์๋ฌผํ์ ๊ธฐ์ด ๋ชจ๋ธ๋ก, 7B์ 40B ๋งค๊ฐ๋ณ์๋ก 1๋ฐฑ๋ง ํ ํฐ ์ปจํ
์คํธ ์๋์ฐ๋ฅผ ๊ฐ์ง๋ฉฐ ๋ชจ๋ ์๋ช
์์ญ์์ ๊ฒ๋ ๋ชจ๋ธ๋ง ๋ฐ ์ค๊ณ๋ฅผ ์ํํ๋ค.
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: Evo 2๋ ๊ฒ๋ ๊ธฐ์ด ๋ชจ๋ธ๋ก์ unprecedented ๊ท๋ชจ(9.3์กฐ ํ ํฐ, 1๋ฐฑ๋ง ์ปจํ
์คํธ ์๋์ฐ)์ ์ฑ๋ฅ(๋ณ์ด ํจ๊ณผ ์์ธก, ๊ฒ๋ ๊ท๋ชจ ์์ฑ, ๊ธฐ๊ณ์ ํด์๊ฐ๋ฅ์ฑ)์ ๋ฌ์ฑํ์์ผ๋ฉฐ, ์์ ๊ณต๊ฐ ๋ชจ๋ธ๊ณผ ๋ฐ์ดํฐ์
์ผ๋ก ํฉ์ฑ์๋ฌผํ๊ณผ ๊ฒ๋ ์ค๊ณ ๋ถ์ผ์ ํ์ ์ ๊ธฐ์ฌ๋ฅผ ์ ์ํ๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
382๋ ESM ๊ธฐ๋ฐ ์ ์ ์ฒด ์ค๊ณ ๋ฐ ์์ธก์ ๋ค๋ฃจ๋ foundational ๋ชจ๋ธ๋ก, 749์ Evo ๋ชจ๋ธ์ด ๋ค์ํ ์๋ฌผํ์ ์์
์ํ์ ์ด๋ก ์ ํ ๋๋ฅผ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
์๋ช
์์ญ์ ํฌ๊ดํ๋ ๊ฒ๋ ๊ธฐ์ด ๋ชจ๋ธ์ ๊ตฌ์กฐ์ ์ฑ๊ฒฉ ๋
ผ์ ๋ฐ DNA ์์ด ์ค๊ณ ์ ๋ต์ ๊ธฐ๋ฐ์ด ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Foundation models in bioinformatics ๋
ผ๋ฌธ์์ Evo 2์ ๊ฐ์ ์๋ช
์ ๋ณด ํ์ด๋ฐ์ด์
๋ชจ๋ธ์ ํํฉ๊ณผ ํ๊ณ, ํ์
์์ฉ์ ์ข
ํฉ์ ์ผ๋ก ๋ค๋ฃน๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Evo 2๋ ๋ฒ์๋ช
์ฒด ๊ฒ๋ ๋ชจ๋ธ๋ง์ฉ ์ด๋๊ท๋ชจ ๊ธฐ์ด ๋ชจ๋ธ๋ก, ๋จ๋ฐฑ์ง ์ด๋ฏธ์ง๋ฅผ ์์ฑ ๊ฐ๋ฅํ proteome-level ๋ฐ์ดํฐ ํ์ต์ ์ ๋ณ์ ์ ๊ณตํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋ถ์์์ ์ ์ ์ฒด ์ ์ฒด์ ์ด๋ฅด๋ ์ํ์ค ๋์์ธ ๋ฐ ๋ชจ๋ธ๋ง ๋ฐฉ๋ฒ๋ก ์ ๋ค๋ฅธ ๋ฒ์์ ์ ๋ต์ผ๋ก ์ ์ํ์ฌ ์ํธ๋ณด์์ ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
์๋ฌผํ์ ์์ด ๋ฐ์ดํฐ๋ฅผ ์ํ ๋๊ท๋ชจ ์ธ์ด๋ชจ๋ธ์ ๋ค๋ฅธ ๊ตฌํ์ ์ ์ํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
์ ์ ์ฒด ๋ถ์ ๋ฐ ์ค๊ณ๋ฅผ ์ํ AI ๊ธฐ๋ฐ ๋ฐฉ๋ฒ๋ก ์ ๋ค๋ฃจ๋ ์ ์ฌํ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
DNA ๋ฐ ๋จ๋ฐฑ์ง ์์ด ์ค๊ณ๋ฅผ ์ํ ๋ค๋ฅธ ์์ฑ ๋ชจ๋ธ์ ๋ค๋ฃจ๋ ๊ด๋ จ ์ฐ๊ตฌ์ด๋ค.
ํ์ ์ฐ๊ตฌ
Genome modeling and design across all domains of life with Evo 2 ๋
ผ๋ฌธ์ ํ์ด๋ฐ์ด์
๋ชจ๋ธ ๊ธฐ๋ฐ ๊ฒ๋ ๋์์ธ์ ์ค์ ์ฑ๋ฅ๊ณผ ๋ฐ์ดํฐ ๊ท๋ชจ์ ์ค์์ฑ์ ์ค์ฆ์ ์ผ๋ก ๋ณด์ฌ์ค๋๋ค.
ํ์ ์ฐ๊ตฌ
3382์์๋ Evo 2์ ์ ์ฌํ ๋๊ท๋ชจ ๋ฐ์ดํฐ๋ก ๋จ๋ฐฑ์ง ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋ ํ๋ ์์ํฌ๋ฅผ ๊ฐ๋ฐํ์ฌ 382๋ฒ์ ๋ชจ๋ธ์ ์ค์ ์ด๋ฏธ์ง ์์ฑ์ ์ ์ฉํ ์ฌ๋ก๋ฅผ ๋ณด์ธ๋ค.
์์ฉ ์ฌ๋ก
Genome modeling and design across all domains of life with ESM3๋ ์๋ฌผํ์ ์์ด ๋ชจ๋ธ๋ก์ ๋ํ ๊ณผํ LLM ์์ฉ์ ์ค์ฆํ๋ ์ฌ๋ก์
๋๋ค.