Essence
Figure 1 | Pretraining a genomic foundation model across prokaryotic life. (A) A model of genome se-
Evo๋ 7์ต ๊ฐ ํ๋ผ๋ฏธํฐ์ genomic foundation model๋ก์ 131kb์ ๊ธด context length์์ ๋จ์ผ nucleotide ํด์๋๋ก DNA ์์ด์ ์์ธกํ๊ณ ์์ฑํ ์ ์์ผ๋ฉฐ, ๋ถ์ ๊ท๋ชจ๋ถํฐ genome ๊ท๋ชจ๊น์ง ๋ค์ํ ์๋ฌผํ์ ์์
์ ์ํํ๋ค.
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: Evo๋ StripedHyena ์ํคํ
์ฒ์ ๋จ์ผ nucleotide ํด์๋๋ฅผ ํตํด ๊ธด genomic context์์ ์์ธก๊ณผ ์์ฑ์ ์ํํ๋ ํ์ ์ ์ธ genomic foundation model์ด๋ฉฐ, zero-shot ํจ์ ์์ธก์์ SOTA ์ฑ๋ฅ ๋ฌ์ฑ๊ณผ multi-component ์๋ฌผํ์ ์์คํ
์ค๊ณ ๊ฐ๋ฅ์ฑ์ ์
์ฆํ์ฌ ํฉ์ฑ์๋ฌผํ ๋ถ์ผ์ ์ค๋ํ ๊ธฐ์ฌ๋ฅผ ํ๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
SCAnpy(699)๋ ๋๊ท๋ชจ single-cell gene expression ๋ฐ์ดํฐ ์ฒ๋ฆฌ์ ๋ถ์์ ํ์ค platform์ผ๋ก, 749์ ์๋ฌผํ์ sequence ์์ธก/์์ฑ์ ๊ธฐ๋ฐ์ด ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
345๋ ๋ฉํฐ๋ชจ๋ฌ ํ์ด๋ฐ์ด์
๋ชจ๋ธ๊ณผ molecular grammar ๊ฐ๋
์ ๋
ผ์ํ์ฌ, 749์์ ์ ์๋ Evo ๋ชจ๋ธ์ ๊ธฐ๋ฐ ๊ฐ๋
์ ์ ๊ณตํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
382๋ ESM ๊ธฐ๋ฐ ์ ์ ์ฒด ์ค๊ณ ๋ฐ ์์ธก์ ๋ค๋ฃจ๋ foundational ๋ชจ๋ธ๋ก, 749์ Evo ๋ชจ๋ธ์ด ๋ค์ํ ์๋ฌผํ์ ์์
์ํ์ ์ด๋ก ์ ํ ๋๋ฅผ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
749๋ฒ ๋
ผ๋ฌธ์ ๋ค๋ชจ๋ฌ ์ค๊ณ ๋ฐ ๊ตฌ์กฐ-์์ด ๊ณต๋์์ฑ ํ๋ ์์ํฌ๋ฅผ ํฌ๊ด์ ์ผ๋ก ๋ค๋ฃจ๋ฏ๋ก, 3112์ multimodal diffusion ๋ชจ๋ธ ๊ธฐ๋ฐ de novo ๋จ๋ฐฑ์ง ์ค๊ณ์ ์ด๋ก ์ ๋ฐฐ๊ฒฝ์ด ๋ฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
619 ๋
ผ๋ฌธ์ ๋ฌผ๋ฆฌ์ ๋ณด ์ ๊ฒฝ๋ง ๋ฐ ๋ฅ๋ฌ๋์ ๋๊ท๋ชจ ์๋ช
๊ณผํ ๋ฐ์ดํฐ์ ์ ๋ชฉํ์ฌ sequence modeling ์ ๊ทผ๊ณผ ๋๋ฆฝ๋๋ ๋ฐฉํฅ์ฑ์ ๋ณด์ฌ์ค๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
Transformer ๊ธฐ๋ฐ ๊ฒ๋ ๊ธฐ์ด ๋ชจ๋ธ๋ก ์ ์ ์ ๊ท์ ์์ธก์ ์ํํ๋ ๋์์ ์ ๊ทผ๋ฒ์ด๋ค
๋ค๋ฅธ ์ ๊ทผ
291์ ๋๊ท๋ชจ ํ์ด๋ฐ์ด์
๋ชจ๋ธ ๋์ contrastive ํ์ต ๊ธฐ๋ฐ์ drug-disease ์ํธ์์ฉ ์์ธก ๋ฐฉ๋ฒ์ ์ ์ํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
DNA ์์ด๋ก๋ถํฐ ๋ค์ค ์๋ฌผํ์ ๋ชจ๋ฌ๋ฆฌํฐ๋ฅผ ์์ธกํ๋ ์ ์ฌํ ํตํฉ ๊ฒ๋ ๋ชจ๋ธ์ ์ ์ํ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋ถ์ ๋ฐ ์ ์ ์ฒด ์ํ์ค ๋์์ธ ๋ฌธ์ ๋ฅผ ๋ค๋ฅธ ๋ชจ๋ธ๋ง ์ ๋ต(์: cross-domain sequence modeling)์ผ๋ก ๋ค๋ฃจ์ด ๋น๊ต์ ์ ํฉํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋ถ์์์ ์ ์ ์ฒด ์ ์ฒด์ ์ด๋ฅด๋ ์ํ์ค ๋์์ธ ๋ฐ ๋ชจ๋ธ๋ง ๋ฐฉ๋ฒ๋ก ์ ๋ค๋ฅธ ๋ฒ์์ ์ ๋ต์ผ๋ก ์ ์ํ์ฌ ์ํธ๋ณด์์ ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
์ ์ ์ยท๋ถ์ ์์ด ๋ชจ๋ธ๋ง ๋ฐ ์ค๊ณ ๋ฌธ์ ์ ์ธ์ด๋ชจ๋ธ ๊ธฐ๋ฐ์ ๋ค์ํ ์ ๊ทผ์ ๋ค๋ฃจ๋ฉฐ, RNA ์ต์ ํ์ ๋์์ ์๊ฐ์ ์ ์ํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
749๋ฒ ๋
ผ๋ฌธ์ single-to-multimodal ์ค๊ณ๋ฅผ ๋
ผ์ํ์ฌ, 3109์์ ์ ์ํ sequence ๊ธฐ๋ฐ ์ ๊ทผ๋ฒ์ ์ฅ๋จ์ ์ ๋น๊ตํ๋ฉฐ ๋ณผ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
3171๋ฒ ๋
ผ๋ฌธ์ ๋ฅ๋ฌ๋ ๊ธฐ๋ฐ ์ ์ ์ ์กฐ์ ์์ธก๊ณผ perturbation modeling์ ๋ค์ํ scale์์ ์ ์ฉํ์ฌ ์ ์ฌ ์ฃผ์ ๋ฅผ ๋ค๋ฃฌ ๋ ๋ค๋ฅธ ์ ๊ทผ๋ฒ์
๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
749๋ ์์ด ๊ธฐ๋ฐ์์ ์ ์ ์ฒดยท๋จ๋ฐฑ์ง ๊ธฐ๋ฅ ์์ธก ๋ฐ ์ค๊ณ ๋ฌธ์ ๋ฅผ ๋ค๋ฃจ์ด, 3275์ ์ํธํ๋ ์ธ์ด๋ชจ๋ธ ๊ธฐ๋ฐ ํจ์ ๋ฐ๊ฒฌ ํ๋ ์์ํฌ์ ์ํธ๋ณด์์ ์ผ๋ก ๋ณผ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋ถ์์์ ๊ฒ๋ ์ค์ผ์ผ๊น์ง์ ์์ด ๋ชจ๋ธ๋ง๊ณผ ๋์์ธ์ ๋ค๋ฃจ๋ฉฐ, IDR-Prop2Seq์ฒ๋ผ sequence design์ ๋ฒ์ฃผ ํ์ฅ ์ค์ ์ฌ๋ก์ ๋น๊ตํ ์ ์์ต๋๋ค.
ํ์ ์ฐ๊ตฌ
505๋ LLM ๊ธฐ๋ฐ ์ ์ ์ ์กฐ์ ๋คํธ์ํฌ ์ถ๋ก ์ด๋ผ๋ ์์ฉ์ ๋ณด์ด๋ฉฐ, 749์์ ์ ๊ณตํ๋ ์์ด ๋ชจ๋ธ๋ง ๊ธฐ๋ฒ์ ์ค์ ํ์ฉ ์๋ฅผ ๋ณด์ฌ์ค๋ค.
ํ์ ์ฐ๊ตฌ
Foundation models in bioinformatics(344)๋ Evo(749)๊ฐ ๋ค๋ฃจ๋ genomic foundation model์ ์ด๋ก ์ ๋ฐ ์ค์ฉ์ ๋ฐ์ ์ฌ๋ก๋ก, ๋ค์ํ ์๋ฌผํ์ ์ฐ์ถ๋ฌผ ์์ธก์ ๋ฐฐ๊ฒฝ์ ์ด๋ฃน๋๋ค.
ํ์ ์ฐ๊ตฌ
749๋ฒ ๋
ผ๋ฌธ์ ์์ด ๊ธฐ๋ฐ ๋ฐ ๊ตฌ์กฐ ๊ธฐ๋ฐ ๋จ๋ฐฑ์ง/๊ฒ๋ ์ค๊ณ์ ์์ธก์ ํฌ๊ดํ๋ฏ๋ก, 3104์ ์ค์ ๋จ๋ฐฑ์ง ์์ง๋์ด๋ง ์บ ํ์ธ ์ ์ฉ์ฑ๊ณผ ์ฐ๊ฒฐํ ์ ์์ต๋๋ค.
์์ฉ ์ฌ๋ก
LLM ๊ธฐ๋ฐ ์ํ์ค ๋ชจ๋ธ๋ง ๋ฐ ๋์์ธ ์์ญ์์ ์ค์ ์์ฉ ์ฌ๋ก๋ฅผ ํตํด, ์ด ๋ฆฌ๋ทฐ ๋
ผ๋ฌธ์ ๋
ผ์ ํญ์ ๋ํ์ค๋ค.
์์ฉ ์ฌ๋ก
749์ Evo ๋ชจ๋ธ์ ๋๊ท๋ชจ genome-scale sequence modeling์ ํตํด 856์ ๊ณ์ธต์ ๊ตฌ์กฐ ์ ๋ณด ํฌ์ฐฉ ๋ชจ๋ธ ์ ์ฉ ๊ฐ๋ฅ์ฑ์ ์ค์ฆ์ ์ผ๋ก ๋ณด์ฌ์ค๋๋ค.