AlphaGenome: advancing regulatory variant effect prediction with a unified DNA sequence model

์ €์ž: ลฝiga Avsec, Natasha Latysheva, Jun Cheng, Guido Novati, Kyle R. Taylor | ๋‚ ์งœ: 2025 | DOI: 10.1101/2025.06.25.661532 📄 PDF


Essence

Figure 1

Figure 1: AlphaGenome ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜, ํ•™์Šต ๋ฐฉ์‹ ๋ฐ ์ข…ํ•ฉ ํ‰๊ฐ€ ์„ฑ๋Šฅ. (a) ๋ชจ๋ธ ๊ฐœ์š”: 1 Mb DNA ์„œ์—ด์„ ์ž…๋ ฅ๋ฐ›์•„ 11๊ฐœ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ์—์„œ 5,930๊ฐœ์˜ ๊ฒŒ๋†ˆ ํŠธ๋ž™์„ ๋‹จ์ผ ์—ผ๊ธฐ์Œ ํ•ด์ƒ๋„๋กœ ์˜ˆ์ธก. (e) ๋ณ€์ด ํšจ๊ณผ ์˜ˆ์ธก์—์„œ ๊ธฐ์กด ๋ชจ๋ธ ๋Œ€๋น„ ์ƒ๋Œ€์  ์„ฑ๋Šฅ ๊ฐœ์„ 

AlphaGenome์€ 1 ๋ฉ”๊ฐ€๋ฒ ์ด์Šค(Mb) DNA ์„œ์—ด ์ž…๋ ฅ๊ณผ ๋‹จ์ผ ์—ผ๊ธฐ์Œ(bp) ํ•ด์ƒ๋„๋ฅผ ํ†ตํ•ฉํ•˜์—ฌ, 11๊ฐœ์˜ ์ƒ๋ฌผํ•™์  ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ(์œ ์ „์ž ๋ฐœํ˜„, ์Šคํ”Œ๋ผ์ด์‹ฑ, ํฌ๋กœ๋งˆํ‹ด ์ ‘๊ทผ์„ฑ, ์กฐ์ง์ธ์ž ๊ฒฐํ•ฉ, 3D ํฌ๋กœ๋งˆํ‹ด ๊ตฌ์กฐ ๋“ฑ)์— ๊ฑธ์ณ 5,930๊ฐœ์˜ ๊ฒŒ๋†ˆ ํŠธ๋ž™์„ ๋™์‹œ์— ์˜ˆ์ธกํ•˜๋Š” ํ†ตํ•ฉ ๋”ฅ๋Ÿฌ๋‹ ๋ชจ๋ธ์ด๋‹ค.

Motivation

Achievement

Figure 2

Figure 2: AlphaGenome ํŠธ๋ž™ ์˜ˆ์ธก ์˜ˆ์‹œ ๋ฐ ์ƒ์„ธ ์„ฑ๋Šฅ ํ‰๊ฐ€. ๊ด€์ฐฐ๋œ ๋ฐ์ดํ„ฐ์™€ AlphaGenome ์˜ˆ์ธก์˜ ๋†’์€ ์ผ์น˜๋„ ์‹œ์—ฐ

  1. ๊ฒŒ๋†ˆ ํŠธ๋ž™ ์˜ˆ์ธก ์„ฑ๋Šฅ: 26๊ฐœ์˜ ๊ฒŒ๋†ˆ ํŠธ๋ž™ ์˜ˆ์ธก ๊ณผ์ œ ์ค‘ 22๊ฐœ์—์„œ ๊ธฐ์กด ์ตœ๊ฐ• ๋ชจ๋ธ์„ ๋Šฅ๊ฐ€ (Pearson r ๊ธฐ์ค€ ๋‹ค์–‘ํ•œ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ ๋ถ„์„)
  2. ๋ณ€์ด ํšจ๊ณผ ์˜ˆ์ธก ์„ฑ๋Šฅ: 26๊ฐœ์˜ ๋ณ€์ด ํšจ๊ณผ ์˜ˆ์ธก ๋ฒค์น˜๋งˆํฌ ์ค‘ 24๊ฐœ์—์„œ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ ๋‹ฌ์„ฑ
    • ์Šคํ”Œ๋ผ์ด์‹ฑ: 15.0% (DeltaSplice ๋Œ€๋น„), 59.1% (ClinVar splice site region)
    • ์œ ์ „์ž ๋ฐœํ˜„: 13.7% (eQTL supervised, Borzoi ๋Œ€๋น„)
    • ํฌ๋กœ๋งˆํ‹ด ์ ‘๊ทผ์„ฑ: 8.0-18.0% (bQTL, ds/caQTL)
  3. ๋‹ค์ค‘ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ ํ•ด์„: TAL1 ์ข…์–‘์›์œ ์ „์ž ์ธ๊ทผ์˜ ์ž„์ƒ์ ์œผ๋กœ ๊ด€๋ จ๋œ ๋ณ€์ด๋“ค์˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ๋ชจ๋“  ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ์—์„œ ๋™์‹œ์— ์ •ํ™•ํžˆ ์„ค๋ช…

How

Figure 3

Figure 3: AlphaGenome์€ ์ตœ์ฒจ๋‹จ ์Šคํ”Œ๋ผ์ด์‹ฑ ๋ณ€์ด ํšจ๊ณผ ์˜ˆ์ธก ๋ชจ๋ธ. (a) ์Šคํ”Œ๋ผ์ด์‹ฑ ์˜ˆ์ธก ์œ ํ˜•์˜ ์ข…ํ•ฉ์  ๋น„๊ต ๋ฐ ์„ฑ๋Šฅ ๋ฉ”ํŠธ๋ฆญ

Originality

Limitation & Further Study

Evaluation

์ดํ‰: AlphaGenome์€ ๊ธฐ์กด์˜ ๊ตฌ์กฐ์  ํŠธ๋ ˆ์ด๋“œ์˜คํ”„๋ฅผ ๊ทน๋ณตํ•˜๊ณ  11๊ฐœ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ๋ฅผ ํ†ตํ•ฉํ•˜๋Š” ๊ฐ•๋ ฅํ•œ unified model๋กœ์„œ, ๋น„์ฝ”๋”ฉ ๋ณ€์ด์˜ ๋ถ„์ž์  ํšจ๊ณผ ํ•ด์„์„ ์œ„ํ•œ ์ค‘์š”ํ•œ ์ง„์ „์„ ์ œ์‹œํ•œ๋‹ค. ๊ด‘๋ฒ”์œ„ํ•œ ๋ฒค์น˜๋งˆํ‚น๊ณผ ๊ณต๊ฐœ ๋„๊ตฌ ์ œ๊ณต์œผ๋กœ ์‹ค์šฉ์  ์ž„ํŒฉํŠธ๊ฐ€ ๋†’์œผ๋‚˜, ์ปจํ…์ŠคํŠธ ๊ธธ์ด ํ•œ๊ณ„์™€ ์ผ๋ถ€ modality์˜ ํ•ด์ƒ๋„ ์ œ์•ฝ์ด ํ–ฅํ›„ ๊ฐœ์„  ๊ณผ์ œ์ด๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Integrated analysis of multimodal single-cell data ๋…ผ๋ฌธ์€ ๋‹จ์ผ์„ธํฌ ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ, ์œ ์ „์ž ๋ฐœํ˜„ ์˜ˆ์ธก์˜ ๋ถ„์„ ๋ฐ ํ†ตํ•ฉ ๋ฐฉ๋ฒ•๋ก  ๊ธฐ๋ฐ˜์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
100kb ์žฅ๊ฑฐ๋ฆฌ ๊ทœ์ œ์ •๋ณด๋ฅผ Transformer์—์„œ ํšจ๊ณผ์ ์œผ๋กœ ํ™œ์šฉํ•˜๋Š” ๋ฐฉ๋ฒ•๋ก ์ด AlphaGenome์˜ ๋Œ€๊ทœ๋ชจ DNA-์œ ์ „์ฒด ๋ชจ๋“ˆ ์˜ˆ์ธก์— ์ง์ ‘์ ์ธ ์˜๊ฐ์„ ์ค€๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
DNA ์„œ์—ด๋กœ๋ถ€ํ„ฐ ์œ ์ „์ž ๋ฐœํ˜„์„ ์˜ˆ์ธกํ•˜๋Š” ์œ ์‚ฌํ•œ Transformer ๊ธฐ๋ฐ˜ ๋”ฅ๋Ÿฌ๋‹ ์ ‘๊ทผ๋ฒ•์„ ์ทจํ•˜๋Š” ์—ฐ๊ตฌ์ด๋‹ค
๋‹ค๋ฅธ ์ ‘๊ทผ
DNA ์„œ์—ด๋กœ๋ถ€ํ„ฐ ๋‹ค์ค‘ ์ƒ๋ฌผํ•™์  ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ์œ ์‚ฌํ•œ ํ†ตํ•ฉ ๊ฒŒ๋†ˆ ๋ชจ๋ธ์„ ์ œ์•ˆํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
AlphaGenome ๋…ผ๋ฌธ์€ ์˜ค๋ฏน์Šค ๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜์œผ๋กœ ๊ทœ์ œ์š”์†Œ ์˜ˆ์ธก ๋ฌธ์ œ๋ฅผ ๊ธฐ์กด์˜ ML ๋ฐฉ๋ฒ•์œผ๋กœ ๋‹ค๋ฃจ๋ฉฐ, Seq2Exp์˜ ์ธ๊ณผ์  ์ •๋ณด ๋ณ‘๋ชฉ ์ ‘๊ทผ๊ณผ ๋Œ€์กฐ๋œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์œ ์ „์ฒด ๋ถ„์„ ๋ฐ ์„ค๊ณ„๋ฅผ ์œ„ํ•œ AI ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•๋ก ์„ ๋‹ค๋ฃจ๋Š” ์œ ์‚ฌํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Foundation models in bioinformatics ๋…ผ๋ฌธ์€ ๋‹ค์–‘ํ•œ ์ƒ๋ช…์ •๋ณด ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ์˜ ์—ญํ• ๊ณผ ๋‹จ์ผ๋ชจ๋‹ฌ/๋‹ค์ค‘๋ชจ๋‹ฌ ์˜ˆ์ธก ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ๋น„๊ตํ•ด, AlphaGenome์˜ ๋‹ค์ค‘ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ ์˜ˆ์ธก๊ณผ ๋น„๊ต ํ‰๊ฐ€๊ฐ€ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
OptiPrime ๋ชจ๋ธ๊ณผ ํ•จ๊ป˜ AlphaGenome์˜ ๋‹จ์ผ ์—ผ๊ธฐ์Œ ํ•ด์ƒ๋„ ๋ฐ ๋‹ค์ค‘ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ ์˜ˆ์ธก ๋Šฅ๋ ฅ์„ ๋น„๊ตํ•˜๋ฉด์„œ, ์œ ์ „์ฒด ๊ธฐ๋ฐ˜ ๋ฐœํ˜„ ์˜ˆ์ธก๋ชจ๋ธ์˜ ๋‹ค์–‘ํ•œ ์„ฑ๊ณต ์‚ฌ๋ก€๋ฅผ ์‚ดํŽด๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
RNA ์„œ์—ด ์„ค๊ณ„๋ฅผ ์œ„ํ•œ ์—ฐ์† ์ตœ์ ํ™” ๋˜๋Š” ์ƒ˜ํ”Œ๋ง ๊ธฐ๋ฐ˜ ๋Œ€์•ˆ์  ๋ฐฉ๋ฒ•์„ ์ œ์‹œํ•˜๋Š” ์—ฐ๊ตฌ์ด๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
AlphaGenome ๋…ผ๋ฌธ์€ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์œ ์ „์ฒด ์ž…๋ ฅ ๋ฐ ๋‹ค์–‘ํ•œ ์ƒ๋ฌผํ•™์  ์‹ ํ˜ธ ๋™์‹œ ์˜ˆ์ธก์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜์—ฌ, ๋‹จ์ผ์„ธํฌ ๊ธฐ๋ฐ˜ multi-omics ๋ถ„์„์˜ ์ตœ์‹  ๋”ฅ๋Ÿฌ๋‹ ๋ฐœ์ „ ๋ฐฉํ–ฅ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
AlphaGenome์ด ์˜ˆ์ธกํ•˜๋Š” ์ƒ๋ฌผํ•™์  ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ ์ค‘ ํ•˜๋‚˜(์˜ˆ: ํฌ๋กœ๋งˆํ‹ด ๊ตฌ์กฐ, ์Šคํ”Œ๋ผ์ด์‹ฑ)์— ํŠนํ™”๋œ ์—ฐ๊ตฌ์ด๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
AlphaGenome์€ regulatory variant ์˜ˆ์ธก์— attention ๊ธฐ๋ฐ˜ ๋Œ€ํ˜•๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜์—ฌ MEIsensor์˜ ์ˆœ์„œ๊ธฐ๋ฐ˜ AI ์ ‘๊ทผ์„ ๋” ๋„“์€ ์Šค์ผ€์ผ๋กœ ํ™•์žฅํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
AlphaGenome์€ ๋Œ€๊ทœ๋ชจ ์œ ์ „์ฒด ๊ธฐ๋ฐ˜ ์˜ˆ์ธก foundation model๋กœ, Neurotox์™€ ๊ฐ™์ด ๊ธฐ๋Šฅ์„ฑ ๋‹จ๋ฐฑ์งˆ ๋ถ„๋ฅ˜ ๋“ฑ ์‹ค์ œ ๋ฐ”์ด์˜ค์ ์šฉ์— ๊ณง์žฅ ์—ฐ๊ฒฐ๋  ์ˆ˜ ์žˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
AlphaGenome ๋…ผ๋ฌธ์€ ์–ธ์–ด ๊ธฐ๋ฐ˜ ์ƒ๋ฌผํ•™์  ์˜ˆ์ธก๋ชจ๋ธ์˜ FM ์ ์šฉ์„ ์‹ค์ œ ์œ ์ „์ฒด ๋ณ€์ด ์˜ˆ์ธก์—์„œ ํ™œ์šฉ, Frag2Seq์˜ ์‹ค์ œ ํ™œ์šฉ์„ฑ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
๋Œ€๊ทœ๋ชจ ๊ฒŒ๋†ˆ ๋ฐ์ดํ„ฐ์™€ ๋”ฅ๋Ÿฌ๋‹ ์˜ˆ์ธก์„ ๊ฒฐํ•ฉํ•˜๋Š” AlphaGenome๊ณผ LLM ๋“ฑ ์ƒ๋ช…๊ณผํ•™ ํŠนํ™” ์–ธ์–ด๋ชจ๋ธ ์ ์šฉ ์‚ฌ๋ก€๋ฅผ ๋น„๊ตํ•  ์ˆ˜ ์žˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •