Effective gene expression prediction from sequence by integrating long-range interactions

์ €์ž: ลฝiga Avsec, Vikram Agarwal, D. Visentin, J. Ledsam, A. Grabska-Barwinska | ๋‚ ์งœ: 2021 | DOI: 10.1038/s41592-021-01252-x 📄 PDF


Essence

DNA ์„œ์—ด๋กœ๋ถ€ํ„ฐ ์œ ์ „์ž ๋ฐœํ˜„์„ ์˜ˆ์ธกํ•˜๋Š” ๋ฌธ์ œ์—์„œ Transformer ๊ธฐ๋ฐ˜ ์ž๊ธฐ์ฃผ๋ชฉ(self-attention) ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ํ†ตํ•ด 100 kb๊นŒ์ง€์˜ ์žฅ๊ฑฐ๋ฆฌ ๊ทœ์ œ ์š”์†Œ๋ฅผ ํ†ตํ•ฉํ•จ์œผ๋กœ์จ ์˜ˆ์ธก ์ •ํ™•๋„๋ฅผ ํš๊ธฐ์ ์œผ๋กœ ํ–ฅ์ƒ์‹œํ‚จ ์—ฐ๊ตฌ์ด๋‹ค.

Motivation

Achievement

  1. ์˜ˆ์ธก ์ •ํ™•๋„ ํš๊ธฐ์  ํ–ฅ์ƒ: CAGE(Cap Analysis Gene Expression)๋ฅผ ํ†ตํ•œ RNA ๋ฐœํ˜„ ์˜ˆ์ธก์—์„œ ํ‰๊ท  ์ƒ๊ด€๊ณ„์ˆ˜๊ฐ€ 0.81์—์„œ 0.85๋กœ ์ฆ๊ฐ€ (Basenji1โ†’Basenji2 ๊ฐœ์„ ์˜ 2๋ฐฐ ๊ทœ๋ชจ, ์‹คํ—˜ ์ˆ˜์ค€ ์ •ํ™•๋„ 0.94์™€์˜ ๊ฒฉ์ฐจ 1/3 ํ•ด์†Œ)
  2. ์žฅ๊ฑฐ๋ฆฌ ๊ทœ์ œ ์š”์†Œ ํ†ตํ•ฉ: ์ˆ˜์šฉ์žฅ์„ 20 kb์—์„œ 100 kb๋กœ ํ™•๋Œ€ํ•จ์œผ๋กœ์จ ๊ณ ์‹ ๋ขฐ๋„ ์ธํ•ธ์„œ-์œ ์ „์ž ์Œ์˜ ํฌํ•จ ๋น„์œจ์„ 47%์—์„œ 84%๋กœ ์ฆ๊ฐ€
  3. ์„ธํฌ ์œ ํ˜• ํŠน์ด์„ฑ ํ–ฅ์ƒ: ์กฐ์ง ๋˜๋Š” ์„ธํฌ ์œ ํ˜• ํŠน์ด์„ฑ ์˜ˆ์ธก์ด ๊ฐœ์„ ๋˜์—ˆ์œผ๋ฉฐ, ๋ฐ€์ ‘ํ•˜๊ฒŒ ๊ด€๋ จ๋œ ์ƒ˜ํ”Œ๋“ค์—์„œ๋„ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ ๋ฐœํœ˜
Figure 2: Enformer attends to cell-type-specific enhancers, enabling enhancer prioritization

๊ทธ๋ฆผ 2: Enformer์˜ ๊ธฐ์—ฌ๋„ ์ ์ˆ˜๊ฐ€ ์„ธํฌ ์œ ํ˜• ํŠน์ด์  ์ธํ•ธ์„œ๋ฅผ ์‹๋ณ„ํ•˜๋ฉฐ, ABC ์ ์ˆ˜์™€ ํ•„์ ํ•˜๋Š” ์ธํ•ธ์„œ ์šฐ์„ ์ˆœ์œ„ํ™” ์„ฑ๋Šฅ ๋‹ฌ์„ฑ

  1. ์ธํ•ธ์„œ ์šฐ์„ ์ˆœ์œ„ํ™”: DNA ์„œ์—ด๋งŒ์„ ์ž…๋ ฅ์œผ๋กœ ํ•˜๋ฉด์„œ๋„ ์‹คํ—˜ ๋ฐ์ดํ„ฐ(HiC, H3K27ac)๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ABC ์ ์ˆ˜์™€ ๋™๋“ฑํ•˜๊ฑฐ๋‚˜ ๋” ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์œผ๋กœ ์ธํ•ธ์„œ-์œ ์ „์ž ์ƒํ˜ธ์ž‘์šฉ ์˜ˆ์ธก
  2. ์ ˆ์—ฐ์ฒด ์š”์†Œ ํ•™์Šต: ์œ„์ƒ ์—ฐ๊ด€ ์˜์—ญ(TAD) ๊ฒฝ๊ณ„์— ๋Œ€ํ•œ ์ฃผ๋ชฉ์ด ์ž„์˜์˜ ์œ„์น˜๋ณด๋‹ค ๋†’๊ณ , ๊ฒฝ๊ณ„ ๋ฐ˜๋Œ€ํŽธ ์˜์—ญ์— ๋Œ€ํ•œ ์ฃผ๋ชฉ์ด ๋‚ฎ์€ ํŒจํ„ด์œผ๋กœ ์ ˆ์—ฐ์ฒด ๊ธฐ๋Šฅ ํ•™์Šต ํ™•์ธ

How

Originality

Limitation & Further Study

Evaluation

์ดํ‰: ๋ณธ ๋…ผ๋ฌธ์€ Transformer์˜ ์ž๊ธฐ์ฃผ๋ชฉ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ํ†ตํ•ด DNA ์„œ์—ด๋กœ๋ถ€ํ„ฐ์˜ ์œ ์ „์ž ๋ฐœํ˜„ ์˜ˆ์ธก์ด๋ผ๋Š” ์˜ค๋žœ ๋ฌธ์ œ๋ฅผ ์‹ค์งˆ์ ์œผ๋กœ ํ•ด๊ฒฐํ•˜๋ฉฐ, ๋‹ค์–‘ํ•œ ์ƒ๋ฌผํ•™์  ๊ฒ€์ฆ์„ ํ†ตํ•ด ๋ชจ๋ธ์˜ ์ƒ๋ฌผํ•™์  ํƒ€๋‹น์„ฑ๊นŒ์ง€ ์ž…์ฆํ•œ ๋งค์šฐ ๋†’์€ ์ˆ˜์ค€์˜ ์—ฐ๊ตฌ์ด๋‹ค. ํŠนํžˆ ์žฅ๊ฑฐ๋ฆฌ ๊ทœ์ œ ์ƒํ˜ธ์ž‘์šฉ ํ†ตํ•ฉ์ด๋ผ๋Š” ์ƒ๋ฌผํ•™์  ์ง๊ด€์„ ๊ธฐ์ˆ ์ ์œผ๋กœ ๊ตฌํ˜„ํ•˜๊ณ , ์ธ๊ฐ„ ์œ ์ „ํ•™์˜ ์—ฌ๋Ÿฌ ์‘์šฉ ๋ถ„์•ผ์—์„œ ์ฆ‰๊ฐ์ ์ธ ์ž„์ƒ ๊ฐ€๋Šฅ์„ฑ์„ ์ œ์‹œํ•œ ์ ์—์„œ ๋†’์ด ํ‰๊ฐ€๋œ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
SCANPY๋Š” ๋Œ€๊ทœ๋ชจ ๋‹จ์ผ์„ธํฌ ์œ ์ „์ž ๋ฐœํ˜„ ๋ฐ์ดํ„ฐ์˜ ํšจ์œจ์  ๋ถ„์„์„ ์œ„ํ•œ ์†Œํ”„ํŠธ์›จ์–ด๋กœ, ๋ณธ ์—ฐ๊ตฌ์˜ ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
100kb ์žฅ๊ฑฐ๋ฆฌ ๊ทœ์ œ์ •๋ณด๋ฅผ Transformer์—์„œ ํšจ๊ณผ์ ์œผ๋กœ ํ™œ์šฉํ•˜๋Š” ๋ฐฉ๋ฒ•๋ก ์ด AlphaGenome์˜ ๋Œ€๊ทœ๋ชจ DNA-์œ ์ „์ฒด ๋ชจ๋“ˆ ์˜ˆ์ธก์— ์ง์ ‘์ ์ธ ์˜๊ฐ์„ ์ค€๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
302 ๋…ผ๋ฌธ์€ ์œ ์ „์ž ๋ฐœํ˜„ ์˜ˆ์ธก๊ณผ ์‹œํ€€์Šค ๊ธฐ๋ฐ˜ ๊ธฐ๋ฒ•์˜ ํšจ์œจํ™” ์ „๋žต์„ ๋‹ค๋ค„, 483์—์„œ ์ œ์•ˆํ•˜๋Š” ์ธ๊ณผ ์กฐ์ ˆ์š”์†Œ ๊ธฐ๋ฐ˜ ํ”„๋ ˆ์ž„์›Œํฌ์˜ ๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ๊ฐ€ ๋œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
PLM์˜ ์„œ์—ด ํŒจํ„ด ํ•™์Šต ๋ฐฉ์‹์— ๋Œ€ํ•œ ์ด๋ก ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•˜๋Š” ์—ฐ๊ตฌ์ด๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
์œ ์ „์ฒด ์„œ์—ด ๊ธฐ๋ฐ˜ ์œ ์ „์ž ๋ฐœํ˜„ ์˜ˆ์ธก์˜ ํ‘œ์ค€์  ์ ‘๊ทผ๋ฒ•์„ ๊ฐœ๊ด„ํ•ด MEIsensor ๊ฐ™์€ ์„œ์—ด-๊ธฐ๋ฐ˜ deep learning ์—ฐ๊ตฌ์˜ ์‹œ์ดˆ๊ฐ€ ๋œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
DNA ์„œ์—ด๋กœ ์œ ์ „์ž ๋ฐœํ˜„์„ ์˜ˆ์ธกํ•˜๋Š” ๋ฌธ์ œ์— ๋น„ํ•ด, ๋ณธ ๋…ผ๋ฌธ์€ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋‹จ์ผ์„ธํฌ ๋ฐ์ดํ„ฐ๋ฅผ ํ†ตํ•ฉ ๋ถ„์„ํ•˜๋Š” ๋Œ€์•ˆ์  ์—ฐ๊ตฌ์ž…๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Transformer ๊ธฐ๋ฐ˜ ๊ฒŒ๋†ˆ ๊ธฐ์ดˆ ๋ชจ๋ธ๋กœ ์œ ์ „์ž ๊ทœ์ œ ์˜ˆ์ธก์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๋Œ€์•ˆ์  ์ ‘๊ทผ๋ฒ•์ด๋‹ค
๋‹ค๋ฅธ ์ ‘๊ทผ
DNA ์„œ์—ด๋กœ๋ถ€ํ„ฐ ์œ ์ „์ž ๋ฐœํ˜„์„ ์˜ˆ์ธกํ•˜๋Š” ์œ ์‚ฌํ•œ Transformer ๊ธฐ๋ฐ˜ ๋”ฅ๋Ÿฌ๋‹ ์ ‘๊ทผ๋ฒ•์„ ์ทจํ•˜๋Š” ์—ฐ๊ตฌ์ด๋‹ค
๋‹ค๋ฅธ ์ ‘๊ทผ
์ž๊ธฐ์ฃผ๋ชฉ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ํ™œ์šฉํ•˜์—ฌ ๊ฒŒ๋†ˆ ์„œ์—ด์˜ ์œ ์ „์ž ๊ทœ์ œ๋ฅผ ๋ชจ๋ธ๋งํ•˜๋Š” ๋Œ€์•ˆ์  ์—ฐ๊ตฌ์ด๋‹ค
๋‹ค๋ฅธ ์ ‘๊ทผ
DNA ์„œ์—ด ๊ธฐ๋ฐ˜์˜ ์œ ์ „์ž ๋ฐœํ˜„ ์˜ˆ์ธก ๋ฌธ์ œ๋ฅผ LLM, ํŠธ๋žœ์Šคํฌ๋จธ ๋“ฑ ๋‹ค์–‘ํ•œ ์ ‘๊ทผ์œผ๋กœ ์‹œ๋„ํ•œ ๋…ผ๋ฌธ์œผ๋กœ์„œ ์„œ๋กœ ๋‹ค๋ฅธ ํŠนํ™” ๋ชจ๋ธ์˜ ๊ฐ•์ ์„ ๋น„๊ตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์œ ์ „์ž ๋ฐœํ˜„ ์˜ˆ์ธก ๋ฌธ์ œ์—์„œ ์‹œํ€€์Šค์™€ ๊ธฐ๋Šฅ ๋ฐ์ดํ„ฐ๋ฅผ ๊ฒฐํ•ฉํ•˜๋Š” ๋Œ€์•ˆ์  ์ ‘๊ทผ๋ฒ•์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
๋‹จ์ผ์„ธํฌ ์ˆ˜์ค€ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ฐ์ดํ„ฐ๋ฅผ ํ†ตํ•ฉ ๋ถ„์„ํ•˜๋Š” WNN ๋ฐฉ๋ฒ•๋„ ์œ ์ „์ž ๋ฐœํ˜„ ์˜ˆ์ธก์˜ ์ •๋ฐ€๋„๋ฅผ ๋†’์ด๊ธฐ ์œ„ํ•œ ํ™•์žฅ ์—ฐ๊ตฌ๋กœ ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
LLM ๊ธฐ๋ฐ˜์œผ๋กœ ์œ ์ „์ž ์กฐ์ ˆ ๋„คํŠธ์›Œํฌ ๋ฐœ๊ฒฌ์„ ์‹œ๋„ํ•œ LLM4GRN์€ ๋ณธ ๋…ผ๋ฌธ์˜ ์˜ˆ์ธก ๋ชจ๋ธ์˜ ๋ฐœ์ „ ๋ฐฉํ–ฅ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Effective gene expression prediction from sequence ๋…ผ๋ฌธ์€ ์‹œํ€€์Šค ๊ธฐ๋ฐ˜ ์œ ์ „์ž ๋ฐœํ˜„ ์˜ˆ์ธก์„ ๋‹ค๋ค„, edgePython์˜ ๋‹ค์–‘ํ•œ ์˜ˆ์ธก ๋ฐ ๋ถ„์„ ๋ฐฉ๋ฒ•๋ก ์„ ์ตœ์‹  ๋”ฅ๋Ÿฌ๋‹ ๊ธฐ๋ฒ•๊ณผ ์—ฐ๊ฒฐํ•ด์ค๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
MMC ๋…ผ๋ฌธ์€ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ฐจํŠธ ์ดํ•ด๋ผ๋Š” ๋ณตํ•ฉ ์ƒ๋ช…๊ณผํ•™ ๋ฐ์ดํ„ฐ๋ฅผ ๋‹ค๋ฃจ๋Š” ๋ฌธ์ œ์— LMM์„ ์ ์šฉํ•˜์—ฌ, DNA ์„œ์—ด-๋ฐœํ˜„ ์˜ˆ์ธก ๊ตฌ์กฐ์™€ ์‹ค์ œ ๋ฐ์ดํ„ฐํ•ด์„ ์—ฐ๊ฒฐ๊ณ ๋ฆฌ๋ฅผ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
์‹ฑ๊ธ€์…€ ์œ ์ „์ž ๋ฐœํ˜„ ๋“ฑ ์‹ค์ œ ๋ฐ”์ด์˜ค ๋น…๋ฐ์ดํ„ฐ์—์„œ ํŠธ๋žœ์Šคํฌ๋จธ ๊ธฐ๋ฐ˜ ์˜ˆ์ธก์˜ ์ ์šฉ์‚ฌ๋ก€๋กœ, sequence-to-expression ๋ฌธ์ œ ํ•ด๊ฒฐ์˜ ์‹ค์ œ์„ฑ๊ณผ ํ•œ๊ณ„๋ฅผ ๋ณด์—ฌ์ค€๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •