Language Models for Controllable DNA Sequence Design
์ ์: Xingyu Su, Xiner Li, Yu-Ching Lin, Ziqian Xie, Degui Zhi | ๋ ์ง: 2025 | DOI: 10.48550/arXiv.2507.19523 📄 PDF
Essence
Figure 1: Overview of the proposed ATGC-Gen framework.
๋ณธ ๋
ผ๋ฌธ์ DNA ์์ด ์ค๊ณ๋ฅผ ์ํด transformer ๊ธฐ๋ฐ language model์ ํ์ฉํ๋ ATGC-Gen ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค. Cross-modal encoding์ ํตํด ์ธํฌ ์ ํ, ๋จ๋ฐฑ์ง ์์ด, ์ ์ฌ ํ์ฑํ ์ ํธ ๋ฑ ๋ค์ํ ์๋ฌผํ์ ์ฑ์ง์ ํตํฉํ์ฌ ์กฐ๊ฑด๋ถ DNA ์์ด ์์ฑ์ ์ํํ๋ค.
Motivation
- Known: DNA ์์ด ์์ฑ์ synthetic biology์ genetic engineering์์ ์ค์ํ ๊ณผ์ ์ด๋ฉฐ, ์ต๊ทผ diffusion model๊ณผ flow matching ๊ฐ์ ์์ฑ ๋ชจ๋ธ๋ค์ด ์ ์๋์๋ค. Language model์ ์์ฐ์ด์์ ์ฑ๊ณต์ ๊ฑฐ๋์์ผ๋ DNA ์์ด ์์ฑ์์ ์ ์ฉ์ ์์ง ์ถฉ๋ถํ ํ๊ตฌ๋์ง ์์๋ค.
- Gap: ๊ธฐ์กด diffusion ๊ธฐ๋ฐ ๋ฐฉ๋ฒ๋ค์ ์ ์ญ ๊ตฌ์กฐ ๋ชจ๋ธ๋ง์๋ ํจ๊ณผ์ ์ด์ง๋ง ์ด์ฐ์ (discrete)์ด๊ณ ๊ฐ๋ณ ๊ธธ์ด์ ๊ธฐํธ ์์ด ์์ฑ์๋ ์์ฐ์ค๋ฝ์ง ์๋ค. ๋ํ ๋ค์ค ๋ชจ๋ฌ ์๋ฌผํ์ ์กฐ๊ฑด์ ํตํฉํ๋ ํตํฉ๋ ํ๋ ์์ํฌ๊ฐ ๋ถ์กฑํ๋ค.
- Why: ์๋ฌผํ์ ์ผ๋ก ์๋ฏธ ์๋ DNA ์์ด ์ค๊ณ๋ฅผ ์ํด์๋ ํน์ ์๋ฌผํ์ ์ฑ์ง(์ธํฌ ์ ํ, ๋จ๋ฐฑ์ง ๊ฒฐํฉ ๋ฑ)์ ์กฐ๊ฑด๋ถ๋ก ์์ฑํด์ผ ํ๋ฉฐ, ์ด์ฐ ๊ธฐํธ ์์ด์ ์์ฐ์ค๋ฝ๊ฒ ์ ์ฉ ๊ฐ๋ฅํ language model ์ ๊ทผ์ด ์ค์ํ๋ค.
- Approach: ATGC-Gen์ decoder-only(GPT) ๋ฐ encoder-only(BERT) transformer ์ํคํ
์ฒ๋ฅผ ๋ชจ๋ ์ธ์คํด์คํํ๋ค. ๋ค์ํ ๋ชจ๋ฌ๋ฆฌํฐ(์ธํฌ ์ ํ, ๋จ๋ฐฑ์ง ์์ด, ์ ์ฌ ์ ํธ)๋ฅผ property encoder๋ก ์ธ์ฝ๋ฉํ๊ณ cross-modal encoding์ ํตํด DNA ์์ด ์๋ฒ ๋ฉ๊ณผ ํตํฉํ์ฌ language model์ ์กฐ๊ฑดํํ๋ค. Promoter, enhancer ์์ฑ ์์
๋ฐ ์๋ก์ด ChIP-Seq ๊ธฐ๋ฐ ๋ฐ์ดํฐ์
์์ ํ๊ฐํ๋ค.
Achievement
Figure 1: Overview of the proposed ATGC-Gen framework.
โข ATGC-Gen ํ๋ ์์ํฌ ์ ์: ๋ค์ํ ์๋ฌผํ์ ๋ชจ๋ฌ๋ฆฌํฐ์ ๋ํ ์ ์ฐํ ์กฐ๊ฑดํ๋ฅผ ์ง์ํ๋ language model ๊ธฐ๋ฐ DNA ์์ฑ ํ๋ ์์ํฌ
โข ์๋ก์ด ChIP-Seq ๋ฐ์ดํฐ์
๊ตฌ์ถ: ๋จ๋ฐฑ์ง-DNA ๊ฒฐํฉ ํจํด์ ํฌ์ฐฉํ๋ ๋ฒค์น๋งํฌ ๋ฐ์ดํฐ์
๋ฐ ํ๊ฐ ์งํ ๊ฐ๋ฐ
โข ์คํ์ ์ฑ๊ณผ: Promoter, enhancer, ChIP-Seq ์์
์์ ๊ฐ๋ ฅํ ์ฑ๋ฅ ๋ฌ์ฑ, ๊ธฐ์กด baseline ๋๋น ๊ฐ์ ๋ ์ ํ์ฑยท์ผ๊ด์ฑยท๋ค์์ฑ ์
์ฆ
How
Figure 1: Overview of the proposed ATGC-Gen framework.
โข Property encoder๋ฅผ ํตํด ๋ค์ค ๋ชจ๋ฌ ์๋ฌผํ์ ์ ๋ณด๋ฅผ ๋ฐ์ง ํํ์ผ๋ก ๋ณํ
โข Sequence-level ๋ฐ token-level ํตํฉ ๋ฐฉ์์ผ๋ก ์กฐ๊ฑด ์ ํธ๋ฅผ DNA ์์ด ์์ฑ์ ํตํฉ
โข Decoder-only์ encoder-only ์ํคํ
์ฒ๋ฅผ ๋ชจ๋ ์ง์ํ์ฌ ์๋ํ๊ท ๋ฐ masked recovery ํ์ต ๋ชฉํ์ ๋์
โข Functionality, fluency, diversity ๋ฉํธ๋ฆญ์ผ๋ก ์์ฑ๋ ์์ด ํ๊ฐ
Originality
โข Language model์ DNA ์์ด ์ค๊ณ์ ์ฒ์์ผ๋ก ์ฒด๊ณ์ ์ผ๋ก ์ ์ฉํ๋ฉฐ diffusion ๊ธฐ๋ฐ ๋ฐฉ๋ฒ์ ๋์ ์ ์
โข ๋จ์ผ ๋ชจ๋ฌ ๋ชจ๋ธ๊ณผ ๋ฌ๋ฆฌ ์ด์ง์ ์๋ฌผํ์ ์ฑ์ง์ ํตํฉํ๋ ํตํฉ ํ๋ ์์ํฌ ์ ์
โข Decoder-only์ encoder-only ์ํคํ
์ฒ๋ฅผ ๋ชจ๋ ์ง์ํ๋ ์ ์ฐํ ์ค๊ณ๋ก ๋ค์ํ ์์ฑ ํจ๋ฌ๋ค์ ๊ฐ๋ฅํ๊ฒ ํจ
โข ChIP-Seq ๊ธฐ๋ฐ ์ค์ ๋จ๋ฐฑ์ง ๊ฒฐํฉ ํน์ด์ฑ ๋ชจ๋ธ๋ง์ ์ํ ์๋ก์ด ๋ฐ์ดํฐ์
๊ตฌ์ถ
Limitation & Further Study
โข ๋
ผ๋ฌธ์ decoder-only์ encoder-only ์ํคํ
์ฒ์ ๋น๊ต ๋ถ์์ด ๋ถ์กฑํ๋ฉฐ ๊ฐ ์ ๊ทผ์ ์ฅ๋จ์ ์ด ๋ช
ํํ ์ ์๋์ง ์์
โข Cross-modal encoding ๋ฐฉ์์ ์ค๊ณ ์ ํ(sequence-level vs. token-level)์ ๋ํ ์์ธํ ablation์ด ์ ํ์
โข ์์ฑ๋ ์์ด์ ์๋ฌผํ์ ๊ธฐ๋ฅ์ฑ ๊ฒ์ฆ์ด ๊ณ์ฐ ๊ธฐ๋ฐ ๋ฉํธ๋ฆญ์ ์ฃผ๋ก ์์กดํ๋ฉฐ ์คํ์ ๊ฒ์ฆ์ ๋ถ์กฑ
ํ์ ์ฐ๊ตฌ ๋ฐฉํฅ:
โข ๋ ๋ณต์กํ ์๋ฌผํ์ ์กฐ๊ฑด(๋ค์ค ์ ์ฌ์ธ์, ํ๊ฒฝ ์ ํธ ๋ฑ)์์์ ํ์ฅ ๊ฐ๋ฅ์ฑ ํ๊ตฌ
โข ์ค์ ์คํ์ ๊ฒ์ฆ์ ํตํ ์์ฑ ์์ด์ ๊ธฐ๋ฅ์ฑ ์
์ฆ
โข ๋ ๊ธด DNA ์์ด ์์ฑ์ ์ํ ํจ์จ์ ์ํคํ
์ฒ ๊ฐ๋ฐ
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ transformer ๊ธฐ๋ฐ language model์ DNA ์์ด ์ค๊ณ์ ์ฒด๊ณ์ ์ผ๋ก ์ ์ฉํ๋ ์ฐธ์ ํ ์ ๊ทผ์ ์ ์ํ๋ฉฐ, cross-modal encoding์ ํตํด ๋ค์ํ ์๋ฌผํ์ ์กฐ๊ฑด์ ํตํฉํ๋ ์ค์ฉ์ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค. ์๋ก์ด ChIP-Seq ๋ฒค์น๋งํฌ์ ๊ด๋ฒ์ํ ์คํ์ ํตํด ๊ธฐ์กด diffusion ๊ธฐ๋ฐ ๋ฐฉ๋ฒ๊ณผ์ ๊ฒฝ์๋ ฅ์ ์
์ฆํ์ฌ ์์ฑ genomics ๋ถ์ผ์ ์๋ฏธ ์๋ ๊ธฐ์ฌ๋ฅผ ํ๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
LLM ๊ธฐ๋ฐ ์ ์ ์ ๊ท์ ๋คํธ์ํฌ ๋ฐ ์๋ช
์ ๋ณดํ์ sequence ์ค๊ณ ๋
ผ์์ ์ด๋ก ์ ยท๋ฐฉ๋ฒ๋ก ์ ๊ธฐ๋ฐ์ด ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
459๋ฒ์ LLM ๊ธฐ๋ฐ DNAยท์๋ช
๊ณผํ ์ค๊ณ์์ ๋๊ตฌ์ reasoning ๋ฐฉ์์ ๋ค๋ฃจ์ด, 667๋ฒ์ ๋ด์ฌ์ ๊ฒ์ ์ ๋ต ํ์ต์ ๊ฐ๋
์ ๊ธฐ๋ฐ์ด ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
์๋ช
์์ญ์ ํฌ๊ดํ๋ ๊ฒ๋ ๊ธฐ์ด ๋ชจ๋ธ์ ๊ตฌ์กฐ์ ์ฑ๊ฒฉ ๋
ผ์ ๋ฐ DNA ์์ด ์ค๊ณ ์ ๋ต์ ๊ธฐ๋ฐ์ด ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
112๋ de novo ํญ์ฒด ์ค๊ณ๋ฅผ ์ํ LLM ์ ๊ทผ์ ๋ค๋ฃจ๋ฉฐ, 459์์ ์ ์ํ ์๋ฌผํ ์ ํธ ์กฐ๊ฑด DNA ์์ฑ ํ๋ ์์ํฌ์ ์์ฒ ๊ธฐ์ ์ ๊ทผ๊ฑฐ๊ฐ ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Controllable DNA Sequence Design ๋ฑ ๋ฐ์ดํฐ ๋ด ํจํด ํ์ง/์กฐ์ ๊ธฐ๋ฅ์ด, ๋จ๋ฐฑ์ง PLM ๋ด๋ถ ํ๋ก ๋ถ์์ ๋ฐฉ๋ฒ๋ก ๊ธฐ์ด๊ฐ ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
ํต์ฐ ๋ฐ ๋จ๋ฐฑ์ง ์์ด์ ์ ์ด์ ์์ฑ ์ ๊ทผ์ ๋ํ ์ต์ ์ฐ๊ตฌ๋ก, ์์ฑ๋ฒ ๋ฐ ํ๊ฐ๋ฐฉ์์ ์ด๋ก ์ ๋ฐํ์ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
459์ Langauge ๋ชจ๋ธ ๊ธฐ๋ฐ sequence ์ค๊ณ ํ๋ ์์ํฌ๋ 3155์ LLM ํ์ฉ PPI ์ถ๋ก ๋ฐฉ์์ ์ด๋ก ์ ๋ฐํ์ด ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
DNA ์์ด ์ค๊ณ ๋ฐ ์ ์ด์ ์ธ์ด๋ชจ๋ธ ํ์ฉ์ ๋ํ ์ ๋ฐ์ ๊ฒํ ๋ก, 3223์ ์ฝ๋ ์ต์ ํ ๋ฌธ์ ์ ์ด๋ก ์ ๊ธฐ๋ฐ์ ์ ๊ณตํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
DNA/๋จ๋ฐฑ์ง๊ณผ ๊ฐ์ ์์ฒด ๊ณ ๋ถ์์ ์์ด ์ ์ด์ ์์ฑ์ ๋ํ ์ต๊ทผ ์ฐ๊ตฌ์
๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
459๋ DNA/๋จ๋ฐฑ์ง ์ผ๊ธฐ ์์ด์ LLM์ผ๋ก ์ค๊ณํ ๋์ ์ ์ด ๋ฐ ๊ธฐ๋ฅ์ฑ ํ๋ณด ์ ๋ต์ ๋ค๋ฃจ๋ฏ๋ก, 3262 ์ฐ๊ตฌ์ ์๋ฏธ๋
ธ์ฐ ์กฐ์ฑ ๋ณ๊ฒฝ ์์ฑ ์ ๋ต์ ์ด๋ก ์ ํ ๋๋ฅผ ์ ๊ณตํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
์๊ธฐ์ฃผ๋ชฉ ๋ฉ์ปค๋์ฆ์ ํ์ฉํ์ฌ ๊ฒ๋ ์์ด์ ์ ์ ์ ๊ท์ ๋ฅผ ๋ชจ๋ธ๋งํ๋ ๋์์ ์ฐ๊ตฌ์ด๋ค
๋ค๋ฅธ ์ ๊ทผ
256์ RFdiffusion ๊ธฐ๋ฐ ๋จ๋ฐฑ์ง ๊ตฌ์กฐ/๊ธฐ๋ฅ ์ค๊ณ๋ฅผ ๋ค๋ฃจ์ด, DNA ์์ด ์ค๊ณ ์ค์ฌ 459์ ๋น๊ต๋๋ ๋ํ์ ์ธ ๋ถ์ ์์ฑ ์ ๊ทผ๋ฒ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
AutoProteinEngine ๋
ผ๋ฌธ์ LLM ๊ธฐ๋ฐ ๋จ๋ฐฑ์ง/์ ์ ์ฒด ์ค๊ณ ํ๋ ์์ํฌ๋ฅผ ๋ค๋ฃจ๋ฉฐ, ATGC-Gen๊ณผ ์ ์ฌํ ๊ตฌ์กฐ์ ์์ฑ ์์
์ ๋ ๋ค๋ฅธ ๊ตฌํ ์ฌ๋ก์
๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋ถ์ ๋ฐ ์ ์ ์ฒด ์ํ์ค ๋์์ธ ๋ฌธ์ ๋ฅผ ๋ค๋ฅธ ๋ชจ๋ธ๋ง ์ ๋ต(์: cross-domain sequence modeling)์ผ๋ก ๋ค๋ฃจ์ด ๋น๊ต์ ์ ํฉํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
DNA ์ํ์ค ์ค๊ณ์ ์ ์ด ์์ฑ์ LLM์ ํ์ฉํ๋ ์ ๊ธฐ์ ๋ก, ์ ์ ์ ๋คํธ์ํฌ(GRN) ๋ณต์์ด๋ผ๋ 505์ ๋์ผ ๋ถ์ผ์ง๋ง ํน์ฑ ๋ฐ ํ๊ฒ์ด ๋ค๋ฆ
๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
์๋ฌผํ์ ์์ด ๋ฐ์ดํฐ๋ฅผ ์ํ ๋๊ท๋ชจ ์ธ์ด๋ชจ๋ธ์ ๋ค๋ฅธ ๊ตฌํ์ ์ ์ํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
Language Models for Controllable DNA Sequence Design ๋
ผ๋ฌธ์ RNA/DNA ์์ด ์ค๊ณ์ LLM ๋ฐฉ์์ ์ ์ฉํ ๋์์ ๋ฐฉ๋ฒ๋ก ์ ์ ์ํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
459๋ฒ ๋
ผ๋ฌธ์ DNA ์์ด ์ค๊ณ์์ LLM์ ์ ์ด ๋ฐ ์์ฑ๋ ฅ์ ๋
ผ์ํ์ฌ 3097์ ๊ณ์ฌ์ฌ ํ์ ํฌ์ฐฉ ๋ฑ ๊ตฌ์กฐ์ ํน์ด์ ๊ณผ ์ฐจ์ด๋ฅผ ํจ๊ป ๊ฒํ ํ ์ ์์ต๋๋ค.
ํ์ ์ฐ๊ตฌ
ProtAgents ๋
ผ๋ฌธ์ LLM-๊ธฐ๋ฐ ๋ค์ค์์ด์ ํธ๋ก ๋จ๋ฐฑ์ง ๋ฐ๊ฒฌ ๋ฐ ์ค๊ณ๋ฅผ ์๋ํํ์ฌ, ๋ณธ ๋
ผ๋ฌธ์ ์กฐ๊ฑด๋ถ ์์ด ์์ฑ ๊ฐ๋
์ ์ค์ ์์ฉ์ผ๋ก ํ์ฅํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
459๋ LLM ๊ธฐ๋ฐ DNA/๋จ๋ฐฑ์ง ์์ด ์์ฑ์ ์กฐ์ ์ฑ๊ณผ ๊ทธ ์์ธก์ ๋ค๋ฃจ๋ฉฐ, 3133์ ์ํ๋ง ์ ๋ต ์ฌํ ์ ์ฉ ์ฌ๋ก์ ํด๋นํฉ๋๋ค.
์์ฉ ์ฌ๋ก
DNA ์ํ์ค ์์ฑ ๋ฐ ์ ์ด์ ํ์๋ฒ ๋
ผ๋ฌธ์ผ๋ก, SMILES ๋ถ์ผ์น ๋ฌธ์ ๋ฑ ์๋ช
ยทํํ ์ธ์ด๋ชจ๋ธ์ ์ค์ ์์ฉ์ ๋ณด์ฌ์ค๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์