Language Models for Controllable DNA Sequence Design

์ €์ž: Xingyu Su, Xiner Li, Yu-Ching Lin, Ziqian Xie, Degui Zhi | ๋‚ ์งœ: 2025 | DOI: 10.48550/arXiv.2507.19523 📄 PDF


Essence

Figure 1

Figure 1: Overview of the proposed ATGC-Gen framework.

๋ณธ ๋…ผ๋ฌธ์€ DNA ์„œ์—ด ์„ค๊ณ„๋ฅผ ์œ„ํ•ด transformer ๊ธฐ๋ฐ˜ language model์„ ํ™œ์šฉํ•˜๋Š” ATGC-Gen ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•œ๋‹ค. Cross-modal encoding์„ ํ†ตํ•ด ์„ธํฌ ์œ ํ˜•, ๋‹จ๋ฐฑ์งˆ ์„œ์—ด, ์ „์‚ฌ ํ™œ์„ฑํ™” ์‹ ํ˜ธ ๋“ฑ ๋‹ค์–‘ํ•œ ์ƒ๋ฌผํ•™์  ์„ฑ์งˆ์„ ํ†ตํ•ฉํ•˜์—ฌ ์กฐ๊ฑด๋ถ€ DNA ์„œ์—ด ์ƒ์„ฑ์„ ์ˆ˜ํ–‰ํ•œ๋‹ค.

Motivation

Achievement

Figure 1

Figure 1: Overview of the proposed ATGC-Gen framework.

โ€ข ATGC-Gen ํ”„๋ ˆ์ž„์›Œํฌ ์ œ์•ˆ: ๋‹ค์–‘ํ•œ ์ƒ๋ฌผํ•™์  ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ์— ๋Œ€ํ•œ ์œ ์—ฐํ•œ ์กฐ๊ฑดํ™”๋ฅผ ์ง€์›ํ•˜๋Š” language model ๊ธฐ๋ฐ˜ DNA ์ƒ์„ฑ ํ”„๋ ˆ์ž„์›Œํฌ

โ€ข ์ƒˆ๋กœ์šด ChIP-Seq ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ•: ๋‹จ๋ฐฑ์งˆ-DNA ๊ฒฐํ•ฉ ํŒจํ„ด์„ ํฌ์ฐฉํ•˜๋Š” ๋ฒค์น˜๋งˆํฌ ๋ฐ์ดํ„ฐ์…‹ ๋ฐ ํ‰๊ฐ€ ์ง€ํ‘œ ๊ฐœ๋ฐœ

โ€ข ์‹คํ—˜์  ์„ฑ๊ณผ: Promoter, enhancer, ChIP-Seq ์ž‘์—…์—์„œ ๊ฐ•๋ ฅํ•œ ์„ฑ๋Šฅ ๋‹ฌ์„ฑ, ๊ธฐ์กด baseline ๋Œ€๋น„ ๊ฐœ์„ ๋œ ์ •ํ™•์„ฑยท์ผ๊ด€์„ฑยท๋‹ค์–‘์„ฑ ์ž…์ฆ

How

Figure 1

Figure 1: Overview of the proposed ATGC-Gen framework.

โ€ข Property encoder๋ฅผ ํ†ตํ•ด ๋‹ค์ค‘ ๋ชจ๋‹ฌ ์ƒ๋ฌผํ•™์  ์ •๋ณด๋ฅผ ๋ฐ€์ง‘ ํ‘œํ˜„์œผ๋กœ ๋ณ€ํ™˜

โ€ข Sequence-level ๋ฐ token-level ํ†ตํ•ฉ ๋ฐฉ์‹์œผ๋กœ ์กฐ๊ฑด ์‹ ํ˜ธ๋ฅผ DNA ์„œ์—ด ์ƒ์„ฑ์— ํ†ตํ•ฉ

โ€ข Decoder-only์™€ encoder-only ์•„ํ‚คํ…์ฒ˜๋ฅผ ๋ชจ๋‘ ์ง€์›ํ•˜์—ฌ ์ž๋™ํšŒ๊ท€ ๋ฐ masked recovery ํ•™์Šต ๋ชฉํ‘œ์— ๋Œ€์‘

โ€ข Functionality, fluency, diversity ๋ฉ”ํŠธ๋ฆญ์œผ๋กœ ์ƒ์„ฑ๋œ ์„œ์—ด ํ‰๊ฐ€

Originality

โ€ข Language model์„ DNA ์„œ์—ด ์„ค๊ณ„์— ์ฒ˜์Œ์œผ๋กœ ์ฒด๊ณ„์ ์œผ๋กœ ์ ์šฉํ•˜๋ฉฐ diffusion ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•์˜ ๋Œ€์•ˆ ์ œ์‹œ

โ€ข ๋‹จ์ผ ๋ชจ๋‹ฌ ๋ชจ๋ธ๊ณผ ๋‹ฌ๋ฆฌ ์ด์งˆ์  ์ƒ๋ฌผํ•™์  ์„ฑ์งˆ์„ ํ†ตํ•ฉํ•˜๋Š” ํ†ตํ•ฉ ํ”„๋ ˆ์ž„์›Œํฌ ์ œ์•ˆ

โ€ข Decoder-only์™€ encoder-only ์•„ํ‚คํ…์ฒ˜๋ฅผ ๋ชจ๋‘ ์ง€์›ํ•˜๋Š” ์œ ์—ฐํ•œ ์„ค๊ณ„๋กœ ๋‹ค์–‘ํ•œ ์ƒ์„ฑ ํŒจ๋Ÿฌ๋‹ค์ž„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•จ

โ€ข ChIP-Seq ๊ธฐ๋ฐ˜ ์‹ค์ œ ๋‹จ๋ฐฑ์งˆ ๊ฒฐํ•ฉ ํŠน์ด์„ฑ ๋ชจ๋ธ๋ง์„ ์œ„ํ•œ ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ•

Limitation & Further Study

โ€ข ๋…ผ๋ฌธ์€ decoder-only์™€ encoder-only ์•„ํ‚คํ…์ฒ˜์˜ ๋น„๊ต ๋ถ„์„์ด ๋ถ€์กฑํ•˜๋ฉฐ ๊ฐ ์ ‘๊ทผ์˜ ์žฅ๋‹จ์ ์ด ๋ช…ํ™•ํžˆ ์ œ์‹œ๋˜์ง€ ์•Š์Œ

โ€ข Cross-modal encoding ๋ฐฉ์‹์˜ ์„ค๊ณ„ ์„ ํƒ(sequence-level vs. token-level)์— ๋Œ€ํ•œ ์ƒ์„ธํ•œ ablation์ด ์ œํ•œ์ 

โ€ข ์ƒ์„ฑ๋œ ์„œ์—ด์˜ ์ƒ๋ฌผํ•™์  ๊ธฐ๋Šฅ์„ฑ ๊ฒ€์ฆ์ด ๊ณ„์‚ฐ ๊ธฐ๋ฐ˜ ๋ฉ”ํŠธ๋ฆญ์— ์ฃผ๋กœ ์˜์กดํ•˜๋ฉฐ ์‹คํ—˜์  ๊ฒ€์ฆ์€ ๋ถ€์กฑ

ํ›„์† ์—ฐ๊ตฌ ๋ฐฉํ–ฅ:

โ€ข ๋” ๋ณต์žกํ•œ ์ƒ๋ฌผํ•™์  ์กฐ๊ฑด(๋‹ค์ค‘ ์ „์‚ฌ์ธ์ž, ํ™˜๊ฒฝ ์‹ ํ˜ธ ๋“ฑ)์—์„œ์˜ ํ™•์žฅ ๊ฐ€๋Šฅ์„ฑ ํƒ๊ตฌ

โ€ข ์‹ค์ œ ์‹คํ—˜์  ๊ฒ€์ฆ์„ ํ†ตํ•œ ์ƒ์„ฑ ์„œ์—ด์˜ ๊ธฐ๋Šฅ์„ฑ ์ž…์ฆ

โ€ข ๋” ๊ธด DNA ์„œ์—ด ์ƒ์„ฑ์„ ์œ„ํ•œ ํšจ์œจ์  ์•„ํ‚คํ…์ฒ˜ ๊ฐœ๋ฐœ

Evaluation

Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

์ดํ‰: ๋ณธ ๋…ผ๋ฌธ์€ transformer ๊ธฐ๋ฐ˜ language model์„ DNA ์„œ์—ด ์„ค๊ณ„์— ์ฒด๊ณ„์ ์œผ๋กœ ์ ์šฉํ•˜๋Š” ์ฐธ์‹ ํ•œ ์ ‘๊ทผ์„ ์ œ์‹œํ•˜๋ฉฐ, cross-modal encoding์„ ํ†ตํ•ด ๋‹ค์–‘ํ•œ ์ƒ๋ฌผํ•™์  ์กฐ๊ฑด์„ ํ†ตํ•ฉํ•˜๋Š” ์‹ค์šฉ์  ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•œ๋‹ค. ์ƒˆ๋กœ์šด ChIP-Seq ๋ฒค์น˜๋งˆํฌ์™€ ๊ด‘๋ฒ”์œ„ํ•œ ์‹คํ—˜์„ ํ†ตํ•ด ๊ธฐ์กด diffusion ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•๊ณผ์˜ ๊ฒฝ์Ÿ๋ ฅ์„ ์ž…์ฆํ•˜์—ฌ ์ƒ์„ฑ genomics ๋ถ„์•ผ์— ์˜๋ฏธ ์žˆ๋Š” ๊ธฐ์—ฌ๋ฅผ ํ•œ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
LLM ๊ธฐ๋ฐ˜ ์œ ์ „์ž ๊ทœ์ œ ๋„คํŠธ์›Œํฌ ๋ฐ ์ƒ๋ช…์ •๋ณดํ•™์  sequence ์„ค๊ณ„ ๋…ผ์˜์˜ ์ด๋ก ์ ยท๋ฐฉ๋ฒ•๋ก ์  ๊ธฐ๋ฐ˜์ด ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
459๋ฒˆ์€ LLM ๊ธฐ๋ฐ˜ DNAยท์ƒ๋ช…๊ณผํ•™ ์„ค๊ณ„์—์„œ ๋„๊ตฌ์  reasoning ๋ฐฉ์‹์„ ๋‹ค๋ฃจ์–ด, 667๋ฒˆ์˜ ๋‚ด์žฌ์  ๊ฒ€์ƒ‰ ์ „๋žต ํ•™์Šต์˜ ๊ฐœ๋…์  ๊ธฐ๋ฐ˜์ด ๋œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
์ƒ๋ช… ์˜์—ญ์„ ํฌ๊ด„ํ•˜๋Š” ๊ฒŒ๋†ˆ ๊ธฐ์ดˆ ๋ชจ๋ธ์˜ ๊ตฌ์กฐ์  ์„ฑ๊ฒฉ ๋…ผ์˜ ๋ฐ DNA ์„œ์—ด ์„ค๊ณ„ ์ „๋žต์˜ ๊ธฐ๋ฐ˜์ด ๋œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
112๋Š” de novo ํ•ญ์ฒด ์„ค๊ณ„๋ฅผ ์œ„ํ•œ LLM ์ ‘๊ทผ์„ ๋‹ค๋ฃจ๋ฉฐ, 459์—์„œ ์ œ์‹œํ•œ ์ƒ๋ฌผํ•™ ์‹ ํ˜ธ ์กฐ๊ฑด DNA ์ƒ์„ฑ ํ”„๋ ˆ์ž„์›Œํฌ์˜ ์›์ฒœ ๊ธฐ์ˆ ์  ๊ทผ๊ฑฐ๊ฐ€ ๋œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Controllable DNA Sequence Design ๋“ฑ ๋ฐ์ดํ„ฐ ๋‚ด ํŒจํ„ด ํƒ์ง€/์กฐ์ž‘ ๊ธฐ๋Šฅ์ด, ๋‹จ๋ฐฑ์งˆ PLM ๋‚ด๋ถ€ ํšŒ๋กœ ๋ถ„์„์˜ ๋ฐฉ๋ฒ•๋ก  ๊ธฐ์ดˆ๊ฐ€ ๋œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
ํ•ต์‚ฐ ๋ฐ ๋‹จ๋ฐฑ์งˆ ์„œ์—ด์˜ ์ œ์–ด์  ์ƒ์„ฑ ์ ‘๊ทผ์— ๋Œ€ํ•œ ์ตœ์‹  ์—ฐ๊ตฌ๋กœ, ์ƒ์„ฑ๋ฒ• ๋ฐ ํ‰๊ฐ€๋ฐฉ์‹์— ์ด๋ก ์  ๋ฐ”ํƒ•์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
459์˜ Langauge ๋ชจ๋ธ ๊ธฐ๋ฐ˜ sequence ์„ค๊ณ„ ํ”„๋ ˆ์ž„์›Œํฌ๋Š” 3155์˜ LLM ํ™œ์šฉ PPI ์ถ”๋ก  ๋ฐฉ์‹์˜ ์ด๋ก ์  ๋ฐ”ํƒ•์ด ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
DNA ์„œ์—ด ์„ค๊ณ„ ๋ฐ ์ œ์–ด์˜ ์–ธ์–ด๋ชจ๋ธ ํ™œ์šฉ์— ๋Œ€ํ•œ ์ „๋ฐ˜์  ๊ฒ€ํ† ๋กœ, 3223์˜ ์ฝ”๋ˆ ์ตœ์ ํ™” ๋ฌธ์ œ์— ์ด๋ก ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
DNA/๋‹จ๋ฐฑ์งˆ๊ณผ ๊ฐ™์€ ์ƒ์ฒด ๊ณ ๋ถ„์ž์˜ ์„œ์—ด ์ œ์–ด์  ์ƒ์„ฑ์— ๋Œ€ํ•œ ์ตœ๊ทผ ์—ฐ๊ตฌ์ž…๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
459๋Š” DNA/๋‹จ๋ฐฑ์งˆ ์—ผ๊ธฐ ์„œ์—ด์„ LLM์œผ๋กœ ์„ค๊ณ„ํ•  ๋•Œ์˜ ์ œ์–ด ๋ฐ ๊ธฐ๋Šฅ์„ฑ ํ™•๋ณด ์ „๋žต์„ ๋‹ค๋ฃจ๋ฏ€๋กœ, 3262 ์—ฐ๊ตฌ์˜ ์•„๋ฏธ๋…ธ์‚ฐ ์กฐ์„ฑ ๋ณ€๊ฒฝ ์ƒ์„ฑ ์ „๋žต์— ์ด๋ก ์  ํ† ๋Œ€๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ž๊ธฐ์ฃผ๋ชฉ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ํ™œ์šฉํ•˜์—ฌ ๊ฒŒ๋†ˆ ์„œ์—ด์˜ ์œ ์ „์ž ๊ทœ์ œ๋ฅผ ๋ชจ๋ธ๋งํ•˜๋Š” ๋Œ€์•ˆ์  ์—ฐ๊ตฌ์ด๋‹ค
๋‹ค๋ฅธ ์ ‘๊ทผ
256์€ RFdiffusion ๊ธฐ๋ฐ˜ ๋‹จ๋ฐฑ์งˆ ๊ตฌ์กฐ/๊ธฐ๋Šฅ ์„ค๊ณ„๋ฅผ ๋‹ค๋ฃจ์–ด, DNA ์„œ์—ด ์„ค๊ณ„ ์ค‘์‹ฌ 459์™€ ๋น„๊ต๋˜๋Š” ๋Œ€ํ‘œ์ ์ธ ๋ถ„์ž ์ƒ์„ฑ ์ ‘๊ทผ๋ฒ•์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
AutoProteinEngine ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜ ๋‹จ๋ฐฑ์งˆ/์œ ์ „์ฒด ์„ค๊ณ„ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ๋‹ค๋ฃจ๋ฉฐ, ATGC-Gen๊ณผ ์œ ์‚ฌํ•œ ๊ตฌ์กฐ์  ์ƒ์„ฑ ์ž‘์—…์˜ ๋˜ ๋‹ค๋ฅธ ๊ตฌํ˜„ ์‚ฌ๋ก€์ž…๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋ถ„์ž ๋ฐ ์œ ์ „์ฒด ์‹œํ€€์Šค ๋””์ž์ธ ๋ฌธ์ œ๋ฅผ ๋‹ค๋ฅธ ๋ชจ๋ธ๋ง ์ „๋žต(์˜ˆ: cross-domain sequence modeling)์œผ๋กœ ๋‹ค๋ฃจ์–ด ๋น„๊ต์— ์ ํ•ฉํ•˜๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
DNA ์‹œํ€€์Šค ์„ค๊ณ„์˜ ์ œ์–ด ์ƒ์„ฑ์— LLM์„ ํ™œ์šฉํ•˜๋Š” ์‹ ๊ธฐ์ˆ ๋กœ, ์œ ์ „์ž ๋„คํŠธ์›Œํฌ(GRN) ๋ณต์›์ด๋ผ๋Š” 505์™€ ๋™์ผ ๋ถ„์•ผ์ง€๋งŒ ํŠน์„ฑ ๋ฐ ํƒ€๊ฒŸ์ด ๋‹ค๋ฆ…๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ƒ๋ฌผํ•™์  ์„œ์—ด ๋ฐ์ดํ„ฐ๋ฅผ ์œ„ํ•œ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ์˜ ๋‹ค๋ฅธ ๊ตฌํ˜„์„ ์ œ์‹œํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Language Models for Controllable DNA Sequence Design ๋…ผ๋ฌธ์€ RNA/DNA ์„œ์—ด ์„ค๊ณ„์— LLM ๋ฐฉ์‹์„ ์ ์šฉํ•œ ๋Œ€์•ˆ์  ๋ฐฉ๋ฒ•๋ก ์„ ์ œ์‹œํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
459๋ฒˆ ๋…ผ๋ฌธ์€ DNA ์„œ์—ด ์„ค๊ณ„์—์„œ LLM์˜ ์ œ์–ด ๋ฐ ์ƒ์„ฑ๋ ฅ์„ ๋…ผ์˜ํ•˜์—ฌ 3097์˜ ๊ณ์‚ฌ์Šฌ ํ˜•์ƒ ํฌ์ฐฉ ๋“ฑ ๊ตฌ์กฐ์  ํŠน์ด์ ๊ณผ ์ฐจ์ด๋ฅผ ํ•จ๊ป˜ ๊ฒ€ํ† ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
ProtAgents ๋…ผ๋ฌธ์€ LLM-๊ธฐ๋ฐ˜ ๋‹ค์ค‘์—์ด์ „ํŠธ๋กœ ๋‹จ๋ฐฑ์งˆ ๋ฐœ๊ฒฌ ๋ฐ ์„ค๊ณ„๋ฅผ ์ž๋™ํ™”ํ•˜์—ฌ, ๋ณธ ๋…ผ๋ฌธ์˜ ์กฐ๊ฑด๋ถ€ ์„œ์—ด ์ƒ์„ฑ ๊ฐœ๋…์„ ์‹ค์ œ ์‘์šฉ์œผ๋กœ ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
459๋Š” LLM ๊ธฐ๋ฐ˜ DNA/๋‹จ๋ฐฑ์งˆ ์„œ์—ด ์ƒ์„ฑ์˜ ์กฐ์ ˆ์„ฑ๊ณผ ๊ทธ ์˜ˆ์ธก์„ ๋‹ค๋ฃจ๋ฉฐ, 3133์˜ ์ƒ˜ํ”Œ๋ง ์ „๋žต ์‹ฌํ™” ์ ์šฉ ์‚ฌ๋ก€์— ํ•ด๋‹นํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
DNA ์‹œํ€€์Šค ์ƒ์„ฑ ๋ฐ ์ œ์–ด์  ํƒ์ƒ‰๋ฒ• ๋…ผ๋ฌธ์œผ๋กœ, SMILES ๋ถˆ์ผ์น˜ ๋ฌธ์ œ ๋“ฑ ์ƒ๋ช…ยทํ™”ํ•™ ์–ธ์–ด๋ชจ๋ธ์˜ ์‹ค์ „ ์‘์šฉ์„ ๋ณด์—ฌ์ค€๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •