Reward-Guided Iterative Refinement in Diffusion Models at Test-Time with Applications to Protein and DNA Design

์ €์ž: Masatoshi Uehara, Xingyu Su, Yulai Zhao, Xiner Li, Aviv Regev | ๋‚ ์งœ: 2025 | DOI: 10.48550/arXiv.2502.14944 📄 PDF


Essence

Figure 1

๊ทธ๋ฆผ 1: ์ œ์•ˆ๋œ ํ”„๋ ˆ์ž„์›Œํฌ๋Š” ๋ฐ˜๋ณต์  ๊ณผ์ •์„ ๋”ฐ๋ฅด๋ฉฐ, ๊ฐ ๋ฐ˜๋ณต์—์„œ ์ƒ˜ํ”Œ์— ๋…ธ์ด์ฆˆ๋ฅผ ์ฃผ์ž…ํ•œ ํ›„ ๋ณด์ƒ์„ ์ตœ์ ํ™”ํ•˜๋ฉด์„œ ๋””๋…ธ์ด์ง•ํ•˜๋Š” ๊ณผ์ •

๋ณธ ๋…ผ๋ฌธ์€ ํ™•์‚ฐ ๋ชจ๋ธ(Diffusion Models)์—์„œ ํ…Œ์ŠคํŠธ ํƒ€์ž„ ๋ณด์ƒ ์ตœ์ ํ™”๋ฅผ ์œ„ํ•œ ๋ฐ˜๋ณต์  ๊ฐœ์„  ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•œ๋‹ค. ๊ธฐ์กด์˜ ๋‹จ์ผ ์ƒท(single-shot) ๋ฐฉ์‹๊ณผ ๋‹ฌ๋ฆฌ, ๋ถ€๋ถ„ ๋…ธ์ด์ง•๊ณผ ๋ณด์ƒ ์œ ๋„ ๋””๋…ธ์ด์ง•์˜ ๋‘ ๋‹จ๊ณ„๋ฅผ ๋ฐ˜๋ณตํ•˜์—ฌ ์ ์ง„์ ์œผ๋กœ ์„ค๊ณ„(design)๋ฅผ ๊ฐœ์„ ํ•  ์ˆ˜ ์žˆ๋‹ค.

Motivation

Achievement

Figure 2

๊ทธ๋ฆผ 2: ๊ธฐ์กด ๋ณด์ƒ ์œ ๋„ ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ์†Œํ”„ํŠธ ์ตœ์  ์ •์ฑ… {pโ‹†_t}๋กœ๋ถ€ํ„ฐ ์ˆœ์ฐจ์  ์ƒ˜ํ”Œ๋ง์œผ๋กœ ๋ณผ ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ์ฐจ์ด๋Š” pโ‹†_t ๊ทผ์‚ฌ ๋ฐฉ์‹์— ์žˆ๋‹ค

  1. ์ด๋ก ์  ๊ธฐ์—ฌ: ์ œ์•ˆ๋œ ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด exp(r(x))p_pre(ยท) ๋ถ„ํฌ๋กœ๋ถ€ํ„ฐ ์ƒ˜ํ”Œ๋งํ•จ์„ ์ˆ˜ํ•™์ ์œผ๋กœ ์ฆ๋ช…ํ•˜์—ฌ, ์ƒ์„ฑ๋œ ์„ค๊ณ„์˜ ์ž์—ฐ์Šค๋Ÿฌ์›€(naturalness)๊ณผ ๋ณด์ƒ ์ตœ์ ํ™” ๊ฐ„ ๊ท ํ˜•์„ ์ด๋ก ์ ์œผ๋กœ ๋ณด์žฅ.
  2. ๋ฐฉ๋ฒ•๋ก  ํ˜์‹ : ๋‹จ์ˆœํ•œ ๋ฐ˜๋ณต์  ๊ฐœ์„ ์„ ํ†ตํ•ด ๋งˆ์Šคํฌ ํ™•์‚ฐ ๋ชจ๋ธ์˜ ๊ทผ๋ณธ์  ํ•œ๊ณ„(ํ•œ๋ฒˆ ๋ณ€๊ฒฝ๋œ ํ† ํฐ ๊ณ ์ •)๋ฅผ ๊ทน๋ณตํ•˜๊ณ , ํ•˜๋“œ ์ œ์•ฝ์กฐ๊ฑด์„ ํฌํ•จํ•˜๋Š” ๋ณต์žกํ•œ ๋ณด์ƒํ•จ์ˆ˜ ์ตœ์ ํ™” ๊ฐ€๋Šฅ.
  3. ์‹คํ—˜์  ์šฐ์ˆ˜์„ฑ: ๋‹จ๋ฐฑ์งˆ ๊ตฌ์กฐ ์„ค๊ณ„(target RMSD ์ตœ์†Œํ™”)์™€ ์„ธํฌํƒ€์ž… ํŠน์ด์„ฑ DNA ์„ค๊ณ„์—์„œ ๊ธฐ์กด ๋ฐฉ๋ฒ•๋“ค์„ ๋Šฅ๊ฐ€ํ•˜๋Š” ์„ฑ๋Šฅ ๋‹ฌ์„ฑ.

How

Figure 3

๊ทธ๋ฆผ 3: RERD ์•Œ๊ณ ๋ฆฌ์ฆ˜ ์š”์•ฝ - ๋ฐ˜๋ณต์ ์œผ๋กœ ๋ถ€๋ถ„ ๋…ธ์ด์ง•๊ณผ ๋ณด์ƒ ์œ ๋„ ๋””๋…ธ์ด์ง• ์ˆ˜ํ–‰

ํ•ต์‹ฌ ์•Œ๊ณ ๋ฆฌ์ฆ˜ ๊ตฌ์กฐ:

Originality

Limitation & Further Study

Evaluation

์ดํ‰: ํ™•์‚ฐ ๋ชจ๋ธ์˜ ํ…Œ์ŠคํŠธ ํƒ€์ž„ ์ตœ์ ํ™”์— ํ˜์‹ ์ ์ธ ๋ฐ˜๋ณต ๊ฐœ์„  ์ ‘๊ทผ์„ ์ œ์‹œํ•˜๊ณ , ํŠนํžˆ ๋งˆ์Šคํฌ ํ™•์‚ฐ์˜ ํ† ํฐ ๊ณ ์ • ๋ฌธ์ œ ํ•ด๊ฒฐ๊ณผ ํ•˜๋“œ ์ œ์•ฝ์กฐ๊ฑด ์ฒ˜๋ฆฌ๋Š” ์‹ค์งˆ์  ๊ธฐ์—ฌ๋‹ค. ๋‹จ๋ฐฑ์งˆ/DNA ์„ค๊ณ„์—์„œ ์ผ๊ด€๋œ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๋ณด์ด๋‚˜, ๊ณ„์‚ฐ ํšจ์œจ์„ฑ ๋ถ„์„ ๋ถ€์žฌ์™€ ์‹ค์ œ ์ƒ๋ฌผํ•™์  ๊ฒ€์ฆ ๋ถ€์กฑ์ด ํ•œ๊ณ„. ํ•™์ˆ ์  ์šฐ์ˆ˜์„ฑ์€ ๋†’์œผ๋‚˜ ์‹ค๋ฌด ์ ์šฉ์„ ์œ„ํ•ด์„œ๋Š” ํšจ์œจํ™”์™€ ๊ฒ€์ฆ์ด ํ•„์š”ํ•˜๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
682์˜ ํ™•์‚ฐ๋ชจ๋ธ ๋ณด์ƒ ์œ ๋„ ๋ฐ˜๋ณต๊ฐœ์„ ์€ 428์˜ reward-guided alignment ๋ฐฉ์‹์˜ ์ด๋ก ์ ยท๊ธฐ์ˆ ์  ์—ฐ์žฅ์„ ์— ์žˆ์Šต๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
446์˜ ๋ณด์ƒ ๊ธฐ๋ฐ˜ ๋””ํ“จ์ „ ํŒŒ์ธํŠœ๋‹ ๋ฐฉ์‹์€ 682์—์„œ ์†Œ๊ฐœ๋œ ํ…Œ์ŠคํŠธํƒ€์ž„ ๋ฐ˜๋ณต์  ๋ณด์ƒ ์ตœ์ ํ™” ํ”„๋ ˆ์ž„์›Œํฌ์˜ ์ด๋ก ์  ์ถœ๋ฐœ์ ์„ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๋ถ„์ž ์ƒ์„ฑ ๋ฐ ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ ๊ฐ•ํ™” ๊ธฐ๋ฐ˜ iterative refinement๋ฅผ ์ ์šฉํ•˜์—ฌ, FlashSchNet์˜ ์†๋„-์ •ํ™•๋„ ๊ท ํ˜•์—์„œ reward-guided ๋ฐฉ๋ฒ•๋ก ์˜ ๋„์›€์„ ์ฐธ๊ณ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Reward-guided iterative refinement in diffusion models ๋…ผ๋ฌธ์€ Test-time ๋ณด์ƒ ๊ธฐ๋ฐ˜ ์ƒ˜ํ”Œ๋ง/์ตœ์ ํ™”์˜ ์ด๋ก ๊ณผ ์‹ค์ œ์  ํ•œ๊ณ„๋ฅผ ์ฒด๊ณ„์ ์œผ๋กœ ๋‹ค๋ฃฌ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Diffusion ๋ชจ๋ธ์—์„œ ๋ณด์ƒ ๊ธฐ๋ฐ˜ ๋ฐ˜๋ณต์  ๊ฐœ์„  ๋ฐ ์ƒ˜ํ”Œ๋ง ๊ธฐ๋ฒ•์˜ ์ด๋ก ยท์‹ค์Šต์  ๋ฐฐ๊ฒฝ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Diffusion ๋ชจ๋ธ์˜ reward-guided iterative refinement๊ฐ€ MP2D์˜ ๋‹ค๋ชฉ์  ์„ค๊ณ„ ๋ฌธ์ œ ํ•ด๊ฒฐ์— ๊ธฐ๋ณธ ์•Œ๊ณ ๋ฆฌ์ฆ˜์  ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
555์˜ MolGAN์€ ์ƒ์„ฑ ๋ชจ๋ธ ๊ธฐ๋ฐ˜ ๋ถ„์ž ๊ทธ๋ž˜ํ”„ ์„ค๊ณ„๋ฅผ ์ œ์‹œํ•˜์—ฌ 682์˜ ๋””ํ“จ์ „ ๊ธฐ๋ฐ˜ ๋ฐ˜๋ณต ์ตœ์ ํ™”์™€ ๋น„๊ต๋˜๋Š” ๋Œ€์•ˆ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Derivative-Free Guidance๊ฐ€ ํ…Œ์ŠคํŠธ ํƒ€์ž„ ์„ฑ๋Šฅ ์ตœ์ ํ™” ๋ฐฉ๋ฒ•์˜ ๋‹ค๋ฅธ ๊ตฌํ˜„ ๋ฐฉ์‹์ด๋ฏ€๋กœ ๋‘ ์ ‘๊ทผ์„ ๋น„๊ตํ•ด๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Reward-Guided Iterative Refinement ๋…ผ๋ฌธ์€ ๋””ํ“จ์ „ ๋ชจ๋ธ์—์„œ์˜ ๋ฆฌ์›Œ๋“œ ํ™œ์šฉ์„ ๋‹ค๋ฃจ๋ฉฐ, LLM์˜ ์ž๊ธฐ๊ฐœ์„ ยท์ถ”๋ก  ์œ ๋„์— ๋Œ€ํ•œ ๋‹ค์–‘ํ•œ ๊ฐ•ํ™”ํ•™์Šต ์‘์šฉ๋ฒ•์„ ๋น„๊ต ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์‚ฐ์—… ๊ณต์ • ์ œ์–ด๋ฅผ ์œ„ํ•œ AI ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•๋ก ์„ ๋‹ค๋ฃจ๋Š” ์œ ์‚ฌํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Reward-Guided Iterative Refinement in Diffusion Models ๋…ผ๋ฌธ์€ ๋ณด์ƒ ๊ธฐ๋ฐ˜ ํ™•์‚ฐ๋ชจ๋ธ ์ตœ์ ํ™”์˜ ๋˜๋‹ค๋ฅธ ๋”ฅ๋Ÿฌ๋‹ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋‘˜ ๋‹ค ๋Šฅ๋™ ํ•™์Šต ๋ฐ ์„ค๊ณ„ ๊ณต๊ฐ„ ์ตœ์ ํ™”๋ฅผ ๊ฐ•์กฐํ•˜์ง€๋งŒ, 682๋Š” reward ๊ธฐ๋ฐ˜ diffusion refinement, 346์€ foundation model์„ ํ™œ์šฉํ•œ data-efficient AL์— ์ดˆ์ ์ด ๋‹ค๋ฅด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋ถ„์ž๋™์—ญํ•™ ์‹œ๋ฎฌ๋ ˆ์ด์…˜๊ณผ reward-guided ๋ชจ๋ธ๋ง์˜ ๊ฒฐํ•ฉ์œผ๋กœ ์†Œ์žฌ ๋™์—ญํ•™์„ ํšจ๊ณผ์ ์œผ๋กœ ํƒ๊ตฌํ•˜๋Š” ๋‹ค๋ฅธ ๋ฐฉ๋ฒ•๋ก ์ž…๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
682๋Š” ๋ถ„์ž ์„ค๊ณ„์— ํ™œ์šฉํ•  ์ˆ˜ ์žˆ๋Š” ๋ณด์ƒ ์œ ๋„ ํ…Œ์ŠคํŠธํƒ€์ž„ ๋””ํ“จ์ „ ๋ชจ๋ธ ์ตœ์ ํ™”๋กœ, 555์˜ GAN ๊ธฐ๋ฐ˜ ์ƒ์„ฑ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๋Š” ๋Œ€์•ˆ์„ ์ œ์‹œํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
682 ๋…ผ๋ฌธ์€ ๋ฏธ์„ธ์กฐ์ • ์—†๋Š” ์ƒ˜ํ”Œ ์ƒ์„ฑ์—์„œ ๋ณด์ƒ์„ ํ™œ์šฉํ•˜๋Š” ํ™•์‚ฐ ๋ชจ๋ธ ์ตœ์ ํ™” ๋ฐฉ๋ฒ•์„ ์ถ”๊ฐ€์ ์ธ ์ •์ œ ๊ธฐ๋ฒ•์œผ๋กœ ํƒ๊ตฌํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Reward-Guided Iterative Refinement in Diffusion Models at Test Time ๋…ผ๋ฌธ์€ state-space approach์ฒ˜๋Ÿผ ๋ณ‘๋ ฌ ์ถ”๋ก  ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ํšจ์œจ ํ–ฅ์ƒ ๋ฐ ์„ฑ๋Šฅ ๊ฐœ์„ ์„ ๋ชฉํ‘œ๋กœ ํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
ํ…Œ์ŠคํŠธ ํƒ€์ž„ ๊ฐœ์„ , ๋ฐ˜๋ณต์  ๋””ํ“จ์ „ ๋ฐ ์ƒ˜ํ”Œ ๋ฆฌํŒŒ์ธ๋จผํŠธ์— Entropy-Driven ์ปจ์…‰์„ ํ™•์žฅํ•ด ์ ์šฉํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Reward-Guided Iterative Refinement in Diffusion Models at Test Time(682)๋Š” ํ™•์‚ฐ ๋ชจ๋ธ์˜ ํ…Œ์ŠคํŠธ ํƒ€์ž„ ๋ณด์ƒ ๊ธฐ๋ฐ˜ ์ •๋ ฌ์„ ๋‹ค์–‘ํ•œ ๊ณผํ•™์  ์‘์šฉ์— ์ ์šฉํ•˜๋ฉฐ, 428์—์„œ ๋‹ค๋ฃฌ ๋ฆฌ๋ทฐ์˜ ์‹ค์ œ์  ํ™•์žฅ ์‚ฌ๋ก€์ด๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
ํ…Œ์ŠคํŠธํƒ€์ž„ reward-guided ์ •๋ ฌ์— ๋Œ€ํ•œ FMVACC ๋Œ€์‹  iterative refinement ๋ฐฉ์‹์„ ์ ์šฉํ•˜์—ฌ ์‹ค์‹œ๊ฐ„ ์ตœ์ ํ™”์˜ ๋ฐœ์ „์  ๊ด€์ ์„ ๋ณด์—ฌ์ค€๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Reward-Guided Iterative Refinement in Diffusion Models at Test Time์€ ์ •์ƒํ™” ํ๋ฆ„๊ณผ ๊ฐ•ํ™”ํ•™์Šต ๊ธฐ๋ฐ˜ ์ƒ˜ํ”Œ๋ง ๊ฐœ์„ ์„ ๋‹ค๋ฃจ๋ฉฐ, 3119์˜ replica-exchange ๊ฐ€์† ๋˜๋Š” ์ƒ˜ํ”Œ ํšจ์œจ ๋…ผ์˜์™€ ๋งž๋‹ฟ์•„ ์žˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
682์—์„œ์˜ ๋ถ„์ž์„ค๊ณ„ ํ™•์‚ฐ๋ชจ๋ธ ๋ณด์ƒ ์กฐ์ •๋ฐฉ์‹์ด 3233์˜ ๊ฐ•ํ™” ๋ณด์ƒ ๊ธฐ๋ฐ˜ ์ด์‚ฐ์  ๋ถ„์ž์ƒ์„ฑ ๋ฌธ์ œ๋กœ ์‹ค์ œ ์ ์šฉ๋œ ์‚ฌ๋ก€์™€ ์ž˜ ์—ฐ๊ฒฐ๋ฉ๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •