Dynamic Search for Inference-Time Alignment in Diffusion Models

์ €์ž: Xiner Li, Masatoshi Uehara, Xingyu Su, Gabriele Scalia, Tommaso Biancalani | ๋‚ ์งœ: 2025 | DOI: 10.48550/arXiv.2503.02039 📄 PDF


Essence

ํ™•์‚ฐ ๋ชจ๋ธ(diffusion models)์˜ ์ถ”๋ก  ์‹œ๊ฐ„ ์ •๋ ฌ(inference-time alignment) ๋ฌธ์ œ๋ฅผ ํŠธ๋ฆฌ ํƒ์ƒ‰ ๋ฌธ์ œ๋กœ ์žฌ์ •์˜ํ•˜๊ณ , ๋™์  ๋น” ํญ ์กฐ์ •์„ ํ†ตํ•ด ๋น„๋ฏธ๋ถ„ ๋ณด์ƒ ํ•จ์ˆ˜(non-differentiable reward functions)์— ๋Œ€ํ•œ ํšจ์œจ์ ์ธ ์ตœ์ ํ™”๋ฅผ ๋‹ฌ์„ฑํ•˜๋Š” ์ƒˆ๋กœ์šด ๋ฐฉ๋ฒ•์„ ์ œ์‹œํ•œ๋‹ค.

Motivation

Achievement

  1. ํƒ์ƒ‰ ํ”„๋ ˆ์ž„์›Œํฌ ์ œ์•ˆ: ํ™•์‚ฐ ๋ชจ๋ธ์˜ ๋””๋…ธ์ด์ง• ํ”„๋กœ์„ธ์Šค๋ฅผ ํŠธ๋ฆฌ ๊ตฌ์กฐ๋กœ ํ˜•์‹ํ™”ํ•˜์—ฌ, ๋ณด์ƒ ์ตœ์ ํ™”๋ฅผ ์ฒด๊ณ„์ ์ธ ํƒ์ƒ‰ ๋ฌธ์ œ๋กœ ์žฌ๊ตฌ์„ฑ. ์ด๋Š” ๊ธฐ์กด์˜ ad-hocํ•œ ์œ ๋„ ๋ฐฉ์‹๊ณผ ๋‹ฌ๋ฆฌ ์ผ๊ด€๋œ ์ด๋ก ์  ๊ธฐ์ดˆ ์ œ๊ณต.
  2. ๋™์  ๋น” ํƒ์ƒ‰(DSearch) ์•Œ๊ณ ๋ฆฌ์ฆ˜: ๊ณ ์ • ๋„ˆ๋น„ ๋น” ํƒ์ƒ‰์˜ ๋น„ํšจ์œจ์„ฑ์„ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด, ์‹œ๊ฐ„ ๋‹จ๊ณ„๋ณ„๋กœ ๋น” ํญ b(t)์™€ ํŠธ๋ฆฌ ๋„ˆ๋น„ w(t)๋ฅผ ๋™์ ์œผ๋กœ ์กฐ์ •. ์•ฝํ•œ ๋น”์˜ ๊ณ„์‚ฐ ์ž์›์„ ๋‹ค๋ฅธ ๋น”์œผ๋กœ ์žฌํ• ๋‹นํ•˜์—ฌ ํšจ์œจ์„ฑ ๊ทน๋Œ€ํ™”(w(t)ยทb(t) ๊ณ ์ •).
  3. ๋‹ค์ค‘ ๋„๋ฉ”์ธ ๊ฒ€์ฆ: ์ƒ๋ฌผํ•™์  ์ˆ˜์—ด ์„ค๊ณ„(biological sequence design), ๋ถ„์ž ์ตœ์ ํ™”(molecular optimization), ์ด๋ฏธ์ง€ ์ƒ์„ฑ ๋“ฑ ๋‹ค์–‘ํ•œ ๋„๋ฉ”์ธ์—์„œ ๊ธฐ์กด ๋ฐฉ๋ฒ• ๋Œ€๋น„ ์šฐ์ˆ˜ํ•œ ๋ณด์ƒ ์ตœ์ ํ™” ์„ฑ๊ณผ ์ž…์ฆ.

How

Figure 2: Illustration of DSearch with dynamic width adjustment

Figure 2: DSearch์˜ ํŠธ๋ฆฌ ๋„ˆ๋น„ ํ™•์žฅ๊ณผ ๋น” ํญ ๋™์  ์กฐ์ •. ์•ฝํ•œ ๋น”์˜ ์ž์›์„ ๋‹ค๋ฅธ ๋น”์œผ๋กœ ์žฌํ• ๋‹นํ•˜๋ฉด์„œ w(t)b(t) ์œ ์ง€

ํŠธ๋ฆฌ ์ •์˜ ๋ฐ ๋„ˆ๋น„ ์ œํ•œ:

ํœด๋ฆฌ์Šคํ‹ฑ ํ•จ์ˆ˜(Heuristic Function):

๋ฃฉ์–ดํ—ค๋“œ ํœด๋ฆฌ์Šคํ‹ฑ(Lookahead Heuristic):

๋…ธ์ด์ฆˆ ๋ ˆ๋ฒจ ๊ธฐ๋ฐ˜ ๋™์  ์Šค์ผ€์ค„๋ง:

Originality

Limitation & Further Study

ํ•œ๊ณ„:

ํ›„์† ์—ฐ๊ตฌ:

Evaluation

์ดํ‰: DSearch๋Š” ํ™•์‚ฐ ๋ชจ๋ธ์˜ ์ถ”๋ก  ์‹œ๊ฐ„ ์ •๋ ฌ ๋ฌธ์ œ๋ฅผ ์ฒด๊ณ„์ ์ธ ํƒ์ƒ‰์œผ๋กœ ์žฌํ•ด์„ํ•œ ์‹ค์šฉ์ ์ด๊ณ  ๊ฒฌ๊ณ ํ•œ ๋ฐฉ๋ฒ•๋ก ์œผ๋กœ, ํŠนํžˆ ๋น„๋ฏธ๋ถ„ ๋ณด์ƒ ํ•จ์ˆ˜๊ฐ€ ๋งŽ์€ ๊ณผํ•™ ๋ถ„์•ผ์—์„œ ๋†’์€ ์ ์šฉ ๊ฐ€์น˜๋ฅผ ๊ฐ€์ง„๋‹ค. ๋‹ค๋งŒ ๋™์  ์กฐ์ • ๋ฉ”์ปค๋‹ˆ์ฆ˜์˜ ์ด๋ก ์  ์ •๋‹นํ™”์™€ ์ตœ์ ์„ฑ ๋ถ„์„์ด ๋ณด๊ฐ•๋˜๋ฉด ๋”์šฑ ๊ฐ•๋ ฅํ•œ ๊ธฐ์—ฌ๊ฐ€ ๋  ์ˆ˜ ์žˆ์„ ๊ฒƒ์œผ๋กœ ํŒ๋‹จ๋œ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
ํ™•์‚ฐ ๋ชจ๋ธ์˜ ์ถ”๋ก  ์‹œ๊ฐ„ ์ œ์–ด์™€ ์ •๋ ฌ์„ ์œ„ํ•œ ์ด๋ก ์  ๊ธฐ์ดˆ๋ฅผ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๊ณผํ•™ ๋ถ„์•ผ LLM ๋ฐ ์ƒ์„ฑํ˜• ๋ชจ๋ธ ์„œ๋ฒ ์ด๋Š” diffusion ๊ธฐ๋ฐ˜ reward fine-tuning์˜ ๋ฐœ์ „์  ๋งฅ๋ฝ์„ ์ดํ•ดํ•˜๋Š” ๋ฐ ์ด๋ก ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Drugpilot ๋…ผ๋ฌธ์—์„œ ํŒŒ๋ผ๋ฏธํ„ฐํ™”๋œ ์ถ”๋ก  ๊ธฐ๋ฐ˜์˜ ์—์ด์ „ํŠธ๋ฅผ ์ œ์•ˆํ•˜์—ฌ, ๋น„๋ฏธ๋ถ„ ๋ณด์ƒ ํ•จ์ˆ˜ ์ตœ์ ํ™”์— ๊ด€ํ•œ ๋ฐฉ๋ฒ•๋ก ์  ์‹œ์‚ฌ์ ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๋””ํ“จ์ „ ๋ชจ๋ธ์˜ ์ธํผ๋Ÿฐ์Šค ์‹œ ์ •๋ ฌ๊ณผ ๋‹ค์ค‘์ƒท ์ผ์น˜ ๋ฌธ์ œ์— ๋Œ€ํ•œ ์‹ฌ๋„ ์žˆ๋Š” ๋ถ„์„์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Diffusion ๋ชจ๋ธ ๋ฐ ํ…Œ์ŠคํŠธํƒ€์ž„ reward alignment ๊ด€๋ จ ๋ฉ”์ปค๋‹ˆ์ฆ˜์ด ๋Šฅ๋™ํ•™์Šต ์ƒ˜ํ”Œ๋ง์— ์˜ํ–ฅ์„ ์ค„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
555๊ฐ€ GAN ๊ธฐ๋ฐ˜์ด๋ผ๋ฉด 296์€ diffusion ๋ชจ๋ธ์—์„œ inference alignment๋กœ ๋ถ„์ž ์ƒ์„ฑ ์„ฑ๋Šฅ์„ ๋†’์ด๋Š” ๋˜๋‹ค๋ฅธ ์ตœ์‹  ์ ‘๊ทผ์„ ์†Œ๊ฐœํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋‘ ๋…ผ๋ฌธ ๋ชจ๋‘ diffusion ๋ชจ๋ธ์˜ reward ๊ธฐ๋ฐ˜ ๋ณด์ • ๋ฌธ์ œ๋ฅผ ๋‹ค๋ฃจ์ง€๋งŒ, ์„œ๋กœ ๋‹ค๋ฅธ ์ตœ์ ํ™” ๋ฐฉ์‹๊ณผ ์‹คํ—˜ ํ”„๋กœํ† ์ฝœ์„ ์ œ์•ˆํ•˜์—ฌ ๋น„๊ต ๋ถ„์„์ด ์œ ์šฉํ•˜๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Inference-Time Alignment in Diffusion Models with Reward-Guided Search ๋…ผ๋ฌธ์€ Diffusion ๋ชจ๋ธ ์ •๋ ฌ์—์„œ ๋ณด์ƒ ๊ธฐ๋ฐ˜ ์ตœ์ ํ™”์˜ ๋˜ ๋‹ค๋ฅธ ๊ตฌํ˜„ ์‚ฌ๋ก€์ž…๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Dynamic multi-agent orchestration and retrieval ๋…ผ๋ฌธ์€ ๋‹ค์ค‘ ์—์ด์ „ํŠธ ๊ธฐ๋ฐ˜์˜ ๋ณต์žกํ•œ AI ์—ฐ๊ตฌ ์ž‘์—… ์ž๋™ํ™”์— ์ค‘์ ์„ ๋‘๋ฉฐ, ์ฝ”๋“œ ๊ธฐ๋ฐ˜ ์žฌํ˜„์„ฑ ํ‰๊ฐ€์™€ ์ƒํ˜ธ๋ณด์™„์  ์ ‘๊ทผ๋ฒ•์„ ์ œ์‹œํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋น„๋ฏธ๋ถ„ ๋ณด์ƒ ํ•จ์ˆ˜๋ฅผ ์œ„ํ•œ ๋‹ค๋ฅธ ์ตœ์ ํ™” ์ ‘๊ทผ๋ฒ•์„ ํ™•์‚ฐ ๋ชจ๋ธ์— ์ ์šฉํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋ถ„์ž ์œ ํšจ์„ฑ ๋ณด์žฅ์„ ์œ„ํ•œ ๋‹ค๋ฅธ ๊ทธ๋ž˜ํ”„ ์ƒ์„ฑ ๋ฐฉ๋ฒ•๋ก ์„ ์ œ์‹œํ•˜๋Š” ๋Œ€์•ˆ์  ์—ฐ๊ตฌ์ด๋‹ค
ํ›„์† ์—ฐ๊ตฌ
ํ…Œ์ŠคํŠธํƒ€์ž„ reward-guided ์ •๋ ฌ์— ๋Œ€ํ•œ FMVACC ๋Œ€์‹  iterative refinement ๋ฐฉ์‹์„ ์ ์šฉํ•˜์—ฌ ์‹ค์‹œ๊ฐ„ ์ตœ์ ํ™”์˜ ๋ฐœ์ „์  ๊ด€์ ์„ ๋ณด์—ฌ์ค€๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
296 ๋…ผ๋ฌธ์€ ํ™•์‚ฐ ๋ชจ๋ธ์˜ ์ถ”๋ก  ์ •๋ ฌ ๋ฌธ์ œ๋ฅผ ๋…ผ์˜ํ•˜์—ฌ, 3029์˜ ์›์ž ๊ถค์  ์ƒ์„ฑ ์‹œ ํ™œ์šฉํ•˜๋Š” ํ†ต๊ณ„/์ƒ์„ฑ๋ชจ๋ธ์˜ ์ตœ์‹  ๊ธฐ๋ฒ•๊ณผ ์—ฐ๊ฒฐ๋œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
๋™์  ๋น” ํƒ์ƒ‰์„ ํ†ตํ•œ ํ™•์‚ฐ ๋ชจ๋ธ ์ •๋ ฌ์˜ ํšจ์œจ์„ฑ ํ–ฅ์ƒ์„ ์ถ”๊ฐ€์ ์œผ๋กœ ํ™•์žฅํ•œ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •