Inference-Time Alignment in Diffusion Models with Reward-Guided Generation: Tutorial and Review

์ €์ž: Masatoshi Uehara, Yulai Zhao, Chenyu Wang, Xiner Li, Aviv Regev | ๋‚ ์งœ: 2025 | DOI: 10.48550/arXiv.2501.09685 📄 PDF


Essence

Figure 2: ๋Œ€ํ‘œ์ ์ธ ์ถ”๋ก  ์‹œ๊ฐ„ ์•Œ๊ณ ๋ฆฌ์ฆ˜๋“ค์˜ ์š”์•ฝ

Figure 2: ์ตœ์ ํ™” ๋ชฉํ‘œ ๋‹ฌ์„ฑ์„ ์œ„ํ•œ ๋‹ค์–‘ํ•œ ์ถ”๋ก  ์‹œ๊ฐ„ ๊ธฐ๋ฒ•๋“ค (Best-of-N, ๋ถ„๋ฅ˜๊ธฐ ๊ฐ€์ด๋˜์Šค, SMC ๊ธฐ๋ฐ˜ ๊ฐ€์ด๋˜์Šค, ๊ฐ’ ๊ธฐ๋ฐ˜ ์ค‘์š”๋„ ์ƒ˜ํ”Œ๋ง)

๋ณธ ํŠœํ† ๋ฆฌ์–ผ์€ ์‚ฌ์ „ํ•™์Šต๋œ ํ™•์‚ฐ ๋ชจ๋ธ์„ ๋ฏธ์„ธ์กฐ์ •ํ•˜์ง€ ์•Š์œผ๋ฉด์„œ ์ถ”๋ก  ์‹œ๊ฐ„(inference time)์— ๋ณด์ƒ ํ•จ์ˆ˜(reward function)๋ฅผ ์ตœ๋Œ€ํ™”ํ•˜๋Š” ์ •๋ ฌ(alignment) ๊ธฐ๋ฒ•๋“ค์„ ํ†ต์ผ๋œ ๊ด€์ ์—์„œ ๋ฆฌ๋ทฐํ•˜๊ณ , ๋‹จ๋ฐฑ์งˆ ์„ค๊ณ„ ๊ฐ™์€ ๊ณผํ•™ ๋ถ„์•ผ์—์„œ ์‹ค์ œ๋กœ ์œ ์šฉํ•œ ๋น„๋ฏธ๋ถ„ ๊ฐ€๋Šฅํ•œ ๋ณด์ƒ ํ”ผ๋“œ๋ฐฑ์„ ๋‹ค๋ฃจ๋Š” ๋ฐฉ๋ฒ•๋ก ๋“ค์„ ํฌ๊ด„์ ์œผ๋กœ ๋‹ค๋ฃฌ๋‹ค.

Motivation

Achievement

Figure 3: ๊ฐ’ ๊ธฐ๋ฐ˜ ๋น” ์„œ์น˜๋ฅผ ํ†ตํ•œ ๊ณ„์‚ฐ ํ™•์žฅ

Figure 3: ํŠธ๋ฆฌ ๋„ˆ๋น„(tree width) ์ฆ๊ฐ€์— ๋”ฐ๋ฅธ ๋ณด์ƒ ํ•จ์ˆ˜ ์ตœ์ ํ™”์˜ ๊ฐœ์„  - ๋‹จ๋ฐฑ์งˆ ์•ˆ์ •์„ฑ(pLDDT)๊ณผ ์ด๋ฏธ์ง€ ๋ฏธ์  ์ ์ˆ˜ ๋ชจ๋‘์—์„œ ๊ณ„์‚ฐ ์˜ˆ์‚ฐ ์ฆ๊ฐ€์— ๋น„๋ก€ํ•œ ์„ฑ๋Šฅ ํ–ฅ์ƒ ๊ด€์ฐฐ

  1. ํ†ต์ผ๋œ ์ด๋ก ์  ํ‹€: ์ˆœ์ฐจ ๋ชฌํ…Œ์นด๋ฅผ๋กœ(SMC) ๊ธฐ๋ฐ˜ ๊ฐ€์ด๋˜์Šค, ๊ฐ’ ๊ธฐ๋ฐ˜ ์ค‘์š”๋„ ์ƒ˜ํ”Œ๋ง, ๋ถ„๋ฅ˜๊ธฐ ๊ฐ€์ด๋˜์Šค ๋“ฑ ๊ธฐ์กด์˜ ๋‹ค์–‘ํ•œ ๊ธฐ๋ฒ•๋“ค์ด ๋ชจ๋‘ ๋™์ผํ•œ ์†Œํ”„ํŠธ ์ตœ์  ์ •์ฑ…์„ ๊ทผ์‚ฌํ•˜๋ ค๊ณ  ์‹œ๋„ํ•จ์„ ๋ณด์—ฌ์คŒ์œผ๋กœ์จ, ๊ฐ ๋ฐฉ๋ฒ•์˜ ๊ทผ๋ณธ์  ์—ฐ๊ฒฐ์„ฑ ์ œ์‹œ
  2. ๋น„๋ฏธ๋ถ„ ๋ณด์ƒ์— ๋Œ€ํ•œ ํฌ๊ด„์  ๊ธฐ๋ฒ•: ๋ถ„์ž ์„ค๊ณ„์—์„œ ํ”ํ•œ ๋น„๋ฏธ๋ถ„ ๊ฐ€๋Šฅํ•œ ๋ฌผ๋ฆฌ ์‹œ๋ฎฌ๋ ˆ์ด์…˜์ด๋‚˜ ๋ถ„์ž ์ง€๋ฌธ(fingerprint) ๊ธฐ๋ฐ˜ ํ•™์Šต ๋ชจ๋ธ์„ ๋‹ค๋ฃจ๋Š” SMC ๊ธฐ๋ฐ˜ ๋ฐ ๊ฐ’ ๊ธฐ๋ฐ˜ ์ค‘์š”๋„ ์ƒ˜ํ”Œ๋ง ๋ฐฉ๋ฒ•๋“ค์„ ์ƒ์„ธํžˆ ๋ฆฌ๋ทฐ
  3. ๊ณ„์‚ฐ ํ™•์žฅ์„ฑ ์ž…์ฆ: Figure 3์—์„œ ๋ณด๋“ฏ์ด ํŠธ๋ฆฌ ๋„ˆ๋น„๋ฅผ ์ฆ๊ฐ€์‹œํ‚ค๋ฉด์„œ ์ถ”๋ก  ์‹œ๊ฐ„ ๊ณ„์‚ฐ์„ ํ™•์žฅํ•  ๋•Œ ๋ณด์ƒ ํ•จ์ˆ˜๊ฐ€ ์„ ํ˜•์— ๊ฐ€๊นŒ์šด ๊ฐœ์„  ๋‹ฌ์„ฑ ๊ฐ€๋Šฅํ•จ์„ ์‹œ๊ฐํ™”
  4. ๊ต์ฐจ ๋„๋ฉ”์ธ ํ†ต์ฐฐ: ์–ธ์–ด ๋ชจ๋ธ๊ณผ ํ™•์‚ฐ ๋ชจ๋ธ์˜ ์ถ”๋ก  ์‹œ๊ฐ„ ๊ธฐ๋ฒ•๋“ค ๊ฐ„ ์—ฐ๊ฒฐ์„ฑ ๋…ผ์˜ ๋ฐ ํƒ์ƒ‰ ์•Œ๊ณ ๋ฆฌ์ฆ˜(search algorithm) ๊ธฐ๋ฐ˜ ์ ‘๊ทผ๋ฒ• ์ถ”๊ฐ€

How

Figure 1: ์ถ”๋ก  ์‹œ๊ฐ„ ๊ธฐ๋ฒ•์˜ ๋ชฉํ‘œ

Figure 1: ๋ฏธ์„ธ์กฐ์ • ์—†์ด ์‚ฌ์ „ํ•™์Šต ์ƒ์„ฑ ๋ชจ๋ธ๊ณผ ๋ณด์ƒ ๋ชจ๋ธ์„ ํ†ตํ•ฉํ•˜์—ฌ ๊ธฐ๋Šฅ์„ฑ ๋†’์€ ์ž์—ฐ์Šค๋Ÿฌ์šด ์„ค๊ณ„ ์ƒ์„ฑ

ํ•ต์‹ฌ ์ˆ˜์‹์  ํ‘œํ˜„:

์ฃผ์š” ๊ธฐ๋ฒ•๋“ค์˜ ๊ตฌ๋ถ„ ๊ธฐ์ค€:

์„ ํƒ ๊ณ ๋ ค์‚ฌํ•ญ:

  1. ๊ณ„์‚ฐ/๋ฉ”๋ชจ๋ฆฌ ํšจ์œจ์„ฑ๊ณผ ๋ณ‘๋ ฌํ™” ๊ฐ€๋Šฅ์„ฑ
  2. ์ตœ์ ํ™” ๋ชฉํ‘œ (๋ถ„๋ฅ˜ vs. ํšŒ๊ท€ํ˜• ๋ณด์ƒ)
  3. ๋ณด์ƒ ํ”ผ๋“œ๋ฐฑ์˜ ๋ฏธ๋ถ„ ๊ฐ€๋Šฅ ์—ฌ๋ถ€

Originality

Limitation & Further Study

Evaluation

์ดํ‰: ๋ณธ ํŠœํ† ๋ฆฌ์–ผ์€ ํ™•์‚ฐ ๋ชจ๋ธ์˜ ์ถ”๋ก  ์‹œ๊ฐ„ ์ •๋ ฌ ๊ธฐ๋ฒ•๋“ค์„ ์ฒ˜์Œ์œผ๋กœ ์ฒด๊ณ„์ ์œผ๋กœ ํ†ตํ•ฉํ•˜๋Š” ์‹œ๋„๋กœ์„œ, ํŠนํžˆ ๋น„๋ฏธ๋ถ„ ๋ณด์ƒ์ด ์‹ค์ œ์ธ ๊ณผํ•™ ๋„๋ฉ”์ธ์˜ ๊ด€์ ์—์„œ ํ˜„์‹ค์  ๊ฐ€์น˜๊ฐ€ ๋†’์œผ๋ฉฐ, ์ œ์‹œ๋œ ํ”„๋ ˆ์ž„์›Œํฌ๋Š” ํ–ฅํ›„ ์—ฐ๊ตฌ์˜ ์ด๋ก ์  ๊ธฐ์ดˆ๊ฐ€ ๋  ์ˆ˜ ์žˆ๋‹ค. ๋‹ค๋งŒ ๊ฐ ๊ธฐ๋ฒ•์˜ ๊ทผ์‚ฌ ํ’ˆ์งˆ, ์ˆ˜๋ ด์„ฑ, ๊ฐ’ ํ•จ์ˆ˜ ์˜ค์ฐจ์˜ ์˜ํ–ฅ ๋“ฑ์— ๋Œ€ํ•œ ์ •๋Ÿ‰์  ์ด๋ก  ๋ถ„์„์ด ๋ณด๊ฐ•๋œ๋‹ค๋ฉด ๋”์šฑ ๊ฐ•๋ ฅํ•œ ์ฐธ๊ณ  ์ž๋ฃŒ๊ฐ€ ๋  ๊ฒƒ์ด๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
682์˜ ํ™•์‚ฐ๋ชจ๋ธ ๋ณด์ƒ ์œ ๋„ ๋ฐ˜๋ณต๊ฐœ์„ ์€ 428์˜ reward-guided alignment ๋ฐฉ์‹์˜ ์ด๋ก ์ ยท๊ธฐ์ˆ ์  ์—ฐ์žฅ์„ ์— ์žˆ์Šต๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๊ฒฐ์ • ๊ตฌ์กฐ ์ƒ์„ฑ(ํŠนํžˆ ๊ฒฐ์ •์„ ๋ถ„ํ• ํ•ด ์ƒ์„ฑ)์—์„œ ๋Œ€์นญ์„ฑ ๊ธฐ๋ฐ˜ ์ƒ์„ฑ ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ์ด๋ก ์  ๊ธฐ๋ฐ˜์„ ๋ณด์—ฌ์ค˜, ๋ณด์ƒ ๊ธฐ๋ฐ˜ diffusion ๋ชจ๋ธ ์ •๋ ฌ ๊ธฐ๋ฒ•์˜ ์ ์šฉ์„ฑ์„ ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Derivative-Free Guidance in Continuous and Discrete Diffusion Models(269)์€ ๋ชจ๋ธ ๋ฏธ์„ธ์กฐ์ • ์—†์ด ๋ณด์ƒ ๊ธฐ๋ฐ˜ ์œ ๋„ ๊ธฐ๋ฒ•์„ ๊ฐœ๋ฐœํ•˜์—ฌ, 428์˜ ํ…Œ์ŠคํŠธํƒ€์ž„ ์ •๋ ฌ ์•„์ด๋””์–ด์™€ ์ง์ ‘ ๋น„๊ต๋œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Diffusion ๋ชจ๋ธ ์ •๋ ฌ์„ ํ…์ŠคํŠธ ์กฐ๊ฑด์ด ์•„๋‹Œ reward-guided fine-tuning์œผ๋กœ ์ˆ˜ํ–‰ํ•œ ๋‹ค๋ฅธ ์ ‘๊ทผ๋ฒ•์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Inference-Time Alignment in Diffusion Models with Reward-Guided Search ๋…ผ๋ฌธ์€ Diffusion ๋ชจ๋ธ ์ •๋ ฌ์—์„œ ๋ณด์ƒ ๊ธฐ๋ฐ˜ ์ตœ์ ํ™”์˜ ๋˜ ๋‹ค๋ฅธ ๊ตฌํ˜„ ์‚ฌ๋ก€์ž…๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Inference time alignment์™€ reward guidance๋ฅผ diffusion ๋ชจ๋ธ์— ์ ์šฉํ•˜์—ฌ ๋‹จ๋ฐฑ์งˆ๊ณผ ํ•ญ์ฒด ๋“ฑ Protein Landscape์˜ ์ƒ์„ฑ ํ’ˆ์งˆ์„ ๋†’์ธ๋‹ค๋Š” ์ ์—์„œ DDS ๋ฐฉ์‹๊ณผ ๋น„๊ตํ•  ์ˆ˜ ์žˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
428๋ฒˆ ๋…ผ๋ฌธ์€ reward-guided diffusion framework์˜ ๋ถ„์ž๋™์—ญํ•™ ์‹œ๋ฎฌ๋ ˆ์ด์…˜์— ์ตœ์‹  alignment ์ „๋žต์„ ๋…ผํ•˜๋ฏ€๋กœ, 3101์—์„œ ์ œ์‹œํ•˜๋Š” ํšจ์œจ์  PIMD์™€ ์ ‘๊ทผ ๊ด€์ ์—์„œ ๋Œ€์กฐํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
์ถ”๋ก  ๋‹จ๊ณ„์—์„œ์˜ ๋ณด์ƒ/์ •๋ ฌ ๊ฐœ์„  ๊ธฐ๋ฒ• ๋“ฑ SHAC-ASAM๊ณผ ์œ ์‚ฌํ•œ ๊ฐ•ํ™”ํ•™์Šต reward optimization ๋ฐฉ๋ฒ•๋ก ์˜ ๋ฐœ์ „ ๋ฐฉํ–ฅ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Reward-Guided Iterative Refinement in Diffusion Models at Test Time(682)๋Š” ํ™•์‚ฐ ๋ชจ๋ธ์˜ ํ…Œ์ŠคํŠธ ํƒ€์ž„ ๋ณด์ƒ ๊ธฐ๋ฐ˜ ์ •๋ ฌ์„ ๋‹ค์–‘ํ•œ ๊ณผํ•™์  ์‘์šฉ์— ์ ์šฉํ•˜๋ฉฐ, 428์—์„œ ๋‹ค๋ฃฌ ๋ฆฌ๋ทฐ์˜ ์‹ค์ œ์  ํ™•์žฅ ์‚ฌ๋ก€์ด๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
LLM์˜ ํ…Œ์ŠคํŠธ ํƒ€์ž„ ์ตœ์ ํ™” ์ „๋žต(์ •๋ณด ๋ณ‘๋ชฉ ๊ธฐ๋ฐ˜)์ด diffusion ๋ชจ๋ธ์˜ inference-time alignment์— ์‘์šฉ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
๋ณด์ƒ ์‹ ํ˜ธ๋ฅผ ํ†ตํ•œ ๋””ํ“จ์ „ ๋ชจ๋ธ์˜ ์ถ”๋ก  ์ •๋ ฌ ๊ธฐ๋ฒ•์ด ์ƒ์„ฑํ˜• normalizing flow ๊ฐ€์†๊ณผ ์œ ์‚ฌํ•œ ๋ฌธ์ œ๋ฅผ ๋‹ค๋ฃน๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
428๋ฒˆ ๋…ผ๋ฌธ์€ diffusion ๊ธฐ๋ฐ˜ ๋ถ„์ž ์ƒ์„ฑ์—์„œ reward-guidance์™€ alignment๋ฅผ ํ†ตํ•ฉํ•˜๋Š” ์ตœ์‹  ๋ฐœ์ „์œผ๋กœ, CoCoGraph์˜ ์ œ์•ฝ ํ™•์‚ฐ๊ณผ ๋งฅ๋ฝ์ด ๋งž๋‹ฟ์•„ ์žˆ์Šต๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
ํ…Œ์ŠคํŠธ ํƒ€์ž„ ์ตœ์ ํ™”์™€ inference-time alignment ์•„์ด๋””์–ด๊ฐ€ ์ •๋ณด ๋ณ‘๋ชฉ ์ด๋ก  ๋ฐ LLM์˜ ์‹ค์ œ ์ž…๋ ฅ ์ •์ฑ…๊ณผ ์—ฐ๊ฒฐ๋˜์–ด diffusion ๋ชจ๋ธ์—๋„ ์ ์šฉ๋  ์ˆ˜ ์žˆ์Œ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •