Essence
์๋ฌผ๋ถ์ ์ค๊ณ์์ ๋ฏธ๋ถ๋ถ๊ฐ๋ฅํ ๋ณด์ํจ์(reward function)๋ฅผ ์ต์ ํํ๊ธฐ ์ํด ํ์ฐ๋ชจ๋ธ(diffusion model)์ ์์ ์ ์ผ๋ก ๋ฏธ์ธ์กฐ์ ํ๋ ์๋ก์ด ํ๋ ์์ํฌ VIDD(Value-guided Iterative Distillation for Diffusion models)๋ฅผ ์ ์ํ๋ค. ๊ธฐ์กด ๊ฐํํ์ต ๊ธฐ๋ฐ ๋ฐฉ๋ฒ๋ค์ ๋ถ์์ ์ฑ๊ณผ ๋ชจ๋ ๋ถ๊ดด ๋ฌธ์ ๋ฅผ ์คํ์ ์ฑ
(off-policy) ํ์ต๊ณผ ์ ๋ฐฉํฅ KL ๋ฐ์ฐ(forward KL divergence) ์ต์ํ๋ฅผ ํตํด ํด๊ฒฐํ๋ค.
How
๊ทธ๋ฆผ 1: VIDD์ ์๊ณ ๋ฆฌ์ฆ ๊ตฌ์กฐ ๋ฐ ์ธ ๊ฐ์ง ํต์ฌ ๋จ๊ณ
์๊ณ ๋ฆฌ์ฆ ๊ตฌ์กฐ:
- Roll-in (์คํ์ ์ฑ
์์ง): ์ฌ์ ํ๋ จ๋ ๋ชจ๋ธ๊ณผ ์ด์ ๋ฏธ์ธ์กฐ์ ์ ์ฑ
์ ํผํฉ๋ถํฌ์์ ๊ถค์ (trajectory)์ ์ํ๋งํ์ฌ ๋ค์ํ ํ์ ๋ณด์ฅ. ์ด๋ฅผ ํตํด ํ์ฌ ์ ์ฑ
์ฃผ๋ณ์ ์ข์ ์์ญ์ผ๋ก ์ ํ๋์ง ์์
- Roll-out (์ํํธ ์ต์ ์ ์ฑ
๋ชจ์): ์์ง๋ ์ค๊ฐ ์ํ $x_t$์์ ์์ํ์ฌ, ๊ฐํจ์ $\hat{v}_{tโ1}$๋ก ๊ฐ์ค์น๋ฅผ ๋ถ์ฌํ ๋ณด์ ๊ธฐ๋ฐ ์ํํธ ์ต์ ์ ์ฑ
$p_{out}$์ ๊ตฌ์ฑ. ์ด๋ ๋ณด์์ ์ต์ ํํ๋ฉด์๋ ํ์ฌ ์ ์ฑ
๊ณผ์ ๊ฑฐ๋ฆฌ๋ฅผ ์ ์งํ๋ KL ์ ์ฝ์ด ์๋ฌต์ ์ผ๋ก ํฌํจ๋จ
- Model Update (์ ๋ฐฉํฅ KL ์ต์ํ): ๋กค์์์ผ๋ก๋ถํฐ ์์ฑ๋ ์ํํธ ์ต์ ์ ์ฑ
๊ณผ ํ์ฌ ๋ชจ๋ธ ์ ์ฑ
์ฌ์ด์ KL ๋ฐ์ฐ ์ต์ํ:
$$\mathcal{L} = KL(p_{out} || p_ฯ)$$
์ด๋ ์ ํฅ์ (forward) KL ๋ชฉ์ ํจ์๋ก ๋ชจ๋ ์ปค๋ฒ๋ง(mode covering) ํ๋์ ์ ๋ํ์ฌ ๋ค์์ฑ ๋ณด์กด
- ๊ฐํจ์ ์ค๊ณ: ํ์ฐ๋ชจ๋ธ์ ํน์ฑ์ ๋ง์ถ ๊ฐํจ์ $v_t(x_t) = \log p_{pre}(x_t) + \mathbb{E}[R(x_0)]$๋ฅผ ์ฌ์ฉํ์ฌ ๋ณด์๊ณผ ๋ถํฌ ์ ํฉ์ฑ ๊ฐ์ ๊ท ํ ์กฐ์
Evaluation
์ดํ: ์ด ๋
ผ๋ฌธ์ ์๋ฌผ๋ถ์ ์ค๊ณ์์ ๋ฏธ๋ถ๋ถ๊ฐ๋ฅํ ๋ณด์ ์ต์ ํ๋ผ๋ ์ค์ง์ ๋์ ๊ณผ์ ๋ฅผ ์คํ์ ์ฑ
ํ์ต๊ณผ ์ ๋ฐฉํฅ KL ๊ธฐ๋ฐ ์ ์ฑ
์ฆ๋ฅ๋ก ์ฐ์ํ๊ฒ ํด๊ฒฐํ ๊ฐ๋ ฅํ ๊ธฐ์ฌ๋ค. ๋จ๋ฐฑ์งยท๋ถ์ ์ค๊ณ ๋ถ์ผ์์์ ๊ด๋ฒ์ํ ์ค์ฆ๊ณผ ๊ธฐ์กด ๋ฐฉ๋ฒ ๋๋น ์์ ์ฑ ๋ฐ ์ํ ํจ์จ ๊ฐ์ ์ด ๋
ผ๋ฌธ์ ๊ฐ์น๋ฅผ ๋์ธ๋ค. ๋ค๋ง ์ด๋ก ์ ๋ถ์๊ณผ ๋๊ท๋ชจ ๋ฌธ์ ์ ๋ํ ํ์ฅ์ฑ ๊ฒ์ฆ์ด ๋ณด๊ฐ๋๋ฉด ๋์ฑ ์ฐ์ํ ๋
ผ๋ฌธ์ด ๋ ์ ์๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
446์์ ์ฌ์ฉํ๋ LLM ๋ฐ ์์ฑํ AI์ ๊ณผํ์ ์์ฉ์ 004์ ์๋ฒ ์ด๊ฐ ์ด๋ก ์ ๋ฐฐ๊ฒฝ์ ํญ๋๊ฒ ์ ๊ณตํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
446์ ๋ณด์ ๊ธฐ๋ฐ ๋ํจ์ ํ์ธํ๋ ๋ฐฉ์์ 682์์ ์๊ฐ๋ ํ
์คํธํ์ ๋ฐ๋ณต์ ๋ณด์ ์ต์ ํ ํ๋ ์์ํฌ์ ์ด๋ก ์ ์ถ๋ฐ์ ์ ์ ๊ณตํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
446์ ๋ณด์ ์ ๋ ํ์ธํ๋ ๋ฐ ๋ถํฌ ํ์ฅ ๋ฐฉ๋ฒ์ 867์ ๊ฒ์ฆ๊ธฐ ๊ธฐ๋ฐ ํ๋ก์ฐ ์ต์ ํ ํ๋ ์์ํฌ์ ๊ทผ๊ฐ์ด ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๋ณด์ ์ ๋ ํ์ฐ๋ชจ๋ธ ๊ณ ๋ํ(Iterative Distillation) ๋
ผ๋ฌธ์ผ๋ก, Clean-Sample Markov chain ์ํ๋ง ์ ๋ต๊ณผ ๊ทผ๋ณธ์ ์ธ ์ฐ๊ฒฐ์ ์ ์ค๋ช
ํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Diffusion ๋ชจ๋ธ์ reward-guided fine-tuning ๋ฐฉ๋ฒ๋ก ์ ๋ํ ์ฒด๊ณ์ ๋ถ์ ๊ฒฐ๊ณผ๋ก, CAGenMol์ ๊ฐํํ์ต ๊ธฐ๋ฐ ๋ณด์ ์ธ๋ถ ๊ตฌํ์ ํ์ํ ์ด๋ก ์ ํ ๋๋ฅผ ์ ๊ณตํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๋ณด์ ์ ๋ํ diffusion ๋ชจ๋ธ fine-tuning์ ์ผ๋ฐ์ ์ ๋ต์ ์ ์ํ๋ฉฐ, MP2D์ reward-guided sampling ์ค๊ณ์ ์ด๋ก ์ ๊ธฐ๋ฐ์ด ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
555 ๋
ผ๋ฌธ์ ๋ถ์ ๊ทธ๋ํ ์์ฑ์ ์ํ GAN ๊ธฐ๋ฐ ์ ๊ทผ๋ฒ์ ์ ์ํ์ฌ, ํ์ฐ๋ชจ๋ธ ๊ธฐ๋ฐ ์ค๊ณ์ ๋์กฐ์ ์ผ๋ก ์ฐธ๊ณ ํ ์ ์๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋ ๋
ผ๋ฌธ ๋ชจ๋ ๋ฏธ๋ถ๋ถ๊ฐ๋ฅํ ๋ณด์ ํจ์๋ก ํ์ฐ ๋ชจ๋ธ์ ์ ์ดํ๋ ๋ฐฉ๋ฒ์ ๋ค๋ฃจ์ง๋ง, 446์ ๋ฏธ์ธ์กฐ์ ๊ธฐ๋ฐ, 269๋ ์ถ๋ก ์๊ฐ ๊ฐ์ด๋ ๊ธฐ๋ฒ์ ์ ์ํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
Iterative Distillation for Reward-Guided Fine-Tuning of Diff ๋
ผ๋ฌธ์ด ๋ณด์-์ ๋ ๋ฏธ์ธ์กฐ์ ์ ํตํ ํ์ฐ๋ชจ๋ธ ์ผ๋ฐํ ํ์์ ์๋ํ ์ ์์ ๋ก๋ด ์ ์ฑ
์ต์ ํ์ SAM์ ์ ์ฉํ ๋ณธ ๋
ผ๋ฌธ์ ๋์์ ์ฑ๊ฒฉ์ ์ง๋๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
์๋ฌผ๋ถ์ ์ค๊ณ์์ ํ์ฐ๋ชจ๋ธ๋ก reward ๊ธฐ๋ฐ ์ต์ ํ๋ฅผ ์๋ํ ๋
ผ๋ฌธ์ LLM ๊ธฐ๋ฐ ํํํฉ์ฑ ์๋ํ์ ๋ชฉํ๋ ๊ฐ์ง๋ง ๋ฐฉ๋ฒ์ด ๋ค๋ฆ
๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
Reward-Guided Iterative Refinement in Diffusion Models ๋
ผ๋ฌธ์ ๋ณด์ ๊ธฐ๋ฐ ํ์ฐ๋ชจ๋ธ ์ต์ ํ์ ๋๋ค๋ฅธ ๋ฅ๋ฌ๋ ํ๋ ์์ํฌ๋ฅผ ์ ์ํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
Inference-Time Alignment in Diffusion Models ๋
ผ๋ฌธ์ reward ์ ํธ๋ฅผ ํ์ฉํ ํ์ฐ๋ชจ๋ธ ์ต์ ํ์ ๋๋ค๋ฅธ ์คํ์ ์ ๊ทผ์ ๋ณด์ฌ์ค๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋ ๋
ผ๋ฌธ ๋ชจ๋ diffusion ๋ชจ๋ธ์ reward ๊ธฐ๋ฐ ๋ณด์ ๋ฌธ์ ๋ฅผ ๋ค๋ฃจ์ง๋ง, ์๋ก ๋ค๋ฅธ ์ต์ ํ ๋ฐฉ์๊ณผ ์คํ ํ๋กํ ์ฝ์ ์ ์ํ์ฌ ๋น๊ต ๋ถ์์ด ์ ์ฉํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
Reward-Guided Discrete Diffusion์ ๋ณด์ํจ์๋ฅผ ํ์ฉํ diffusion fine-tuning์ด๋ผ๋ ์ ์ฌ ๋ฌธ์ ๋ฅผ ๋ค๋ฅธ ์์์ผ๋ก ํด๊ฒฐํ๋ ์ต์ ์ฐ๊ตฌ์
๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
RNA 2์ฐจ ๊ตฌ์กฐ ์ค๊ณ๋ฅผ ์ํ ๋ค๋ฅธ ์ต์ ํ ๊ธฐ๋ฐ ๋ฐฉ๋ฒ์ ์ ์ํ๋ ์ฐ๊ตฌ์ด๋ค.
ํ์ ์ฐ๊ตฌ
Iterative Distillation for Reward-Guided Fine-Tuning of Diffusion Models ๋
ผ๋ฌธ์ ๋ณด์ ๊ธฐ๋ฐ ํ๋๊ณผ ๊ฒฌ๊ณ ์ฑ ๊ฐํ ์ ๊ทผ์ ํตํ RL ๋ชจ๋ธ ๊ฐ์ ๋ฐฉ๋ฒ์ ์ถ๊ฐ๋ก ๋ค๋ฃน๋๋ค.
ํ์ ์ฐ๊ตฌ
CAGenMol ๋
ผ๋ฌธ์ ์กฐ๊ฑด ์ธ์ง ๋ฐ ๋ชฉ์ ์ถ๊ตฌ ํ์ฐ์ธ์ด๋ชจ๋ธ๋ก ์๋ฌผ๋ถ์/์ฌ๋ฃ ์ค๊ณ์ reward-guided fine-tuning ํ๋ ์์ํฌ๋ฅผ ํ์ฅํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
Reward-guided fine-tuning ์ ๊ทผ์ ์ฌ์ฉํ์ฌ ์์ฑ ๋ชจ๋ธ(ํนํ diffusion ๊ธฐ๋ฐ)์ ๊ตฌ์กฐ ๋ค์ํ ๋ฐ ์ ์ฝ ์ ์ฉ ๊ฐ๋ฅ์ฑ์ ์ถ๊ฐ์ ์ผ๋ก ์ ์ํฉ๋๋ค.
์์ฉ ์ฌ๋ก
SAMPLE ํ๋ซํผ์ ์๋ ๋จ๋ฐฑ์ง ๊ณตํ์์ ์๋ฃ ๊ณต๊ฐ ํ์ ํจ์จํ์ reward-guided ํ์ฐ๋ชจ๋ธ์ด ์ค์ ์์ฉ๋๋ ์ฌ๋ก์
๋๋ค.
์์ฉ ์ฌ๋ก
446์ ํ์ฐ๋ชจ๋ธ ๋ณด์ ์ต์ ํ๋ AlphaFold3์ ๊ฐ์ ์ต์ ํ์ฐ๊ธฐ๋ฐ ์์ฒด๊ตฌ์กฐ ์์ธก ๋ชจ๋ธ์ ํ์ค ์ ์ฉ ํจ์จ์ฑ์ ๋์ด๋ ์ค์ง์ ๋ฐฉ๋ฒ์ ์ ์ํ๋ค.
๋ฐ๋ก /๋นํ
Hallucinations can improve large language models in drug discovery ๋
ผ๋ฌธ์ '๋ถ์์ ์ฑ'์ด ํญ์ ๋ถ์ ์ ์ด์ง ์๋ค๋ ์๊ฐ์ ์ ์ํ์ฌ, reward-guided fine-tuning์ ํ๊ณ์ ํด์์ ๊ท ํ๊ฐ์๊ฒ ๋ณด์ฌ์ค๋๋ค.