Essence
Figure 2: ์ต์ ํ ๋ชฉํ ๋ฌ์ฑ์ ์ํ ๋ค์ํ ์ถ๋ก ์๊ฐ ๊ธฐ๋ฒ๋ค (Best-of-N, ๋ถ๋ฅ๊ธฐ ๊ฐ์ด๋์ค, SMC ๊ธฐ๋ฐ ๊ฐ์ด๋์ค, ๊ฐ ๊ธฐ๋ฐ ์ค์๋ ์ํ๋ง)
๋ณธ ํํ ๋ฆฌ์ผ์ ์ฌ์ ํ์ต๋ ํ์ฐ ๋ชจ๋ธ์ ๋ฏธ์ธ์กฐ์ ํ์ง ์์ผ๋ฉด์ ์ถ๋ก ์๊ฐ(inference time)์ ๋ณด์ ํจ์(reward function)๋ฅผ ์ต๋ํํ๋ ์ ๋ ฌ(alignment) ๊ธฐ๋ฒ๋ค์ ํต์ผ๋ ๊ด์ ์์ ๋ฆฌ๋ทฐํ๊ณ , ๋จ๋ฐฑ์ง ์ค๊ณ ๊ฐ์ ๊ณผํ ๋ถ์ผ์์ ์ค์ ๋ก ์ ์ฉํ ๋น๋ฏธ๋ถ ๊ฐ๋ฅํ ๋ณด์ ํผ๋๋ฐฑ์ ๋ค๋ฃจ๋ ๋ฐฉ๋ฒ๋ก ๋ค์ ํฌ๊ด์ ์ผ๋ก ๋ค๋ฃฌ๋ค.
Evaluation
์ดํ: ๋ณธ ํํ ๋ฆฌ์ผ์ ํ์ฐ ๋ชจ๋ธ์ ์ถ๋ก ์๊ฐ ์ ๋ ฌ ๊ธฐ๋ฒ๋ค์ ์ฒ์์ผ๋ก ์ฒด๊ณ์ ์ผ๋ก ํตํฉํ๋ ์๋๋ก์, ํนํ ๋น๋ฏธ๋ถ ๋ณด์์ด ์ค์ ์ธ ๊ณผํ ๋๋ฉ์ธ์ ๊ด์ ์์ ํ์ค์ ๊ฐ์น๊ฐ ๋์ผ๋ฉฐ, ์ ์๋ ํ๋ ์์ํฌ๋ ํฅํ ์ฐ๊ตฌ์ ์ด๋ก ์ ๊ธฐ์ด๊ฐ ๋ ์ ์๋ค. ๋ค๋ง ๊ฐ ๊ธฐ๋ฒ์ ๊ทผ์ฌ ํ์ง, ์๋ ด์ฑ, ๊ฐ ํจ์ ์ค์ฐจ์ ์ํฅ ๋ฑ์ ๋ํ ์ ๋์ ์ด๋ก ๋ถ์์ด ๋ณด๊ฐ๋๋ค๋ฉด ๋์ฑ ๊ฐ๋ ฅํ ์ฐธ๊ณ ์๋ฃ๊ฐ ๋ ๊ฒ์ด๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
682์ ํ์ฐ๋ชจ๋ธ ๋ณด์ ์ ๋ ๋ฐ๋ณต๊ฐ์ ์ 428์ reward-guided alignment ๋ฐฉ์์ ์ด๋ก ์ ยท๊ธฐ์ ์ ์ฐ์ฅ์ ์ ์์ต๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๊ฒฐ์ ๊ตฌ์กฐ ์์ฑ(ํนํ ๊ฒฐ์ ์ ๋ถํ ํด ์์ฑ)์์ ๋์นญ์ฑ ๊ธฐ๋ฐ ์์ฑ ์๊ณ ๋ฆฌ์ฆ์ ์ด๋ก ์ ๊ธฐ๋ฐ์ ๋ณด์ฌ์ค, ๋ณด์ ๊ธฐ๋ฐ diffusion ๋ชจ๋ธ ์ ๋ ฌ ๊ธฐ๋ฒ์ ์ ์ฉ์ฑ์ ํ์ฅํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
Derivative-Free Guidance in Continuous and Discrete Diffusion Models(269)์ ๋ชจ๋ธ ๋ฏธ์ธ์กฐ์ ์์ด ๋ณด์ ๊ธฐ๋ฐ ์ ๋ ๊ธฐ๋ฒ์ ๊ฐ๋ฐํ์ฌ, 428์ ํ
์คํธํ์ ์ ๋ ฌ ์์ด๋์ด์ ์ง์ ๋น๊ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
Diffusion ๋ชจ๋ธ ์ ๋ ฌ์ ํ
์คํธ ์กฐ๊ฑด์ด ์๋ reward-guided fine-tuning์ผ๋ก ์ํํ ๋ค๋ฅธ ์ ๊ทผ๋ฒ์ ๋ณด์ฌ์ค๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
Inference-Time Alignment in Diffusion Models with Reward-Guided Search ๋
ผ๋ฌธ์ Diffusion ๋ชจ๋ธ ์ ๋ ฌ์์ ๋ณด์ ๊ธฐ๋ฐ ์ต์ ํ์ ๋ ๋ค๋ฅธ ๊ตฌํ ์ฌ๋ก์
๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
Inference time alignment์ reward guidance๋ฅผ diffusion ๋ชจ๋ธ์ ์ ์ฉํ์ฌ ๋จ๋ฐฑ์ง๊ณผ ํญ์ฒด ๋ฑ Protein Landscape์ ์์ฑ ํ์ง์ ๋์ธ๋ค๋ ์ ์์ DDS ๋ฐฉ์๊ณผ ๋น๊ตํ ์ ์๋ค.
๋ค๋ฅธ ์ ๊ทผ
428๋ฒ ๋
ผ๋ฌธ์ reward-guided diffusion framework์ ๋ถ์๋์ญํ ์๋ฎฌ๋ ์ด์
์ ์ต์ alignment ์ ๋ต์ ๋
ผํ๋ฏ๋ก, 3101์์ ์ ์ํ๋ ํจ์จ์ PIMD์ ์ ๊ทผ ๊ด์ ์์ ๋์กฐํ ์ ์์ต๋๋ค.
ํ์ ์ฐ๊ตฌ
์ถ๋ก ๋จ๊ณ์์์ ๋ณด์/์ ๋ ฌ ๊ฐ์ ๊ธฐ๋ฒ ๋ฑ SHAC-ASAM๊ณผ ์ ์ฌํ ๊ฐํํ์ต reward optimization ๋ฐฉ๋ฒ๋ก ์ ๋ฐ์ ๋ฐฉํฅ์ ์ ์ํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
Reward-Guided Iterative Refinement in Diffusion Models at Test Time(682)๋ ํ์ฐ ๋ชจ๋ธ์ ํ
์คํธ ํ์ ๋ณด์ ๊ธฐ๋ฐ ์ ๋ ฌ์ ๋ค์ํ ๊ณผํ์ ์์ฉ์ ์ ์ฉํ๋ฉฐ, 428์์ ๋ค๋ฃฌ ๋ฆฌ๋ทฐ์ ์ค์ ์ ํ์ฅ ์ฌ๋ก์ด๋ค.
ํ์ ์ฐ๊ตฌ
LLM์ ํ
์คํธ ํ์ ์ต์ ํ ์ ๋ต(์ ๋ณด ๋ณ๋ชฉ ๊ธฐ๋ฐ)์ด diffusion ๋ชจ๋ธ์ inference-time alignment์ ์์ฉ๋ ์ ์์ต๋๋ค.
ํ์ ์ฐ๊ตฌ
๋ณด์ ์ ํธ๋ฅผ ํตํ ๋ํจ์ ๋ชจ๋ธ์ ์ถ๋ก ์ ๋ ฌ ๊ธฐ๋ฒ์ด ์์ฑํ normalizing flow ๊ฐ์๊ณผ ์ ์ฌํ ๋ฌธ์ ๋ฅผ ๋ค๋ฃน๋๋ค.
ํ์ ์ฐ๊ตฌ
428๋ฒ ๋
ผ๋ฌธ์ diffusion ๊ธฐ๋ฐ ๋ถ์ ์์ฑ์์ reward-guidance์ alignment๋ฅผ ํตํฉํ๋ ์ต์ ๋ฐ์ ์ผ๋ก, CoCoGraph์ ์ ์ฝ ํ์ฐ๊ณผ ๋งฅ๋ฝ์ด ๋ง๋ฟ์ ์์ต๋๋ค.
์์ฉ ์ฌ๋ก
ํ
์คํธ ํ์ ์ต์ ํ์ inference-time alignment ์์ด๋์ด๊ฐ ์ ๋ณด ๋ณ๋ชฉ ์ด๋ก ๋ฐ LLM์ ์ค์ ์
๋ ฅ ์ ์ฑ
๊ณผ ์ฐ๊ฒฐ๋์ด diffusion ๋ชจ๋ธ์๋ ์ ์ฉ๋ ์ ์์์ ์์ฌํฉ๋๋ค.