Essence
๊ทธ๋ฆผ 1: ์ ์๋ ํ๋ ์์ํฌ๋ ๋ฐ๋ณต์ ๊ณผ์ ์ ๋ฐ๋ฅด๋ฉฐ, ๊ฐ ๋ฐ๋ณต์์ ์ํ์ ๋
ธ์ด์ฆ๋ฅผ ์ฃผ์
ํ ํ ๋ณด์์ ์ต์ ํํ๋ฉด์ ๋๋
ธ์ด์งํ๋ ๊ณผ์
๋ณธ ๋
ผ๋ฌธ์ ํ์ฐ ๋ชจ๋ธ(Diffusion Models)์์ ํ
์คํธ ํ์ ๋ณด์ ์ต์ ํ๋ฅผ ์ํ ๋ฐ๋ณต์ ๊ฐ์ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค. ๊ธฐ์กด์ ๋จ์ผ ์ท(single-shot) ๋ฐฉ์๊ณผ ๋ฌ๋ฆฌ, ๋ถ๋ถ ๋
ธ์ด์ง๊ณผ ๋ณด์ ์ ๋ ๋๋
ธ์ด์ง์ ๋ ๋จ๊ณ๋ฅผ ๋ฐ๋ณตํ์ฌ ์ ์ง์ ์ผ๋ก ์ค๊ณ(design)๋ฅผ ๊ฐ์ ํ ์ ์๋ค.
Evaluation
์ดํ: ํ์ฐ ๋ชจ๋ธ์ ํ
์คํธ ํ์ ์ต์ ํ์ ํ์ ์ ์ธ ๋ฐ๋ณต ๊ฐ์ ์ ๊ทผ์ ์ ์ํ๊ณ , ํนํ ๋ง์คํฌ ํ์ฐ์ ํ ํฐ ๊ณ ์ ๋ฌธ์ ํด๊ฒฐ๊ณผ ํ๋ ์ ์ฝ์กฐ๊ฑด ์ฒ๋ฆฌ๋ ์ค์ง์ ๊ธฐ์ฌ๋ค. ๋จ๋ฐฑ์ง/DNA ์ค๊ณ์์ ์ผ๊ด๋ ์ฑ๋ฅ ํฅ์์ ๋ณด์ด๋, ๊ณ์ฐ ํจ์จ์ฑ ๋ถ์ ๋ถ์ฌ์ ์ค์ ์๋ฌผํ์ ๊ฒ์ฆ ๋ถ์กฑ์ด ํ๊ณ. ํ์ ์ ์ฐ์์ฑ์ ๋์ผ๋ ์ค๋ฌด ์ ์ฉ์ ์ํด์๋ ํจ์จํ์ ๊ฒ์ฆ์ด ํ์ํ๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
682์ ํ์ฐ๋ชจ๋ธ ๋ณด์ ์ ๋ ๋ฐ๋ณต๊ฐ์ ์ 428์ reward-guided alignment ๋ฐฉ์์ ์ด๋ก ์ ยท๊ธฐ์ ์ ์ฐ์ฅ์ ์ ์์ต๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
446์ ๋ณด์ ๊ธฐ๋ฐ ๋ํจ์ ํ์ธํ๋ ๋ฐฉ์์ 682์์ ์๊ฐ๋ ํ
์คํธํ์ ๋ฐ๋ณต์ ๋ณด์ ์ต์ ํ ํ๋ ์์ํฌ์ ์ด๋ก ์ ์ถ๋ฐ์ ์ ์ ๊ณตํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๋ถ์ ์์ฑ ๋ฐ ์๋ฎฌ๋ ์ด์
์์ ๊ฐํ ๊ธฐ๋ฐ iterative refinement๋ฅผ ์ ์ฉํ์ฌ, FlashSchNet์ ์๋-์ ํ๋ ๊ท ํ์์ reward-guided ๋ฐฉ๋ฒ๋ก ์ ๋์์ ์ฐธ๊ณ ํ ์ ์์ต๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Reward-guided iterative refinement in diffusion models ๋
ผ๋ฌธ์ Test-time ๋ณด์ ๊ธฐ๋ฐ ์ํ๋ง/์ต์ ํ์ ์ด๋ก ๊ณผ ์ค์ ์ ํ๊ณ๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ๋ค๋ฃฌ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Diffusion ๋ชจ๋ธ์์ ๋ณด์ ๊ธฐ๋ฐ ๋ฐ๋ณต์ ๊ฐ์ ๋ฐ ์ํ๋ง ๊ธฐ๋ฒ์ ์ด๋ก ยท์ค์ต์ ๋ฐฐ๊ฒฝ์ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Diffusion ๋ชจ๋ธ์ reward-guided iterative refinement๊ฐ MP2D์ ๋ค๋ชฉ์ ์ค๊ณ ๋ฌธ์ ํด๊ฒฐ์ ๊ธฐ๋ณธ ์๊ณ ๋ฆฌ์ฆ์ ์ญํ ์ ํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
555์ MolGAN์ ์์ฑ ๋ชจ๋ธ ๊ธฐ๋ฐ ๋ถ์ ๊ทธ๋ํ ์ค๊ณ๋ฅผ ์ ์ํ์ฌ 682์ ๋ํจ์ ๊ธฐ๋ฐ ๋ฐ๋ณต ์ต์ ํ์ ๋น๊ต๋๋ ๋์์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
Derivative-Free Guidance๊ฐ ํ
์คํธ ํ์ ์ฑ๋ฅ ์ต์ ํ ๋ฐฉ๋ฒ์ ๋ค๋ฅธ ๊ตฌํ ๋ฐฉ์์ด๋ฏ๋ก ๋ ์ ๊ทผ์ ๋น๊ตํด๋ณผ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
Reward-Guided Iterative Refinement ๋
ผ๋ฌธ์ ๋ํจ์ ๋ชจ๋ธ์์์ ๋ฆฌ์๋ ํ์ฉ์ ๋ค๋ฃจ๋ฉฐ, LLM์ ์๊ธฐ๊ฐ์ ยท์ถ๋ก ์ ๋์ ๋ํ ๋ค์ํ ๊ฐํํ์ต ์์ฉ๋ฒ์ ๋น๊ต ๊ฐ๋ฅํ๊ฒ ํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
์ฐ์
๊ณต์ ์ ์ด๋ฅผ ์ํ AI ๊ธฐ๋ฐ ๋ฐฉ๋ฒ๋ก ์ ๋ค๋ฃจ๋ ์ ์ฌํ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
Reward-Guided Iterative Refinement in Diffusion Models ๋
ผ๋ฌธ์ ๋ณด์ ๊ธฐ๋ฐ ํ์ฐ๋ชจ๋ธ ์ต์ ํ์ ๋๋ค๋ฅธ ๋ฅ๋ฌ๋ ํ๋ ์์ํฌ๋ฅผ ์ ์ํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋ ๋ค ๋ฅ๋ ํ์ต ๋ฐ ์ค๊ณ ๊ณต๊ฐ ์ต์ ํ๋ฅผ ๊ฐ์กฐํ์ง๋ง, 682๋ reward ๊ธฐ๋ฐ diffusion refinement, 346์ foundation model์ ํ์ฉํ data-efficient AL์ ์ด์ ์ด ๋ค๋ฅด๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋ถ์๋์ญํ ์๋ฎฌ๋ ์ด์
๊ณผ reward-guided ๋ชจ๋ธ๋ง์ ๊ฒฐํฉ์ผ๋ก ์์ฌ ๋์ญํ์ ํจ๊ณผ์ ์ผ๋ก ํ๊ตฌํ๋ ๋ค๋ฅธ ๋ฐฉ๋ฒ๋ก ์
๋๋ค.
ํ์ ์ฐ๊ตฌ
682๋ ๋ถ์ ์ค๊ณ์ ํ์ฉํ ์ ์๋ ๋ณด์ ์ ๋ ํ
์คํธํ์ ๋ํจ์ ๋ชจ๋ธ ์ต์ ํ๋ก, 555์ GAN ๊ธฐ๋ฐ ์์ฑ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๋ ๋์์ ์ ์ํ๋ค.
ํ์ ์ฐ๊ตฌ
682 ๋
ผ๋ฌธ์ ๋ฏธ์ธ์กฐ์ ์๋ ์ํ ์์ฑ์์ ๋ณด์์ ํ์ฉํ๋ ํ์ฐ ๋ชจ๋ธ ์ต์ ํ ๋ฐฉ๋ฒ์ ์ถ๊ฐ์ ์ธ ์ ์ ๊ธฐ๋ฒ์ผ๋ก ํ๊ตฌํ๋ค.
ํ์ ์ฐ๊ตฌ
Reward-Guided Iterative Refinement in Diffusion Models at Test Time ๋
ผ๋ฌธ์ state-space approach์ฒ๋ผ ๋ณ๋ ฌ ์ถ๋ก ์๊ณ ๋ฆฌ์ฆ์ ํจ์จ ํฅ์ ๋ฐ ์ฑ๋ฅ ๊ฐ์ ์ ๋ชฉํ๋ก ํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
ํ
์คํธ ํ์ ๊ฐ์ , ๋ฐ๋ณต์ ๋ํจ์ ๋ฐ ์ํ ๋ฆฌํ์ธ๋จผํธ์ Entropy-Driven ์ปจ์
์ ํ์ฅํด ์ ์ฉํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
Reward-Guided Iterative Refinement in Diffusion Models at Test Time(682)๋ ํ์ฐ ๋ชจ๋ธ์ ํ
์คํธ ํ์ ๋ณด์ ๊ธฐ๋ฐ ์ ๋ ฌ์ ๋ค์ํ ๊ณผํ์ ์์ฉ์ ์ ์ฉํ๋ฉฐ, 428์์ ๋ค๋ฃฌ ๋ฆฌ๋ทฐ์ ์ค์ ์ ํ์ฅ ์ฌ๋ก์ด๋ค.
ํ์ ์ฐ๊ตฌ
ํ
์คํธํ์ reward-guided ์ ๋ ฌ์ ๋ํ FMVACC ๋์ iterative refinement ๋ฐฉ์์ ์ ์ฉํ์ฌ ์ค์๊ฐ ์ต์ ํ์ ๋ฐ์ ์ ๊ด์ ์ ๋ณด์ฌ์ค๋ค.
ํ์ ์ฐ๊ตฌ
Reward-Guided Iterative Refinement in Diffusion Models at Test Time์ ์ ์ํ ํ๋ฆ๊ณผ ๊ฐํํ์ต ๊ธฐ๋ฐ ์ํ๋ง ๊ฐ์ ์ ๋ค๋ฃจ๋ฉฐ, 3119์ replica-exchange ๊ฐ์ ๋๋ ์ํ ํจ์จ ๋
ผ์์ ๋ง๋ฟ์ ์๋ค.
์์ฉ ์ฌ๋ก
682์์์ ๋ถ์์ค๊ณ ํ์ฐ๋ชจ๋ธ ๋ณด์ ์กฐ์ ๋ฐฉ์์ด 3233์ ๊ฐํ ๋ณด์ ๊ธฐ๋ฐ ์ด์ฐ์ ๋ถ์์์ฑ ๋ฌธ์ ๋ก ์ค์ ์ ์ฉ๋ ์ฌ๋ก์ ์ ์ฐ๊ฒฐ๋ฉ๋๋ค.