Essence
ํ์ฐ ๋ชจ๋ธ(diffusion models)์ ์ถ๋ก ์๊ฐ ์ ๋ ฌ(inference-time alignment) ๋ฌธ์ ๋ฅผ ํธ๋ฆฌ ํ์ ๋ฌธ์ ๋ก ์ฌ์ ์ํ๊ณ , ๋์ ๋น ํญ ์กฐ์ ์ ํตํด ๋น๋ฏธ๋ถ ๋ณด์ ํจ์(non-differentiable reward functions)์ ๋ํ ํจ์จ์ ์ธ ์ต์ ํ๋ฅผ ๋ฌ์ฑํ๋ ์๋ก์ด ๋ฐฉ๋ฒ์ ์ ์ํ๋ค.
How
Figure 2: DSearch์ ํธ๋ฆฌ ๋๋น ํ์ฅ๊ณผ ๋น ํญ ๋์ ์กฐ์ . ์ฝํ ๋น์ ์์์ ๋ค๋ฅธ ๋น์ผ๋ก ์ฌํ ๋นํ๋ฉด์ w(t)b(t) ์ ์ง
ํธ๋ฆฌ ์ ์ ๋ฐ ๋๋น ์ ํ:
- ๋์ด๋ธ ์ ๊ทผ์ O(|X|^T) ๋ณต์ก๋๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์ฌ์ ํ์ต๋ ์ ์ฑ
์ผ๋ก๋ถํฐ ์ํ๋งํ์ฌ ํธ๋ฆฌ ๋๋น w(t) ์ ํ
- w(t)=1์ผ ๊ฒฝ์ฐ best-of-N ์ํ๋ง์ผ๋ก ์ถ์๋๋ ์ผ๋ฐ์ ํํ ์ ์ง
ํด๋ฆฌ์คํฑ ํจ์(Heuristic Function):
- ์ค๊ฐ ๋
ธ๋์ ๊ฐ์น๋ฅผ ํ๊ฐํ๊ธฐ ์ํด ์ถ์ ๋ ๊ฐ์น ํจ์(estimated value function) ๋์
- ๊ธฐ์กด์ ๋จ์ ๊ทผ์ฌ ฮฝฬ_t(x_t) := r(xฬ_0(x_t))๋ฅผ ๊ฐ์ ํ๋ ๋ ์ ํํ ์ ๊ทผ๋ฒ ์ ์
๋ฃฉ์ดํค๋ ํด๋ฆฌ์คํฑ(Lookahead Heuristic):
- Algorithm 1์์ K ์คํ
์ ์ ํ์์ ํตํด ์ํํธ ๊ฐ์น ํจ์์ ๊ทผ์ฌ ์ ํ๋ ํฅ์
- ์์์ ์ถ๊ฐ ์๋ฎฌ๋ ์ด์
์ผ๋ก ๋ ์ ๋ขฐํ ๋งํ ์ค๊ฐ ๋
ธ๋ ํ๊ฐ ๊ฐ๋ฅ
๋
ธ์ด์ฆ ๋ ๋ฒจ ๊ธฐ๋ฐ ๋์ ์ค์ผ์ค๋ง:
- ๋
ธ์ด์ฆ ๋ ๋ฒจ์ ๋ฐ๋ผ ์ ์์ ์ผ๋ก ํธ๋ฆฌ ํ์ฅ ์ผ์ ์กฐ์
- ์ด๊ธฐ ๋จ๊ณ(๋์ ๋
ธ์ด์ฆ)์์ ๋์ ํ์, ํ๊ธฐ ๋จ๊ณ(๋ฎ์ ๋
ธ์ด์ฆ)์์ ์ ํ์ ํ์
Evaluation
์ดํ: DSearch๋ ํ์ฐ ๋ชจ๋ธ์ ์ถ๋ก ์๊ฐ ์ ๋ ฌ ๋ฌธ์ ๋ฅผ ์ฒด๊ณ์ ์ธ ํ์์ผ๋ก ์ฌํด์ํ ์ค์ฉ์ ์ด๊ณ ๊ฒฌ๊ณ ํ ๋ฐฉ๋ฒ๋ก ์ผ๋ก, ํนํ ๋น๋ฏธ๋ถ ๋ณด์ ํจ์๊ฐ ๋ง์ ๊ณผํ ๋ถ์ผ์์ ๋์ ์ ์ฉ ๊ฐ์น๋ฅผ ๊ฐ์ง๋ค. ๋ค๋ง ๋์ ์กฐ์ ๋ฉ์ปค๋์ฆ์ ์ด๋ก ์ ์ ๋นํ์ ์ต์ ์ฑ ๋ถ์์ด ๋ณด๊ฐ๋๋ฉด ๋์ฑ ๊ฐ๋ ฅํ ๊ธฐ์ฌ๊ฐ ๋ ์ ์์ ๊ฒ์ผ๋ก ํ๋จ๋๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
ํ์ฐ ๋ชจ๋ธ์ ์ถ๋ก ์๊ฐ ์ ์ด์ ์ ๋ ฌ์ ์ํ ์ด๋ก ์ ๊ธฐ์ด๋ฅผ ์ ๊ณตํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๊ณผํ ๋ถ์ผ LLM ๋ฐ ์์ฑํ ๋ชจ๋ธ ์๋ฒ ์ด๋ diffusion ๊ธฐ๋ฐ reward fine-tuning์ ๋ฐ์ ์ ๋งฅ๋ฝ์ ์ดํดํ๋ ๋ฐ ์ด๋ก ์ ๊ธฐ๋ฐ์ ์ ๊ณตํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Drugpilot ๋
ผ๋ฌธ์์ ํ๋ผ๋ฏธํฐํ๋ ์ถ๋ก ๊ธฐ๋ฐ์ ์์ด์ ํธ๋ฅผ ์ ์ํ์ฌ, ๋น๋ฏธ๋ถ ๋ณด์ ํจ์ ์ต์ ํ์ ๊ดํ ๋ฐฉ๋ฒ๋ก ์ ์์ฌ์ ์ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๋ํจ์ ๋ชจ๋ธ์ ์ธํผ๋ฐ์ค ์ ์ ๋ ฌ๊ณผ ๋ค์ค์ท ์ผ์น ๋ฌธ์ ์ ๋ํ ์ฌ๋ ์๋ ๋ถ์์ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Diffusion ๋ชจ๋ธ ๋ฐ ํ
์คํธํ์ reward alignment ๊ด๋ จ ๋ฉ์ปค๋์ฆ์ด ๋ฅ๋ํ์ต ์ํ๋ง์ ์ํฅ์ ์ค ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
555๊ฐ GAN ๊ธฐ๋ฐ์ด๋ผ๋ฉด 296์ diffusion ๋ชจ๋ธ์์ inference alignment๋ก ๋ถ์ ์์ฑ ์ฑ๋ฅ์ ๋์ด๋ ๋๋ค๋ฅธ ์ต์ ์ ๊ทผ์ ์๊ฐํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋ ๋
ผ๋ฌธ ๋ชจ๋ diffusion ๋ชจ๋ธ์ reward ๊ธฐ๋ฐ ๋ณด์ ๋ฌธ์ ๋ฅผ ๋ค๋ฃจ์ง๋ง, ์๋ก ๋ค๋ฅธ ์ต์ ํ ๋ฐฉ์๊ณผ ์คํ ํ๋กํ ์ฝ์ ์ ์ํ์ฌ ๋น๊ต ๋ถ์์ด ์ ์ฉํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
Inference-Time Alignment in Diffusion Models with Reward-Guided Search ๋
ผ๋ฌธ์ Diffusion ๋ชจ๋ธ ์ ๋ ฌ์์ ๋ณด์ ๊ธฐ๋ฐ ์ต์ ํ์ ๋ ๋ค๋ฅธ ๊ตฌํ ์ฌ๋ก์
๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
Dynamic multi-agent orchestration and retrieval ๋
ผ๋ฌธ์ ๋ค์ค ์์ด์ ํธ ๊ธฐ๋ฐ์ ๋ณต์กํ AI ์ฐ๊ตฌ ์์
์๋ํ์ ์ค์ ์ ๋๋ฉฐ, ์ฝ๋ ๊ธฐ๋ฐ ์ฌํ์ฑ ํ๊ฐ์ ์ํธ๋ณด์์ ์ ๊ทผ๋ฒ์ ์ ์ํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋น๋ฏธ๋ถ ๋ณด์ ํจ์๋ฅผ ์ํ ๋ค๋ฅธ ์ต์ ํ ์ ๊ทผ๋ฒ์ ํ์ฐ ๋ชจ๋ธ์ ์ ์ฉํ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋ถ์ ์ ํจ์ฑ ๋ณด์ฅ์ ์ํ ๋ค๋ฅธ ๊ทธ๋ํ ์์ฑ ๋ฐฉ๋ฒ๋ก ์ ์ ์ํ๋ ๋์์ ์ฐ๊ตฌ์ด๋ค
ํ์ ์ฐ๊ตฌ
ํ
์คํธํ์ reward-guided ์ ๋ ฌ์ ๋ํ FMVACC ๋์ iterative refinement ๋ฐฉ์์ ์ ์ฉํ์ฌ ์ค์๊ฐ ์ต์ ํ์ ๋ฐ์ ์ ๊ด์ ์ ๋ณด์ฌ์ค๋ค.
ํ์ ์ฐ๊ตฌ
296 ๋
ผ๋ฌธ์ ํ์ฐ ๋ชจ๋ธ์ ์ถ๋ก ์ ๋ ฌ ๋ฌธ์ ๋ฅผ ๋
ผ์ํ์ฌ, 3029์ ์์ ๊ถค์ ์์ฑ ์ ํ์ฉํ๋ ํต๊ณ/์์ฑ๋ชจ๋ธ์ ์ต์ ๊ธฐ๋ฒ๊ณผ ์ฐ๊ฒฐ๋๋ค.
ํ์ ์ฐ๊ตฌ
๋์ ๋น ํ์์ ํตํ ํ์ฐ ๋ชจ๋ธ ์ ๋ ฌ์ ํจ์จ์ฑ ํฅ์์ ์ถ๊ฐ์ ์ผ๋ก ํ์ฅํ๋ค.