Essence
๋ฏธ๋ถ ๊ฐ๋ฅ ์๋ฎฌ๋ ์ดํฐ ๊ธฐ๋ฐ์ 1์ฐจ ์ ์ฑ
์ต์ ํ(first-order policy gradient) ๋ฐฉ๋ฒ์ ์ํ ํจ์จ์ฑ์ ์ฐ์ํ๋ ์ผ๋ฐํ ์ฑ๋ฅ์ด ๋จ์ด์ง๋ค๋ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, Sharpness-Aware Minimization (SAM) ๊ธฐ๋ฒ์ ๋ก๋ด ๊ฐํํ์ต์ ์ฒ์ ๋์
ํ ์ฐ๊ตฌ์ด๋ค. SHAC-ASAM ์๊ณ ๋ฆฌ์ฆ์ ํตํด ์์ค ํจ์์ ํํํ ๊ทน์์ (flat minima)์ ์ฐพ์์ผ๋ก์จ ์ ์ด ๊ธฐ๋ฐ ๋ก๋ด ์ ์ด ํ๊ฒฝ์์ ๊ฒฌ๊ณ ์ฑ๊ณผ ํจ์จ์ฑ์ ๋์์ ๋ฌ์ฑํ๋ค.
Evaluation
์ดํ: SHAC๊ณผ ASAM์ ๊ฒฐํฉ์ ํตํด ๋ฏธ๋ถ ๊ฐ๋ฅ ์๋ฎฌ๋ ์ดํฐ ๊ธฐ๋ฐ ์ ์ฑ
ํ์ต์์ ์ํ ํจ์จ์ฑ๊ณผ ๊ฐ๊ฑด์ฑ ์ฌ์ด์ ๊ท ํ์ ํจ๊ณผ์ ์ผ๋ก ๋ฌ์ฑํ ์ค์ฉ์ ์ ๊ทผ์ด๋, ์ค์ ๋ก๋ด ๊ฒ์ฆ๊ณผ ์ด๋ก ์ ๋ถ์ ๊ฐํ๊ฐ ํ์ํ๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
688์ ์คํ๋ผ์ธ ๊ฐํํ์ต์ ์ผ๋ฐํ ํ๊ฐ์ ๋ค์ํ ํ๊ฒฝ ๋ด ๊ฐ์ธ์ฑ ์คํ์ ๋ค๋ค์, 422์ sharpness-aware minimization ์ ์ฉ ์ ์คํ์ ์ฐธ์กฐ๊ฐ ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๋ก๋ด ์ ์ฑ
์ ์ผ๋ฐํ์ RL ํ์ต์์ LLM ํ์ฉ ๋ฐ scaling ์ ๋ต์ ๋ํ ์ด๋ก ์ ๊ธฐ๋ฐ์ ์ ๊ณตํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
Iterative Distillation for Reward-Guided Fine-Tuning of Diff ๋
ผ๋ฌธ์ด ๋ณด์-์ ๋ ๋ฏธ์ธ์กฐ์ ์ ํตํ ํ์ฐ๋ชจ๋ธ ์ผ๋ฐํ ํ์์ ์๋ํ ์ ์์ ๋ก๋ด ์ ์ฑ
์ต์ ํ์ SAM์ ์ ์ฉํ ๋ณธ ๋
ผ๋ฌธ์ ๋์์ ์ฑ๊ฒฉ์ ์ง๋๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
395 ๋
ผ๋ฌธ์ ์ ์ด ์ฅ๋ฒฝํจ์๋ฅผ ํตํด ์์ ํ ๊ฐํํ์ต ์ ์ฑ
์ ์ง์ ์ ์ผ๋ก ๋ผ์๋ฃ๋ ๋ค๋ฅธ ์ ๊ทผ๋ฒ์ ์ค๋ช
ํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋ก๋ด ์ ์ด์์ ๊ฐํํ์ต(SAM ๊ธฐ๋ฐ)๊ณผ PINN-UKF์ ์ผ์๋ฆฌ์ค ํ ํฌ ์ ์ด๋ผ๋ ๋ ๊ฐ์ง ์์ดํ ๋ฌผ๋ฆฌ๊ธฐ๋ฐ ์ ๊ทผ๋ฒ์ ๋ณด์ฌ์ค๋๋ค.
ํ์ ์ฐ๊ตฌ
LLM๊ณผ ๊ฐํํ์ต ๊ธฐ๋ฐ ๊ณผ์ ์๋ํ๋ก, ์ ์ฑ
์ต์ ํ/์ผ๋ฐํ์ ํ๊ณ๋ฅผ ์์ด์ ํธ ์ค๊ณ ๊ด์ ์์ ๋ณด๋ค ์คํ์ ์ผ๋ก ํ์ฅํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
์ถ๋ก ๋จ๊ณ์์์ ๋ณด์/์ ๋ ฌ ๊ฐ์ ๊ธฐ๋ฒ ๋ฑ SHAC-ASAM๊ณผ ์ ์ฌํ ๊ฐํํ์ต reward optimization ๋ฐฉ๋ฒ๋ก ์ ๋ฐ์ ๋ฐฉํฅ์ ์ ์ํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
๋ก๋ด ๋ณดํ ๋ฑ ์ค์ธ๊ณ ์ ์ฑ
์ผ๋ฐํ ๋ฐ ๊ณต์ ๋ฅผ ์ํ ๋ฐ์ดํฐ์
๊ตฌ์ถ์ ์ง์คํ์ฌ, 010์์ ์ ์ํ ๋ณดํ ์ ์ด ๊ณ์ธตํ์ ์ค์ ์ ์ฉ์ฑ์ ์ง๊ฒฐ์์ผ ๋ณผ ์ ์์.