์ ์: Dengyun Peng, Yuhang Zhou, Qiguang Chen, JinHao Liu, Jingjing Chen, Libo Qin, Wanxiang Che | ๋ ์ง: 2025 | DOI: ๋ฏธ์ ๊ณต 📄 PDF
๊ทธ๋ฆผ 1: ๋ฐ์ฌ ๊ธฐ๋ฐ ํ๋กฌํํธ ์ต์ ํ ๋ฐฉ๋ฒ๊ณผ DLPO์ ๋น๊ต - ๊ฒฌ๊ณ ์ฑ, ํจ์จ์ฑ, ์ผ๋ฐํ ๋ฅ๋ ฅ ๊ฐ์
๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ ํ๋กฌํํธ ์ต์ ํ์์ ๊ธฐ์กด ๋ฐ์ฌ(reflection) ๊ธฐ๋ฐ ๋ฐฉ๋ฒ์ ๋ถ์์ ์ฑ, ๋ฎ์ ์๋ ด ์๋, ์ ํ๋ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ํด๊ฒฐํ๊ธฐ ์ํด ์ ํต ๋ฅ๋ฌ๋ ๊ธฐ๋ฒ์์ ์๊ฐ์ ์ป์ 7๊ฐ์ง ํ ์คํธ ๊ธฐ๋ฐ ๊ทธ๋๋์ธํธ ์ต์ ํ ์ ๋ต์ ์ ์ํ๋ค. ์ด๋ฅผ ํตํด ํ๋กฌํํธ ์ต์ ํ์ ๊ฒฌ๊ณ ์ฑ(robustness), ํจ์จ์ฑ(efficiency), ์ผ๋ฐํ ๋ฅ๋ ฅ(generalizability)์ ๋์์ ํฅ์์ํจ๋ค.
๊ทธ๋ฆผ 3: ๊ธฐ์กด ๋ฐฉ๋ฒ์ ๋ถ์์ ์ฑ, ๋ฎ์ ํจ์จ์ฑ, ์ ํ๋ ์ผ๋ฐํ ๋ฅ๋ ฅ ๋ถ์
๊ทธ๋ฆผ 2: ๋ฐ์ฌ ๊ธฐ๋ฐ ํ๋กฌํํธ ์ต์ ํ์ ์ ๋ฐฉํฅ(Forward)๊ณผ ์ญ๋ฐฉํฅ(Backward) ์์ง
๊ฒฌ๊ณ ์ฑ ๊ฐ์ ๋ฐฉ๋ฒ:
ํจ์จ์ฑ ๊ฐ์ ๋ฐฉ๋ฒ:
์ผ๋ฐํ ๊ฐ์ ๋ฐฉ๋ฒ:
์ดํ: ์ด ๋ ผ๋ฌธ์ ํ๋กฌํํธ ์ต์ ํ์ ๊ทผ๋ณธ์ ์ธ ๋ฌธ์ ๋ค(๊ฒฌ๊ณ ์ฑ, ํจ์จ์ฑ, ์ผ๋ฐํ)์ ์ฒด๊ณ์ ์ผ๋ก ์ง๋จํ๊ณ ๋ฅ๋ฌ๋ ํจ๋ฌ๋ค์์์ ์๊ฐ์ ์ป์ ์ผ๊ด์ฑ ์๋ ํด๊ฒฐ์ฑ ์ ์ ์ํ ์ ์์ ๋์ด ํ๊ฐํ ๋งํ๋ค. ๋ค๋ง ์ ํ๋ ์์ ์ ํ, ๋ถ์ถฉ๋ถํ ablation study, ๊ณ์ฐ ์ค๋ฒํค๋ ๋ถ์ ๋ถ์ฌ ๋ฑ์ผ๋ก ์ธํด ์์ ํ 5์ ํ๊ฐ์๋ ๋ฏธ์น์ง ๋ชปํ๋ค. LLM ๊ธฐ๋ฐ ์๋ ์ต์ ํ ๋ถ์ผ์ ์ค์ง์ ์ธ ๊ธฐ์ฌ๋ฅผ ํ๋ ์๋ฏธ ์๋ ์์ ์ด๋ค.