Essence
Figure 1: SELF-REFINE์ ๊ธฐ๋ณธ ์๋ ์๋ฆฌ. ๋์ผํ ๋ชจ๋ธ M์ด ์ด๊ธฐ ์์ฑ, ํผ๋๋ฐฑ ์ ๊ณต, ๊ฐ์ ์ ๋ฐ๋ณต์ ์ผ๋ก ์ํ
๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ด ์์ ์ ์ถ๋ ฅ์ ๋ํด ํผ๋๋ฐฑ์ ์ ๊ณตํ๊ณ ์ด๋ฅผ ๋ฐํ์ผ๋ก ์๋์ผ๋ก ๊ฐ์ ํ๋ ๋ฐ๋ณต์ ์๊ธฐ ์ ์ ๋ฐฉ์์ ์ ์ํ๋ค. ์ถ๊ฐ ํ๋ จ์ด๋ ์ธ๋ถ ๋ณด์ ๋ชจ๋ธ ์์ด ๋จ์ผ LLM๋ง์ผ๋ก ์ฝ 20% ์ ๋ ์ฑ๋ฅ ํฅ์์ ๋ฌ์ฑํ๋ค.
Evaluation
์ดํ: ์ด ๋
ผ๋ฌธ์ ๊ฑฐ๋ ์ธ์ด ๋ชจ๋ธ์ด ์์ ์ ํผ๋๋ฐฑ์ ํตํด ๋ฐ๋ณต์ ์ผ๋ก ์ค์ค๋ก๋ฅผ ๊ฐ์ ํ ์ ์๋ค๋ ๊ฐ๋จํ๋ฉด์๋ ํจ๊ณผ์ ์ธ ์์ด๋์ด๋ฅผ ์ ์ํ๋ค. ์ถ๊ฐ ํ๋ จ ์์ด ๊ธฐ์กด LLM์ ์ฆ์ ์ ์ฉ ๊ฐ๋ฅํ๋ฉด์๋ ํ๊ท 20% ์ฑ๋ฅ ํฅ์์ ๋ฌ์ฑํ์ฌ ์ค๋ฌด์ ๊ฐ์น๊ฐ ๋์ผ๋, ๊ณ์ฐ ๋น์ฉ ์ฆ๊ฐ, ํผ๋๋ฐฑ ํ์ง ์์กด์ฑ, ์ผ๋ถ ์์
์์์ ์ ํ๋ ํจ๊ณผ ๋ฑ์ด ๊ฐ์ ๊ณผ์ ๋ก ๋จ์์๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
470์ LLM์ ์๊ธฐ ๊ฐ์ ๊ฐ๋ฅ์ฑ์ ๋ํ ์ด๋ก ์ /์คํ์ ๋
ผ์๋ก 746์ ๊ธฐ์ด์ ๋ฐฐ๊ฒฝ์ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Self-Refine ๋
ผ๋ฌธ์ LLM์ด ๋ฐ๋ณต์ ์ผ๋ก ์๊ธฐํ๊ฐ ๋ฐ ๋ณด์ ํ์ต์ ์ํํ๋ ๊ธฐ์ด์ ์๊ณ ๋ฆฌ์ฆ ์๋ฆฌ๋ฅผ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Iterative Self-Refinement ๊ธฐ๋ฐ LLM ๊ตฌ์กฐ๋ฅผ ์ ์ํ๋ฉฐ, ํ๋ฃจํ ํ์คํฌ ํ๋๋์ ์๊ธฐ์์ ์ธก๋ฉด์์ ์์ด๋์ด๊ฐ ์ฐ๊ฒฐ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Self-Refine๋ ์๊ธฐ ํผ๋๋ฐฑ์ ํตํ LLM ๋จ๊ณ๋ณ ์ถ๋ก ๊ฐ์ ๊ธฐ๋ฒ์ ์ ์ํ์ฌ, RM-R1์ ๋ณด์๋ชจ๋ธ ์ถ๋ก ๋ฉ์ปค๋์ฆ๊ณผ ๊ธด๋ฐํ๊ฒ ์ฐ๊ฒฐ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๋ชจ๋ธ์ ์์ฒด feedback ๊ธฐ๋ฐ ๋ฐ๋ณต ๊ฐ์ ์ฐ๊ตฌ๋ก, ์ํธ์์ฉ ์ ์๊ธฐ๊ฐ์ ๊ฐ๋ฅ์ฑ ๋ฐ ํ๊ณ๋ฅผ ์ด๋ก ์ ์ผ๋ก ๋ท๋ฐ์นจํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
743์ ๋ฐ๋ณต์ ์๊ธฐ๋นํ ๊ธฐ๋ฐ ์ง์์๋ต ํ์ดํ๋ผ์ธ์ 746(Self-Refine)์์ ์ ์๋ ์
ํ ํผ๋๋ฐฑ ๋ฐ๋ณต๊ฐ์ ๋ฉ์ปค๋์ฆ์ ์ง์ ์ ์ธ ์ํฅ์ ๋ฐ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
Self-Refine ๋
ผ๋ฌธ์ LLM์ iterative self-feedback์ ํตํ ๋ต๋ณ ๊ฐ์ ๊ตฌ์กฐ๋ฅผ ์ ์ํ๋ฉฐ, ์๊ธฐ ๊ฐ์ ๊ณผ ์๊ธฐ ์ ๊ฒ์ ๋ํฅ์ ๊ฐ์ด ์ดํดํ ์ ์๋ค.
๋ค๋ฅธ ์ ๊ทผ
self-refinement vs consistency prompting ๋ฑ LLM ์ถ๋ ฅ ์๊ธฐ ๊ฐ์ ๊ธฐ๋ฒ์ ์์ดํ ํจ๊ณผ์ ํ๊ณ๋ฅผ ๋น๊ตํ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
242๋ ๋๊ตฌ ์ํธ์์ฉ ๊ธฐ๋ฐ ์๊ธฐ ์์ ํ๋ ์์ํฌ๋ก, 746์ ์๊ธฐ ํผ๋๋ฐฑ ๋ฐ๋ณต ๊ตฌ์กฐ ๋ฐฉ์๊ณผ ๋์กฐ์ ์ธ ๊ธฐ์ ์ ๋ณด์ฌ์ค๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
746๋ฒ ๋
ผ๋ฌธ์ Self-Refine์ ๋ฐ๋ณต์ ์๊ธฐ ํผ๋๋ฐฑ ํ๋ ์์ํฌ๋ฅผ ํตํด LLM์ ์
์ถ๋ ฅ ํ์ง ๊ฐ์ ์ ๋ฌ์ฑํ๋ฉฐ, 876๋ฒ ๋
ผ๋ฌธ์์ ๋ค๋ฃจ๋ ๊ณ ํ์ง ๋ค์ค ํ ๋ฐ์ดํฐ ์์ฑ ๋ฐฉ์๊ณผ ๋์กฐ์ ์ผ๋ก ์ ๊ทผํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
Selfcheck ๋
ผ๋ฌธ์ LLM์ ์ถ๋ก ๋จ๊ณ์์ ์๊ธฐ ๊ฒ์ฆ์ ํตํด ํ์ง ํฅ์์ ๋๋ชจํด, Critique-GRPO์ ์ธ๋ถ ์์ฐ์ธ์ด ๋นํ๊ณผ ๋ค๋ฅธ ์ ๊ทผ์ ๋ณด์ฌ์ค๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
Self-Refine ๋
ผ๋ฌธ์ LLM์ ์๊ธฐ ํผ๋๋ฐฑ ๊ธฐ๋ฐ ๋ฐ๋ณต ๊ฐ์ ๋ฐฉ๋ฒ์ ์ ์ํ์ฌ ํ๋กฌํํธ ์ต์ ํ์ self-improvement ์ ๊ทผ๋ฒ๊ณผ ๋๋นํ์ฌ ์ฐธ๊ณ ํ ๋งํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
746์ ์ค์ค๋ก ์๊ธฐ ํผ๋๋ฐฑ์ ํตํ ์ ์ง์ ์ถ๋ก ์ฑ๋ฅ ๊ฐ์ ์ ๊ตฌํํ์ฌ, 249์ ๋์ด๋ ๊ธฐ๋ฐ ์ปค๋ฆฌํ๋ผ ํ์ต ๋ฐฉ์๊ณผ๋ ๋ค๋ฅด์ง๋ง ์ ์ฌ ๋ฌธ์ ๋ฅผ ๋ค๋ฅธ ๋ฐฉ๋ฒ์ผ๋ก ์ ๊ทผํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
์ค์ค๋ก feedback์ ํตํด ์ฑ๋ฅ์ ์ ์ง์ ์ผ๋ก ๊ฐ์ ํ๋ iterative refinement ๋ฐฉ๋ฒ๊ณผ generation-verification gap์ ๋ฒค์น๋งํน ์ฐจ์ด๋ฅผ ๋น๊ตํ ์ ์์ต๋๋ค.
ํ์ ์ฐ๊ตฌ
Self-Refine๋ LLM ์์ฒด ์ค๋ฅ์์ /๋ฐ๋ณต ๊ฐ์ ๊ตฌ์กฐ๋ฅผ ์๋ํํ์ฌ ์ธ๊ฐ ํผ๋๋ฐฑ ์ฐ๊ณ ๋ชจ๋ธ์ ์ค์ ๋ก ํ์ฅ ์ ์ฉํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
Self-Refine ๋
ผ๋ฌธ์ self-feedback ๋ฐ ๋ฐ๋ณต์ ์์ฒด ๊ฐ์ ํ๋ ์์ํฌ๋ก ReAct์ ๋ฐฉ๋ฒ๋ก ์ ํ์ฅํ๋ค.
ํ์ ์ฐ๊ตฌ
๋ชจ๋ธ ๊ธฐ๋ฐ ๋ฐ๋ณต์ ์๊ธฐ ๋๋ฒ๊น
(self-debug) ์ ๋ต์ ๊ดํ ์ด๋ก ์ /์คํ์ ๋ถ์์ด self-feedback ๋ฐฉ์์ ์ค์์ฑ๊ณผ ํ๊ณ๋ฅผ ๋ช
ํํ ํด์ค๋๋ค.
ํ์ ์ฐ๊ตฌ
746 ๋
ผ๋ฌธ์ Self-Check์ ์ ์ฌํ ์๊ธฐ ํผ๋๋ฐฑ ๋ฐ ์๊ธฐ์ ์ ๋ฉ์ปค๋์ฆ์ ๋ฐ๋ณต์ ์ฝ๋ ๊ฐ์ ์ ์ ์ฉ, 747 ๋ฐฉ์์ ์ค์ ํจ๊ณผ๋ฅผ ์ฝ๋ ๋ถ์ผ๋ก ๊ฒ์ฆํ๋ค.
ํ์ ์ฐ๊ตฌ
Self-Refine ๋
ผ๋ฌธ์ LLM ์ฐ์ถ๋ฌผ์ ๋ฐ๋ณต์ ์๊ธฐ ํผ๋๋ฐฑ ๋ฐ ์์ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ์ฌ, ์๋ํ๋ ๋ฆฌ๋ทฐ ์์ฑ์ ๋์ฑ ๊ณ ๋ํํ๋ ์ค์ง์ ํ์ ์ ๊ทผ์ ์ ๊ณตํ๋ค.
ํ์ ์ฐ๊ตฌ
Self-Refine ๋ฑ ๋ฐ๋ณต์ ์๊ธฐ ํผ๋๋ฐฑ ํ์ฉ ์ฐ๊ตฌ๊ฐ ๋ฌธ๋งฅ ๋ด ํ์ต ์์ฐ ๋ค์์ฑ ํ๋ณด ๋ฐ ์ฑ๋ฅ ํฅ์ ๋ฉ์ปค๋์ฆ์ ์ค์ ์ ์ผ๋ก ํ์ฅํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
746 ๋
ผ๋ฌธ์ LLM์ ์๊ธฐ ํผ๋๋ฐฑ ๊ธฐ๋ฐ ๋ฐ๋ณต์ ์ ์ (framework)๋ฅผ ํ์ฉํ๋ฉฐ, 752์ ์ธ๊ฐ ๋ณด์กฐ ํ์์ฑ ๋
ผ์์ ๋ฐฉ๋ฒ์ ํ์ฅ์ ์ ์ ์ํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
447์ ์๊ธฐ ์ธ์ผํฐ๋ธ ๊ตฌ์กฐ๋ฅผ ํตํ LLM ์๊ธฐ๊ฐ์ ๋ฐฉ์์ ์ ์ํ์ฌ, 746์ ์๊ธฐ ์ ์ ์์ด๋์ด๋ฅผ ๋ฐ์ ์ํต๋๋ค.
ํ์ ์ฐ๊ตฌ
449์ RL ๊ธฐ๋ฐ ์ถ๋ก ์ฑ๋ฅ ํฅ์์ 746์ iterative refinement์ self-feedback ๊ฐ๋
์ผ๋ก ๊ธฐ์ ์ ์ผ๋ก ํ์ฅ๋ ์ ์๋ค.
ํ์ ์ฐ๊ตฌ
Self-Refine ๋
ผ๋ฌธ์ ์๊ธฐ ํผ๋๋ฐฑ ๊ธฐ๋ฐ ๋ฐ๋ณต์ ์ถ๋ก ๊ฐ์ ๋ฐฉ๋ฒ์ ์ ์ํ๋ฉฐ, PAG์ ๋ฉํฐํด ๊ฐํ ์๊ธฐ์์ ์ ๊ทผ๊ณผ ๋น๊ตํด๋ณผ ์ ์์ต๋๋ค.
ํ์ ์ฐ๊ตฌ
833 ๋
ผ๋ฌธ์ด ๊ตฌ์ฒด์ ์ผ๋ก Long CoT ๊ธฐ๋ฐ ์ถ๋ก ๋ชจ๋ธ์ ๋ถ์ํ๋ ํํธ, 746 ๋
ผ๋ฌธ์ ์๊ธฐ๋ฐ๋ณต์ ํตํ ์ฒด์ธ์ค๋ธ์ํธ ๊ฐ์ ์ ๊ตฌํํด Long CoT ํจ๋ฌ๋ค์์ ์ค์ ํจ๊ณผ ์ธก๋ฉด์ ๋ณด์ฌ์ค๋ค.
๋ฐ๋ก /๋นํ
LLM์ ์
ํ ํผ๋๋ฐฑ ๋ฐ ์๊ธฐ ์ ์ ๊ฐ ๊ธฐ๋๋งํผ ํจ๊ณผ์ ์ด์ง ๋ชปํ ์ ์์์ ๋นํ์ ์ผ๋ก ๋
ผ์ฆํฉ๋๋ค.