Essence
CRITIC ํ๋ ์์ํฌ: ์ธ๋ถ ๋๊ตฌ์ ์ํธ์์ฉํ์ฌ ๊ฒ์ฆ(Verify)ํ ํ ๋นํ(Critique)์ ๊ธฐ๋ฐํด ์์ (Correct)ํ๋ ๋ฐ๋ณต ๊ณผ์
๋๊ท๋ชจ ์ธ์ด๋ชจ๋ธ(LLM)์ด ์ธ๋ถ ๋๊ตฌ(๊ฒ์์์ง, ์ฝ๋ ์ธํฐํ๋ฆฌํฐ ๋ฑ)์ ์ํธ์์ฉํ์ฌ ์์ ์ ์ถ๋ ฅ์ ๊ฒ์ฆํ๊ณ ๋ฐ๋ณต์ ์ผ๋ก ์๊ฐ์์ (self-correct)ํ ์ ์๋๋ก ํ๋ ํตํฉ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค. ์ธ๊ฐ์ ๋นํ์ ์ฌ๊ณ ๋ฐฉ์์ ๋ชจ๋ฐฉํ์ฌ ํ ๋ฃจ์๋ค์ด์
, ์ฝ๋ ์ค๋ฅ, ๋
์ฑ ์ฝํ
์ธ ๋ฑ์ ๋ฌธ์ ๋ฅผ ์ํํ๋ค.
How
๋ฐ๋ณต ๊ณผ์ ์ ํตํ ์ฑ๋ฅ ๋ณํ: QA, GSM8k ์ํ ์ถ๋ก , ๋
์ฑ ๊ฐ์ ๊ณผ์ ๋ณ ๋ฐ๋ณต ํ์์ ๋ฐ๋ฅธ ๊ฐ์ ์ถ์ด
์๊ณ ๋ฆฌ์ฆ (Algorithm 1):
- ์ด๊ธฐํ(1๋จ๊ณ): ์
๋ ฅ x์ ๋ํด ๋ชจ๋ธ M์ด ์ด๊ธฐ ์ถ๋ ฅ ลทโ ์์ฑ
- ๊ฒ์ฆ(3๋จ๊ณ): ํ๋กฌํํธ โ, ์ด๊ธฐ ์ถ๋ ฅ ลทแตข๋ฅผ ํฌํจํ ์ปจํ
์คํธ์์ LLM์ด ์ธ๋ถ ๋๊ตฌ T(๊ฒ์์์ง, ์ฝ๋ ์ธํฐํ๋ฆฌํฐ, ๊ณ์ฐ๊ธฐ ๋ฑ)์ ์ํธ์์ฉํ์ฌ ๋นํ cแตข ์์ฑ
- ์ค๋จ ์กฐ๊ฑด(4-6๋จ๊ณ): ์์ฑ๋ ๋นํ์ด ํ์ฌ ์ถ๋ ฅ์ด ์ ํํจ์ ๋ํ๋ด๋ฉด ๋ฐํ
- ์์ (7๋จ๊ณ): ์
๋ ฅ, ์ด์ ์ถ๋ ฅ, ๋นํ์ ๋ชจ๋ ํฌํจํ ์ปจํ
์คํธ์์ ๊ฐ์ ๋ ์ถ๋ ฅ ลทแตขโโ ์์ฑ
- ๋ฐ๋ณต(2-8๋จ๊ณ): n๋ฒ ๋ฐ๋ณตํ๊ฑฐ๋ ์ค๋จ ์กฐ๊ฑด ๋ง์กฑ ์ ์ข
๋ฃ
ํต์ฌ ํ๋กฌํํธ ์ ๋ต:
- ๊ฒ์ฆ ๋จ๊ณ: "์ ๋ต๋ณ์ ๋ฌธ์ ์ ์ ๋ฌด์์ธ๊ฐ?" ํํ๋ก LLM์ ํ๊ฐ ๋ฅ๋ ฅ ํ์ฉ
- ๋นํ ์์ฑ: ํ๋น์ฑ(Plausibility), ์ ํ์ฑ(Correctness), ์ง์ค์ฑ(Truthfulness) ๋ฑ ๋ค์ฐจ์์ ๊ฒ์ฆ
- ๋๊ตฌ ํ์ฉ: API ํธ์ถ ๊ฒฐ๊ณผ(๊ฒ์ ์ฟผ๋ฆฌ, ์ฝ๋ ์คํ ๊ฒฐ๊ณผ ๋ฑ)๋ฅผ ํ๋กฌํํธ์ ์๋ ํฌํจ
- ๊ณผ์ ํนํ: QA๋ ํฉํธ์ฒดํฌ, ์ํ์ ์ฝ๋ ์คํ ๊ฒ์ฆ, ๋
์ฑ์ ๋
์ฑ ๊ฐ์ง๊ธฐ ํ์ฉ
Evaluation
์ดํ: CRITIC์ LLM์ ์๊ฐ์์ ๋ฌธ์ ๋ฅผ ์ธ๋ถ ๋๊ตฌ ์ํธ์์ฉ์ผ๋ก ์ฐ์ํ๊ฒ ํด๊ฒฐํ๋ฉฐ, ์ถ๊ฐ ํ์ต ์์ด ๋ฒ์ฉ์ ์ผ๋ก ์ ์ฉ ๊ฐ๋ฅํ ์ค์ฉ์ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค๋ ์ ์์ ๋์ ๊ฐ์น๊ฐ ์๋ค. ๋ค๋ง ๋๊ตฌ ํ์ง ์์กด์ฑ, ํ๋กฌํํธ ์ค๊ณ์ ์์์
ํ์์ฑ, ๊ณ์ฐ ๋น์ฉ ์ฆ๊ฐ ๋ฑ์ ์ค๋ฌด์ ์ ์ฝ์ด ์์ผ๋ฉฐ, ์ด๋ค์ ๋ณด์ํ๋ ์ถ๊ฐ ์ฐ๊ตฌ๊ฐ ํ์ํ๋ค. ICLR 2024 ์ฑํ๋ ๊ฒ์ ๊ณ ๋ คํ๋ฉด LLM ์ ๋ขฐ์ฑ ๊ฐ์ ๋ถ์ผ์์ ์๋ฏธ ์๋ ๊ธฐ์ฌ๋ฅผ ํ ๊ฒ์ผ๋ก ํ๊ฐ๋๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
Reasoning๊ณผ Acting์ ๊ฒฐํฉ(์ฆ, ๋๊ตฌ์์ ์ฐ๋ ๊ฐํ)์ด 242 ํ๋ ์์ํฌ์ ๋ฐฉ๋ฒ๋ก ์ ๊ทผ๊ฐ์ผ๋ก ํ์ฉ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
745๋ LLM ์๊ธฐ๊ฒ์ฆ/์๊ธฐ์ ์ ์ ๋ค์ํ ํจ๋ฌ๋ค์์ ์ ์ํด, 242๊ฐ ์ถ๊ตฌํ๋ ์๊ธฐ์์ ํ๋ ์์ํฌ์ ์ด๋ก ์ ๋ฐฐ๊ฒฝ์ด ๋ฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
746์ ์๊ธฐ ํผ๋๋ฐฑ ๊ธฐ๋ฐ ์๊ธฐ ์ ์ ๋ฐฉ์์ ์ ์ํด, 242์ ์ธ๋ถ ๋๊ตฌ ์ํธ์์ฉ ๊ธฐ๋ฐ ์๊ธฐ์์ ๊ณผ ๋์กฐ๋ฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
CRITIC ๋
ผ๋ฌธ์ LLM์ด ๋๊ตฌ๋ฅผ ํ์ฉํ ๋๋ง ์๊ธฐ ์์ ์ด ๊ฐ๋ฅํ๋ค๋ ์ ์ ์ ์ํ๋ฉฐ, ์ธ๋ถ ํผ๋๋ฐฑ/ํด ๋ด์ฅ ๋ฑ ์ฐจ์ด์ ์ ์ค์ฆ์ ์ผ๋ก ๋น๊ตํ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
242 ๋
ผ๋ฌธ์ ์ธ๋ถ ํด์ ํ์ฉํ ์๊ธฐ๊ฒ์ฆ LLM ํ๋ ์์ํฌ๋ฅผ ์ ์ํ์ฌ, 747์ ํจ์ด LLM ์๊ธฐ ํ์ธ ๋ฐฉ์๊ณผ์ ์ฐจ์ด๋ฅผ ํ์ธํ ์ ์๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM์ ์๊ธฐ์์ ๋ฅ๋ ฅ ๊ณ ๋ํ์์, 242๋ ๋๊ตฌ ์ํธ์์ฉ ํตํ ๋ฐ๋ณต์ ๊ฒ์ฆ, 598์ ์ ์ฑ
๋ณํ RL ๊ธฐ๋ฐ ๋ค์คํด Self-Correction์ ์๋ํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋ ๋ค LLM์ ๋ค๋จ๊ณ, ์ฒด์ธ์ค๋ธ์ํธ(Chain-of-Thought) ์ถ๋ก ๊ณผ์ ๋ถ์์ ์ด์ ์ ๋์ง๋ง, 242๋ ๋๊ตฌ์์ ์ํธ์์ฉ ๊ธฐ๋ฐ ์๊ฐ์์ ์ ์ง์คํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
242๋ฒ ๋
ผ๋ฌธ์ ๋๊ตฌ์ ๊ฒฐํฉํด LLM์ด ์๊ธฐ-์์ ๋ฐ ์ฆ๊ฑฐ ๊ธฐ๋ฐ ์ถ๋ก ์ ํจ์จ์ ์ผ๋ก ์ํํ๋ ๋ฐฉ์์ ์ ์ํ์ฌ, Toolformer์ ์๊ฐ๊ฐ๋
๋๊ตฌ์ฌ์ฉ ํ์ต๊ณผ ์ง๊ฒฐ๋ฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
LLM ์๊ธฐ์์ (Self-Correction) ํ๋ ์์ํฌ์์ 242๋ ๋๊ตฌ์ํธ์์ฉ ๋ฐํ, 598์ ์ ์ฑ
๊ณผ ๊ฒ์ฆ์ RL ํ์ฉ์ ํตํ ๋ช
์์ ์ค๋ฅ ์๊ธฐ์ ์ ์ ์๋ํฉ๋๋ค.
๋ฐ๋ก /๋นํ
Large Language Models Cannot Self-Correct Reasoning Yet ๋
ผ๋ฌธ์ LLM์ ์๊ธฐ ์์ ๋ฅ๋ ฅ์ ์ค์ ์ ํ๊ณ๋ฅผ ๋นํ์ ์ผ๋ก ๋ถ์ํ์ฌ, ์๊ธฐ๊ต์ ํ๋ ์์ํฌ์ ์ฝ์ ๋
ผ์์ ๋ณด์ ํ์์ฑ์ ์ฐธ๊ณ ๋ ์ ์์ต๋๋ค.