Essence
๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)๋ค์ ์ธ๋ถ ํผ๋๋ฐฑ ์์ด ์์ ์ ์ถ๋ก ์ค๋ฅ๋ฅผ ์๋์ผ๋ก ์์ ํ์ง ๋ชปํ๋ฉฐ, ์คํ๋ ค ์๊ธฐ ์์ (self-correction) ํ ์ฑ๋ฅ์ด ์ ํ๋๋ค๋ ๊ฒ์ ์ค์ฆ์ ์ผ๋ก ์ฆ๋ช
ํ๋ค.
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 5/5 Clarity: 5/5 Overall: 4.5/5
์ดํ: ์ด ๋
ผ๋ฌธ์ LLM์ ์๊ธฐ ์์ ๋ฅ๋ ฅ์ ๋ํ ๊ธฐ์กด ๋๊ด์ ์ฃผ์ฅ๋ค์ ์ฒด๊ณ์ ์ผ๋ก ๋นํํ๊ณ ์ค์ ํ๊ณ๋ฅผ ์
์ฆํจ์ผ๋ก์จ, ์ด ๋ถ์ผ์ ํ๊ฐ ๊ธฐ์ค์ ๋์ด๊ณ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ์ ์ฌ์ค์ ํ๋ ์ค์ํ ๊ธฐ์ฌ๋ฅผ ํ๋ค. ํนํ ์ธ๋ถ ํผ๋๋ฐฑ ์๋ ์ค์ ์กฐ๊ฑด์์์ ์ฑ๋ฅ ํ๊ฐ๋ ์ค์ฉ์ ๊ฐ์น๊ฐ ๋๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๋ค๋ฅธ ์ ๊ทผ
CRITIC ๋
ผ๋ฌธ์ LLM์ด ๋๊ตฌ๋ฅผ ํ์ฉํ ๋๋ง ์๊ธฐ ์์ ์ด ๊ฐ๋ฅํ๋ค๋ ์ ์ ์ ์ํ๋ฉฐ, ์ธ๋ถ ํผ๋๋ฐฑ/ํด ๋ด์ฅ ๋ฑ ์ฐจ์ด์ ์ ์ค์ฆ์ ์ผ๋ก ๋น๊ตํ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
683๋ฒ ๋
ผ๋ฌธ์ Reasoning ๊ธฐ๋ฐ์ Reward Modeling์ ํตํด LLM ์๊ธฐ๊ต์ ์ ์กฐ๊ฑด๊ณผ ๊ฐ๋ฅ์ฑ์ ํญ๋๊ฒ ๋ถ์ํ์ฌ 471๋ฒ์ ๋นํ์ ๊ฒฐ๋ก ๊ณผ ๊ท ํ ์๊ฒ ์ฝ๊ธฐ์ ์ ํฉํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM ์์ด์ ํธ์ ์๊ธฐ ๊ต์ ์คํจ ๋ฌธ์ ๋ฅผ ๋ค๋ฃจ๋ ๋์ , ์๋ ์ฐ๊ตฌ ์์คํ
์ค๊ณ์ ์ ๊ทผํ๋ ๋ฐฉ๋ฒ์ ์ ์ํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
Selfcheck ๋
ผ๋ฌธ์ LLM์ ์คํ
๋ณ ์๊ธฐ ์ ๊ฒ ๋ฐ ์๊ฐ ๊ฒ์ฆ ์ฑ๋ฅ ํ๊ณ์ ๊ฐ์ ์์ด๋์ด๋ฅผ ์คํ์ ์ผ๋ก ์ ์ํ์ฌ, LLM์ ์๊ธฐ ์์ ๊ฐ๋ฅ์ฑ ๋
ผ์์ ๊น์ด๋ฅผ ๋ํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
LLM ์์จ์ฑ์ ์งํ์ ๋จ๊ณ๋ณ ๋ฐ์ ์ ๋ถ์ํ๋ฉฐ, ์๊ธฐ๊ต์ ์คํจ ํ์๋ ๊ตฌ์กฐ์ ์ผ๋ก ์กฐ๋งํฉ๋๋ค.
๋ฐ๋ก /๋นํ
์์ฒด ๊ฐ์ (self-correction) ํน์ ์ง์์ ์ฌ์ ํ์ต ์ ๊ทผ๋ฒ์ ํ๊ณ ๋ฐ ์ํ์ ์ค์ฆ์ ์ผ๋ก ๋ณด์ฌ์ฃผ๋ ์ฐ๊ตฌ๋ก, ๋๋ฉ์ธ ์ ์์ ์ค์ ๊ฐ์ ํจ๊ณผ์ ๋๋นํ ์ ์์ต๋๋ค.
๋ฐ๋ก /๋นํ
Large language models can self-improve ๋
ผ๋ฌธ์ LLM์ ์๊ธฐ๊ฐ์ ๊ฐ๋ฅ์ฑ์ ์คํ์ ์ผ๋ก ์ฃผ์ฅํ๋ฉฐ, self-correction ํ๊ณ๋ผ๋ ๋ณธ ๋
ผ๋ฌธ๊ณผ ๋
ผ์ ์ด ๋์กฐ๋ฉ๋๋ค.
๋ฐ๋ก /๋นํ
Self-Refine ๋
ผ๋ฌธ์ LLM์ ์๊ธฐ ํผ๋๋ฐฑ ๊ธฐ๋ฐ ์์ฐจ์ ๊ฐ์ ์ด ํจ๊ณผ์ ์ผ ์ ์์์ ๋ณด์ฌ์ฃผ์ด ์๊ธฐ๊ต์ ์ ํ๊ณ๋ฅผ ๋นํ์ ์ผ๋ก ์กฐ๋ช
ํฉ๋๋ค.
๋ฐ๋ก /๋นํ
Large Language Models Cannot Self-Correct Reasoning Yet ๋
ผ๋ฌธ์ LLM์ ์๊ธฐ ์์ ๋ฅ๋ ฅ์ ์ค์ ์ ํ๊ณ๋ฅผ ๋นํ์ ์ผ๋ก ๋ถ์ํ์ฌ, ์๊ธฐ๊ต์ ํ๋ ์์ํฌ์ ์ฝ์ ๋
ผ์์ ๋ณด์ ํ์์ฑ์ ์ฐธ๊ณ ๋ ์ ์์ต๋๋ค.
๋ฐ๋ก /๋นํ
471 ๋
ผ๋ฌธ์ LLM์ ์๊ธฐ์ค๋ฅ ์์ ํ๊ณ๋ฅผ ์ง์ , 747์ ๊ฒฐ๊ณผ์ ๋์กฐํด ๋ณผ ์ ์๋ค.
๋ฐ๋ก /๋นํ
LLM์ ์๊ธฐ์์ ยท์๊ธฐ๊ฒ์ฆ์ ํ๊ณ์ XoT ๋ฑ ๋ค์ํ ๋ฐฉ๋ฒ์ ๋ํ ๋นํ์ ์๊ฐ์ ์ ์ํด Wrong-of-Thought ํ๋ ์์ํฌ์ ํ์์ฑ์ ๋ถ๊ฐํฉ๋๋ค.
๋ฐ๋ก /๋นํ
471๋ฒ ๋
ผ๋ฌธ์ LLM์ด ์ถ๋ก ์ ์ค๋ฅ๋ฅผ ์์ง์ ์์ฒด์ ์ผ๋ก ๊ต์ ํ์ง ๋ชปํ๋ค๊ณ ์ง์ ํ๋ฉฐ, 736๋ฒ์ ๋ค์ค ์ ๋ขฐ์ฑ ํ๊ฐ ๊ฒฐ๊ณผ๋ฅผ ๋นํ์ ์ผ๋ก ๋์๋ณผ ๊ทผ๊ฑฐ๋ฅผ ์ ์ํ๋ค.
๋ฐ๋ก /๋นํ
LLM์ด ์์ง ๋
ผ๋ฆฌ์ ์ถ๋ก ๋จ๊ณ์์ ์๊ธฐ๊ฒ์ฆ ๋ฐ reasoning ํ๊ณ๊ฐ ์ฌ๊ฐํ๋ค๋ ์ ์ ์ฒด๊ณ์ ์ผ๋ก ๋นํํ๋ฉฐ RBF++์ ํ๊ณ/ํ์์ฑ์ ์ ์ํฉ๋๋ค.
๋ฐ๋ก /๋นํ
LLM์ ์๊ธฐ ์์ ํ๊ณ๋ฅผ ๋นํ์ ์ผ๋ก ๋ถ์ํ๋ ๋
ผ๋ฌธ์ผ๋ก, PAG ํ๋ ์์ํฌ์ ์ด๋ก ์ ๋ฐฐ๊ฒฝ๊ณผ ๋ฌธ์ ์ ์ ํจ๊ป ์ดํดํ ์ ์์ต๋๋ค.