Essence
Figure 1: ์ ์ ํ ๊ฒ์ฆ ๋ฐฉ๋ฒ(์: CoT-S)์ ์ฌ์ฉํ ๋, ์๋ ์์ฑ-๊ฒ์ฆ ๊ฐญ์ด ์ฌ์ ํ์ต ์ฐ์ฐ๋(flops)์ ๋ํด ๋จ์กฐ์ฆ๊ฐํ๋ ํ์
๋ณธ ๋
ผ๋ฌธ์ ๋๊ท๋ชจ ์ธ์ด๋ชจ๋ธ(LLM)์ ์๊ธฐ๊ฐ์ (self-improvement) ๋ฉ์ปค๋์ฆ์ ์ฒด๊ณ์ ์ผ๋ก ๋ถ์ํ๋ฉฐ, ์์ฑ-๊ฒ์ฆ ๊ฐญ(Generation-Verification Gap, GV-Gap)์ด๋ผ๋ ํต์ฌ ์งํ๋ฅผ ํตํด ์ธ์ด๋ชจ๋ธ์ด ์์ ์ ์ถ๋ ฅ์ ๊ฒ์ฆํ์ฌ ์ฑ๋ฅ์ ๊ฐ์ ํ ์ ์๋ ๋ฅ๋ ฅ์ ํ๊ณ์ ๊ฐ๋ฅ์ฑ์ ๊ท๋ช
ํ๋ค.
How
Figure 3: ๊ต์ฐจ ๊ฐ์ ์์์ GV-Gaps. ๊ฐ ํ(๊ณ ์ ๋ ์์ฑ์)์ ๋ํด, ๊ฒ์ฆ์ ๋ฅ๋ ฅ์ด ์ฆ๊ฐํ ์๋ก ๊ฐญ์ด ์ฆ๊ฐ
์๊ธฐ๊ฐ์ ํ๋ ์์ํฌ์ ํ์ํ:
- ์์ฑ ๋จ๊ณ: ํ๋กฌํํธ ๋ถํฌ ฮผ์์ ์์ฑ์ f๊ฐ ์ฌ๋ฌ ์๋ต y๋ฅผ ์์ฑ. ์ค์ํ ์กฐ๊ฑด์ ์์ฑ ๋ถํฌ์ ๋ณ๋์ฑ(improvable generation)์ด ์กด์ฌํด์ผ ํจ
- ๊ฒ์ฆ ๋จ๊ณ: ๊ฒ์ฆ์ ๋ชจ๋ธ g๋ฅผ ํตํ ๋์ฒด ์ ํธ๋ฆฌํฐ(proxy utility) รปg๋ฅผ ์ ์. ํต์ฌ ์งํ์ธ ์์ฑ-๊ฒ์ฆ ๊ฐญ(GV-Gap)์ ๋ค์๊ณผ ๊ฐ์ด ์ ์:
```
gap(f, g) := J(f[w(รปg)]) - J(f)
```
์ฌ๊ธฐ์ w๋ ๊ฒ์ฆ ์ ์๋ฅผ ๊ฐ์ค์น๋ก ๋ณํํ๋ ํจ์. ์๋ ๊ฐญ(relative gap)์ ์ต๋ ๊ฐ๋ฅ ๊ฐ์ ์ ๋ํ ์ ๊ทํ
- ๋ชจ๋ธ ์
๋ฐ์ดํธ: ๋ ๊ฐ์ง ๋ฐฉ์ ๊ณ ๋ ค:
- KL ์ ๊ทํ ๊ฐํํ์ต(RLHF): w(s) = exp(s/ฮฒ)
- ๊ฑฐ๋ถ ์ํ๋ง(Rejection Sampling): w(s) = 1[s โฅ ฯ]
์คํ ์ค์ :
- ๋ชจ๋ธ ๊ณ์ด: Qwen-1.5/2/2.5, Llama-2, Yi-1.5 ๋ฑ ๋ค์ํ ํฌ๊ธฐ์ ๋ชจ๋ธ
- ๊ฒ์ฆ ๋ฐฉ๋ฒ: Multiple Choice(MC), Chain-of-Thought-Score(CoT-S), Tournament(To) ๋ฑ
- ์์
: GSM8K(์ํ), MATH, ์ ๋ณด ๊ฒ์, ์ถ๋ก ์์
๋ฑ
ํต์ฌ ๋ฐ๊ฒฌ:
- CoT-S ๊ฐ์ ๊ฐํ ๊ฒ์ฆ ๋ฐฉ๋ฒ์์๋ง ์ค์ผ์ผ๋ง ํ์์ด ๋ํ๋จ
- ์ฝํ ๊ฒ์ฆ ๋ฐฉ๋ฒ(MC)์ ์ค์ผ์ผ๋ง ํ์์ ๋ณด์ด์ง ์์
- ๋ชจ๋ธ์ ์ถ๋ก ๋ฅ๋ ฅ์ ์ด๊ณผํ๋ ์์
์์๋ ์๊ธฐ๊ฐ์ ์ด ๋ถ๊ฐ๋ฅ
Evaluation
Novelty: 4.5/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4.5/5 Overall: 4.2/5
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ LLM ์๊ธฐ๊ฐ์ ์ ํต์ฌ ์งํ๋ฅผ ์ ์ํ๊ณ ๊ด๋ฒ์ํ ์ค์ฆ ๋ถ์์ ํตํด ์ค์ผ์ผ๋ง ํ์์ ์ต์ด๋ก ๊ท๋ช
ํ ์๋ฏธ ์๋ ์ฐ๊ตฌ์ด๋ค. ์์ฑ-๊ฒ์ฆ ๊ฐญ์ด๋ผ๋ ๊ฐ๋
์ด ํฅํ ์๊ธฐ๊ฐ์ ์๊ณ ๋ฆฌ์ฆ ์ค๊ณ์ ์ค์ํ ๊ธฐ์ค์ด ๋ ๊ฒ์ผ๋ก ์์๋๋ฉฐ, ๋ค๋ง ๊ฒฐ๊ณผ์ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ ํ๋์ ์๋ ๋ฉ์ปค๋์ฆ์ ๋ํ ๋ ๊น์ ๋ถ์์ด ํ์ํ๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
Large language models can self-improve ๋
ผ๋ฌธ์ LLM ์๊ธฐ๊ฐ์ ๊ฐ๋
์ ์ด๋ก ์ ๊ทผ๊ฑฐ์ ์คํ์ ์ฌ๋ก๋ฅผ ์ ๊ณตํด 538์ ์๊ธฐ๊ฐ์ ๋ฅ๋ ฅ ๊ณ๋ํ ๋ถ์์ ํ ๋๋ฅผ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
AI ์์ ์ฑ ๋ฐ ์๊ธฐ๊ฒ์ฆ ๋ฅ๋ ฅ ํ๊ณ์ ๋ํ ์ฌ์ธต์ ํด์์ ์์ฑ-๊ฒ์ฆ ๊ฐญ(GV-gap) ๋
ผ์์ ์ด๋ก ์ ๊ธฐ๋ฐ์ ์ ๊ณตํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๋ฒ ์ด์ง์ ์ต์ ์คํ์ค๊ณ์ ์ด๋ก ์ ๊ธฐ๋ฐ์ ์ ๊ณตํ๋ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
์ค์ค๋ก feedback์ ํตํด ์ฑ๋ฅ์ ์ ์ง์ ์ผ๋ก ๊ฐ์ ํ๋ iterative refinement ๋ฐฉ๋ฒ๊ณผ generation-verification gap์ ๋ฒค์น๋งํน ์ฐจ์ด๋ฅผ ๋น๊ตํ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM์ด ์๊ธฐ ์ถ๋ ฅ์ ๋จ๊ณ๋ณ๋ก ์ ๊ฒ(Zero-shot step-by-step self-checking)ํ๋ ์ ๊ทผ์ ํ๊ณ ๋ฐ ๋ณด์ ๋ฐฉ์์ ๋น๊ต ๋ถ์ํ ์ ์๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM์ ์๊ธฐ๊ฐ์ ํ๊ณ์ ์ถ๋ก ๊ฒฝ๊ณ์ ๋ํ ์ฒด๊ณ์ ๊ฒํ ๋ฅผ ํตํด, RBF++์ ๊ณ๋์ ๋ถ์์ ์ํธ๋ณด์ํจ.
ํ์ ์ฐ๊ตฌ
538 ๋
ผ๋ฌธ์ LLM ์๊ธฐ ๊ฐ์ ๋ฅ๋ ฅ์ ํ๊ณ์ ์๊ธฐ ๋ฐ์ ๊ธฐ๋ฒ๋ค์ ํจ๊ณผ๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ์ธก์ ํ์ฌ, 470์ ์ฃผ์ฅ์ ๋ฒค์น๋งํฌ/๋นํํ๋ค.
ํ์ ์ฐ๊ตฌ
LLM์ ์๋ ์๊ธฐ ๋๋ฒ๊น
/์ค๋ฅ ์์ ํ๋ จ์ ํตํด 538์์ ์ ์๋ ์๊ธฐ๊ฒ์ฆ ํ๊ณ์ ์ค์ ๊ฐ์ ๋ฐฉ๋ฒ์ ์ ์ํฉ๋๋ค.
์์ฉ ์ฌ๋ก
Mind the gap ๋
ผ๋ฌธ์ LLM์ ์๊ธฐ๊ฐ์ ๋ฅ๋ ฅ์ ํ๊ณ ๋ฐ ์ค์ ์๊ธฐ๊ฐ์ ํจ๊ณผ๋ฅผ ์ค์ฆ ๋ถ์, ImPlicit Self-ImprovemenT ํ๋ ์์ํฌ๊ฐ ํ์ค์ ๋ฏธ์น๋ ์ํฅ์ ๊ฒ์ฆํฉ๋๋ค.
์์ฉ ์ฌ๋ก
LLM์ ์๊ธฐ๊ฐ์ ๋ฐ ๊ฒ์ฆ ๋ฅ๋ ฅ ๋ถ์์ ํตํด ํด์๊ฐ๋ฅ์ฑ๊ณผ ์์ ์ฑ ๋
ผ์๊ฐ ์ค์ LLM ํ์ฉ์์ ์ด๋ค ์๋ฏธ๋ฅผ ๊ฐ๋์ง ๋ณด์ฌ์ค๋ค.
์์ฉ ์ฌ๋ก
LLM ์๊ธฐ๊ฐ์ ๋ฉ์ปค๋์ฆ ๋ฐ ํ๊ณ ๋
ผ์๊ฐ, ์ฌ๋ฃ๊ณผํ ๋ถ์ผ ์ง์-์๋ด LLM์ ์ ๋ขฐ์ฑยท์ค์ฌ์ฉ ๊ฐ๋ฅ์ฑ ํ๊ฐ์ ์ ์ฉ๋ ์ ์๋ค.
์์ฉ ์ฌ๋ก
LLM์ ์๊ธฐ๊ฐ์ ๋ฐ ๊ฒ์ฆ ๋ฅ๋ ฅ ์ฐ๊ตฌ๊ฐ ์ค์ ๊ณผํ ์์ฝ์ ์ผ๋ฐํ ํธํฅ ์ค์ฌ๋ก(Generalization Bias)์ ์ฐ๊ฒฐ๋๋ค.
๋ฐ๋ก /๋นํ
์ฌ๋ฃ๊ณผํ ํนํ LLM์ ์๊ธฐ๊ฐ์ ๋ฐ ์ ๋ขฐ์ฑ์ ๋ํ ๋
ผ์๊ฐ, LLM ์ ๋ฐ์ ์๊ธฐ๊ฒ์ฆ ๋ฅ๋ ฅ ํ๊ณ์ ์ค์ ์ ์ฉ์ ์ด๋ ค์์ ๋ณด์์ ์ผ๋ก ์ค๋ช
ํ๋ค.
๋ฐ๋ก /๋นํ
๊ณผํ ์ ๋ณด ์ถ์ถ/๋ถ์์ LLM์ ์ง์์ ์๊ธฐ ๊ฐ์ ๊ฐ๋ฅ์ฑ์ ๊ดํ ํ๊ณ์ ๋ฐ์ ๋ฐฉํฅ์ ์ ์ํ๋ฉฐ ๋๊ท๋ชจ ๋ฐ์ดํฐ ๋ง์ด๋์ ํ์ค์ ๋ฌธ์ ๋ฅผ ๋
ผ์ํฉ๋๋ค.