Essence
Figure 1: V-IRL ์๊ฐ ๋ค๋น๊ฒ์ด์
ํ๊ฒฝ์์ RL๊ณผ SFT์ ๋น๊ต ์ฐ๊ตฌ. OOD ๊ณก์ ์ ์๋ก ๋ค๋ฅธ ํ
์คํธ ์ก์
๊ณต๊ฐ์ ์ฌ์ฉํ ๋์ผ ์์
์ ์ฑ๋ฅ์ ๋ํ๋
๋ณธ ๋
ผ๋ฌธ์ ๊ธฐ์ด ๋ชจ๋ธ์ ์ฌํํ๋ จ(post-training) ๋จ๊ณ์์ ์ง๋ํ์ต ๋ฏธ์ธ์กฐ์ (SFT)๊ณผ ๊ฐํํ์ต(RL)์ ์ผ๋ฐํ(generalization) ๋ฅ๋ ฅ์ ๋น๊ตํ๋ ์ฒด๊ณ์ ์ฐ๊ตฌ๋ก, RL์ ๊ท์น ๊ธฐ๋ฐ ์ถ๋ก ๊ณผ ์๊ฐ ์์
์์ ์ฐ์ํ ์ผ๋ฐํ ์ฑ๋ฅ์ ๋ณด์ด๋ ๋ฐ๋ฉด, SFT๋ ํ๋ จ ๋ฐ์ดํฐ์ ์๊ธฐ(memorization)์ ์น์คํ๋ค๋ ํต์ฌ ๋ฐ๊ฒฌ์ ์ ์ํ๋ค.
Evaluation
Novelty: 4/5 Technical Soundness: 4.5/5 Significance: 4.5/5 Clarity: 4/5 Overall: 4.2/5
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ ๋๊ท๋ชจ ๊ธฐ์ด ๋ชจ๋ธ ํ๋ จ์์ ๊ด๋ฒ์ํ๊ฒ ์ฌ์ฉ๋๋ ๋ ์ฃผ์ ๊ธฐ๋ฒ์ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ์ฒด๊ณ์ ์ผ๋ก ๋น๊ตํ ์ค์ํ ์ค์ฆ ์ฐ๊ตฌ๋ก, "RL์ ์ผ๋ฐํ, SFT๋ ์๊ธฐ"๋ผ๋ ๋ช
ํํ ๊ตฌ๋ถ์ ํตํด ํฅํ ๋ชจ๋ธ ๊ฐ๋ฐ ์ ๋ต์ ์ค์ง์ ์ง์นจ์ ์ ๊ณตํ๋ค. ๋ค๋ง ์์
๋ฒ์์ ๋ชจ๋ธ ๋ค์์ฑ ์ธก๋ฉด์์์ ํ์ฅ์ด ํ์ํ๋ฉฐ, SFT-RL ์ํธ์์ฉ์ ์ต์ ํ ๋ฉ์ปค๋์ฆ์ ๋ํ ๋ ๊น์ ๋ถ์์ด ์๊ตฌ๋๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
Kimi k1.5 ๋
ผ๋ฌธ์ RL ๊ธฐ๋ฐ LLM ์ผ๋ฐํ ๋ฐ ์ฑ๋ฅ ํ์ฅ ์คํ์ ํตํด RL๊ณผ SFT์ ๊ทผ๋ณธ์ ์ฐจ์ด๋ฅผ ๋ท๋ฐ์นจํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
LLM์ RL์ ํตํ ์ถ๋ก ์ ๋ ๋ฐ ๊ฐํํ์ต์ ์ผ๋ฐํ ํจ๊ณผ๋ฅผ ์คํ์ ์ผ๋ก ๋ถ์ํ์ฌ RL๊ณผ SFT์ ๋น๊ต๊ตฌ๋๋ฅผ ๋ณด์ํจ.
๊ธฐ๋ฐ ์ฐ๊ตฌ
SFT์ RL์ ์ผ๋ฐํ ์ฑ๋ฅ ์ฐจ์ด๋ฅผ ์คํ์ ์ผ๋ก ๋น๊ตยท๋ถ์ํ์ฌ ๋ณธ ๋
ผ๋ฌธ์ ์๊ธฐ๊ฒ์ฆ ์ฌ์ธต ํ์ต ๊ตฌ์กฐ์ ์ฐ๊ฒฐ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
SFT Memorizes, RL Generalizes ๋
ผ๋ฌธ์ RL ๊ธฐ๋ฐ LLM reasoning ํ์ต์์ ์ผ๋ฐํ์ ์ปค๋ฆฌํ๋ผ ์ค๊ณ์ ์ด๋ก ์ ๋ฐํ์ ์ ๊ณตํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
470 'Large language models can self-improve' ๋
ผ๋ฌธ์ SFT/RL ์ธ์๋ ์์ฒด ์์ฑ๋ ํผ๋๋ฐฑ๊ณผ ์๊ธฐ๊ฐ์ ๋ฃจํ๋ฅผ ํตํ LLM ์ผ๋ฐํ ํฅ์ ์ ๋ต์ ๋ค๋ฃจ์ด ๋์กฐ์ ์ผ๋ก ์ฐธ๊ณ ํ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM์ ํ์์ ํ๋๊ณผ ๋ถํ์คํ ํ๊ฒฝ์์์ ์์ฌ๊ฒฐ์ ๋ฅ๋ ฅ์ ๋ถ์ํ๋ ์ ์ฌํ ์ฐ๊ตฌ์ด๋ค.
ํ์ ์ฐ๊ตฌ
Executable Code Actions ๋
ผ๋ฌธ์ RL ๊ธฐ๋ฐ ์์ด์ ํธ์ ์ฝ๋ ์คํยทํ๊ฐ ๊ธฐ๋ฒ์ ํตํด ๊ฐํํ์ต์ ์ผ๋ฐํ ์ค์ฆ์ ์ฌ๋ก๋ฅผ ์ ์ํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
์ ๋ต์ ๋๊ตฌ ์ฌ์ฉ ๋ฐ RL ๊ธฐ๋ฐ ์ ์ ์ฑ๋ฅ ํฅ์ ์ฌ๋ก๋ฅผ ํตํด SFT์ RL ์ฑ๋ฅ์ฐจ๊ฐ ์ค์ง์ ์ผ๋ก ๋๊ตฌ์ฌ์ฉ ๋งฅ๋ฝ์์ ์ ์ฉ๋จ์ ๋ณด์ฌ์ค.
์์ฉ ์ฌ๋ก
RL์ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๋ํ ๋ฐ๊ฒฌ์ด Foundation Model Surrogates์ ๋ฅ๋ํ์ต ํ๋ ์์ํฌ, ํนํ ํธ๋์คํฌ๋จธ์ RL ์ ์ฉ ๊ฐ๋ฅ์ฑ ๋
ผ์๋ก ํ์ฅ๋๋ค.
๋ฐ๋ก /๋นํ
๊ธฐ์กด SFT(์ง๋ํ์ต)์ ๊ฐํํ์ต์ ํตํ LLM generalization ์ฐจ์ด๋ฅผ ์คํ์ ์ผ๋ก ๋น๊ตํด, 449๋ฒ์ ๊ฐํํ์ต ๊ธฐ๋ฐ ์ถ๋ก ๊ฐํ ํจ๊ณผ์ ๋๋นํ ์ ์์ต๋๋ค.