์ ์: Kimi Team, Angang Du, Bofei Gao, Bowei Xing, Changjiu Jiang, Cheng Chen, Cheng Li, Chenjun Xiao, Chenzhuang Du, Chonghua Liao, Chuning Tang, Congcong Wang, Dehao Zhang, Enming Yuan, Enzhe Lu, Feng Tang, Flood Sung, Guangda Wei, Guokun Lai, Haiqing Guo | ๋ ์ง: 2025 | DOI: arXiv:2501.12599v4 📄 PDF
Essence
๋ณธ ๋
ผ๋ฌธ์ ๋๊ท๋ชจ ์ธ์ด๋ชจ๋ธ(LLM)์ ๊ฐํํ์ต(RL) ๊ธฐ๋ฐ ํ๋ จ์ ํตํด ์ถ๋ก ์ฑ๋ฅ์ ๋ํญ ํฅ์์ํจ Kimi k1.5 ๋ชจ๋ธ์ ์ ์ํ๋ค. ๊ธด ๋งฅ๋ฝ(long context) ํ์ฅ๊ณผ ๊ฐ์ ๋ ์ ์ฑ
์ต์ ํ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ณต์กํ ๊ธฐ๋ฒ(MCTS, ๊ฐ์นํจ์ ๋ฑ) ์์ด๋ o1 ์์ค์ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ค.
Evaluation
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ ๊ธด ๋งฅ๋ฝ๊ณผ ๊ฐ๋จํ ์ ์ฑ
์ต์ ํ๋ง์ผ๋ก o1 ์์ค์ ์ถ๋ก ์ฑ๋ฅ์ ๋ฌ์ฑํ ์ ์์ ์ค์ง์ ๊ธฐ์ฌ๋๊ฐ ํฌ๋ค. ํนํ Long2Short ๊ธฐ๋ฒ์ผ๋ก ๋จ๋ฌธ ๋ชจ๋ธ๋ ๋ํญ ํฅ์์ํจ ๊ฒฐ๊ณผ๋ ์ค๋ฌด์ ๊ฐ์น๊ฐ ๋์ผ๋, ํ๋ จ ๋ฐ์ดํฐ ๊ณต๊ฐ ๋ฏธํก๊ณผ ์ด๋ก ์ ๊ทผ๊ฑฐ ๋ณด๊ฐ์ด ์ด๋ฃจ์ด์ง๋ค๋ฉด ๋์ฑ ์ค๋๋ ฅ ์๋ ์ฐ๊ตฌ๊ฐ ๋ ๊ฒ์ผ๋ก ํ๋จ๋๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
ํ์ด๋ฐ์ด์
๋ชจ๋ธ์ ์ถ๋ก ๋ฐ ๊ฐํํ์ต ๊ธฐ๋ฐ ์ฌ๊ณ ๋ ฅ ํ์ฅ ๊ด๋ จ ๋ค์ํ ์ ๊ทผ๋ฒ์ ๋ฉํ ์์ค์์ ๋ถ์ํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๋ก๋ด ์ ์ฑ
์ ์ผ๋ฐํ์ RL ํ์ต์์ LLM ํ์ฉ ๋ฐ scaling ์ ๋ต์ ๋ํ ์ด๋ก ์ ๊ธฐ๋ฐ์ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
449๋ ๋ํ ์ธ์ด๋ชจ๋ธ๊ณผ RL ์ตํฉ ํ์ฅ ์ ๋ต์ ์ ์ํ๋ฉฐ RL์ ์ผ๋ฐํ ๋ฐ ์ทจ์ฝ์ฑ ๋ฌธ์ ์ ์ด๋ก ์ ๊ธฐ๋ฐ์ ์ ๊ณตํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
449 ๋
ผ๋ฌธ์ RL ๊ธฐ๋ฐ ์ ์ฑ
์ต์ ํ ์ ๊ทผ์ 265์์ LLM ๊ฐํํ์ต์ ์ํ ๋ณด์ ๋ชจ๋ธ๋ง ๊ธฐ์ด ๊ฐ๋
์ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
449์ RL ๊ธฐ๋ฐ LLM ์ต์ ํ ๋
ผ์๋ 683์์ ์ ์ํ๋ reward modeling as reasoning์ ๊ธฐ์ด ์์์ ์ถ๋ฐํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
449 ๋
ผ๋ฌธ์ LLM์ ๊ธฐ๋ฐํ ๊ฐํํ์ต ๋ฐ ๊ฐ์น ํจ์ ์ผ๋ฐํ ๊ด์ ์์ 863์ ๋์ ์ ์ด ํ์คํฌ ํ์ต์ ์ด๋ก ์ ๊ธฐ๋ฐ์ ๊ฐํํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
LLM๊ณผ RL ๊ฒฐํฉ์ ๊ดํ ์ฌ์ธต์ ๋ฆฌ๋ทฐ๋ก, ReTool์ด ์ ์ํ๋ ์ ๋ต์ ๋๊ตฌ ์ฌ์ฉ ๊ฐํํ์ต ํ๋ ์์ํฌ์ ๊ฒฝ๋ก์ ๋ฐฐ๊ฒฝ์ ์ ์ํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Kimi k1.5 ๋
ผ๋ฌธ์ RL ๊ธฐ๋ฐ LLM ์ผ๋ฐํ ๋ฐ ์ฑ๋ฅ ํ์ฅ ์คํ์ ํตํด RL๊ณผ SFT์ ๊ทผ๋ณธ์ ์ฐจ์ด๋ฅผ ๋ท๋ฐ์นจํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
449๋ LLM์ RL ๊ธฐ๋ฐ ๊ฐํํ์ต์ผ๋ก ํ์ฅํ๋ ๋ค์ํ ์ ๊ทผ์ ์ ์ํด, 249์ ์ปค๋ฆฌํ๋ผ-๊ฐํํ์ต ์กฐํฉ๊ณผ ๋น๊ต๋๋ค.
ํ์ ์ฐ๊ตฌ
449์ RL ๊ธฐ๋ฐ ์ถ๋ก ์ฑ๋ฅ ํฅ์์ 746์ iterative refinement์ self-feedback ๊ฐ๋
์ผ๋ก ๊ธฐ์ ์ ์ผ๋ก ํ์ฅ๋ ์ ์๋ค.
ํ์ ์ฐ๊ตฌ
449 ๋
ผ๋ฌธ์ LLM๊ณผ RL์ ์ตํฉ ํ์ฅ ๊ฐ๋ฅ์ฑ์ ๋ชจ์ํ์ฌ, ChemGymRL์ RL ์์ด์ ํธ ํ๊ฒฝ ์์ฉ์ ์์ฌ์ ์ ์ค๋๋ค.
ํ์ ์ฐ๊ตฌ
์๊ธฐ ์ธ์ผํฐ๋ธํ ๊ธฐ๋ฐ ๊ฒ์ ํ์์ด RL ๊ธฐ๋ฐ LLM ์ถ๋ก ์ต์ ํ๋ก ํ์ฅ๋๋ ์ค์ ์ฌ๋ก๋ก ํ๊ฐ๋ฉ๋๋ค.
์์ฉ ์ฌ๋ก
781 ๋
ผ๋ฌธ์ 449์์ ์ ์ํ RL ํ์ธํ๋ LLM์ ๊ณผํ ๋
ผ๋ฌธ ์๋ ์์ฝ ๋ฑ ์ค์ ์์ฉ ํ์คํฌ์ ์ ์ฉํ๋ ์ฌ๋ก์
๋๋ค.
์์ฉ ์ฌ๋ก
449์์ ์ ์๋ LLM-RL ํ๋ ์์ํฌ๋ 465์ ์ฌ๋ฃ๊ณผํ ๋ถ์ผ LLM ์์ฉ ๋
ผ๋ฌธ์์ ์ค์ ์ ์ฉ ๋ฐ ํ๊ณ์ ์ด ๋ถ์๋๋ค.
๋ฐ๋ก /๋นํ
๊ธฐ์กด SFT(์ง๋ํ์ต)์ ๊ฐํํ์ต์ ํตํ LLM generalization ์ฐจ์ด๋ฅผ ์คํ์ ์ผ๋ก ๋น๊ตํด, 449๋ฒ์ ๊ฐํํ์ต ๊ธฐ๋ฐ ์ถ๋ก ๊ฐํ ํจ๊ณผ์ ๋๋นํ ์ ์์ต๋๋ค.