Kimi k1.5: Scaling reinforcement learning with llms

์ €์ž: Kimi Team, Angang Du, Bofei Gao, Bowei Xing, Changjiu Jiang, Cheng Chen, Cheng Li, Chenjun Xiao, Chenzhuang Du, Chonghua Liao, Chuning Tang, Congcong Wang, Dehao Zhang, Enming Yuan, Enzhe Lu, Feng Tang, Flood Sung, Guangda Wei, Guokun Lai, Haiqing Guo | ๋‚ ์งœ: 2025 | DOI: arXiv:2501.12599v4 📄 PDF


Essence

Figure 1: Kimi k1.5 long-CoT results

๋ณธ ๋…ผ๋ฌธ์€ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ(LLM)์˜ ๊ฐ•ํ™”ํ•™์Šต(RL) ๊ธฐ๋ฐ˜ ํ›ˆ๋ จ์„ ํ†ตํ•ด ์ถ”๋ก  ์„ฑ๋Šฅ์„ ๋Œ€ํญ ํ–ฅ์ƒ์‹œํ‚จ Kimi k1.5 ๋ชจ๋ธ์„ ์ œ์‹œํ•œ๋‹ค. ๊ธด ๋งฅ๋ฝ(long context) ํ™•์žฅ๊ณผ ๊ฐœ์„ ๋œ ์ •์ฑ… ์ตœ์ ํ™”๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๋ณต์žกํ•œ ๊ธฐ๋ฒ•(MCTS, ๊ฐ€์น˜ํ•จ์ˆ˜ ๋“ฑ) ์—†์ด๋„ o1 ์ˆ˜์ค€์˜ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ๋‹ค.

Motivation

Achievement

Figure 2: Kimi k1.5 short-CoT results
  1. Long-CoT ์„ฑ๋Šฅ: AIME 77.5์ (o1 74.4์ ๊ณผ ๋™๋“ฑ), MATH-500 96.2์ (o1 94.8์  ์ƒํšŒ), Codeforces 94 ๋ฐฑ๋ถ„์œ„ ๋‹ฌ์„ฑ
    • MathVista 74.9์ , MMMU 70์ ์œผ๋กœ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ถ”๋ก  ์šฐ์ˆ˜์„ฑ ์ž…์ฆ
  2. Short-CoT ์„ฑ๋Šฅ: AIME 60.8์ (GPT-4o 16์  ๋Œ€๋น„ +550%), MATH-500 94.6์ ์œผ๋กœ ๊ธฐ์กด ๋‹จ๋ฌธ ์ถ”๋ก  ๋ชจ๋ธ ๋Œ€ํญ ์ดˆ๊ณผ
    • LiveCodeBench 47.3์ ์œผ๋กœ ์ฝ”๋”ฉ ์ถ”๋ก  ์„ฑ๋Šฅ ํ–ฅ์ƒ
  3. Long2Short ๋ฐฉ๋ฒ•๋ก : ๊ธด ์ถ”๋ก ์—์„œ ํ•™์Šตํ•œ ํ™œ์„ฑํ™” ํŒจํ„ด์„ ๋‹จ๋ฌธ ๋ชจ๋ธ์— ์ด์ „ํ•˜์—ฌ ์„ฑ๋Šฅ ์œ ์ง€

How

Figure 3: Large Scale Reinforcement Learning Training System for LLM

Originality

Limitation & Further Study

Evaluation

์ดํ‰: ๋ณธ ๋…ผ๋ฌธ์€ ๊ธด ๋งฅ๋ฝ๊ณผ ๊ฐ„๋‹จํ•œ ์ •์ฑ… ์ตœ์ ํ™”๋งŒ์œผ๋กœ o1 ์ˆ˜์ค€์˜ ์ถ”๋ก  ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•œ ์ ์—์„œ ์‹ค์งˆ์  ๊ธฐ์—ฌ๋„๊ฐ€ ํฌ๋‹ค. ํŠนํžˆ Long2Short ๊ธฐ๋ฒ•์œผ๋กœ ๋‹จ๋ฌธ ๋ชจ๋ธ๋„ ๋Œ€ํญ ํ–ฅ์ƒ์‹œํ‚จ ๊ฒฐ๊ณผ๋Š” ์‹ค๋ฌด์  ๊ฐ€์น˜๊ฐ€ ๋†’์œผ๋‚˜, ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ ๊ณต๊ฐœ ๋ฏธํก๊ณผ ์ด๋ก ์  ๊ทผ๊ฑฐ ๋ณด๊ฐ•์ด ์ด๋ฃจ์–ด์ง„๋‹ค๋ฉด ๋”์šฑ ์„ค๋“๋ ฅ ์žˆ๋Š” ์—ฐ๊ตฌ๊ฐ€ ๋  ๊ฒƒ์œผ๋กœ ํŒ๋‹จ๋œ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ์˜ ์ถ”๋ก  ๋ฐ ๊ฐ•ํ™”ํ•™์Šต ๊ธฐ๋ฐ˜ ์‚ฌ๊ณ ๋ ฅ ํ™•์žฅ ๊ด€๋ จ ๋‹ค์–‘ํ•œ ์ ‘๊ทผ๋ฒ•์„ ๋ฉ”ํƒ€ ์ˆ˜์ค€์—์„œ ๋ถ„์„ํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๋กœ๋ด‡ ์ •์ฑ…์˜ ์ผ๋ฐ˜ํ™”์™€ RL ํ•™์Šต์—์„œ LLM ํ™œ์šฉ ๋ฐ scaling ์ „๋žต์— ๋Œ€ํ•œ ์ด๋ก ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
449๋Š” ๋Œ€ํ˜• ์–ธ์–ด๋ชจ๋ธ๊ณผ RL ์œตํ•ฉ ํ™•์žฅ ์ „๋žต์„ ์ œ์‹œํ•˜๋ฉฐ RL์˜ ์ผ๋ฐ˜ํ™” ๋ฐ ์ทจ์•ฝ์„ฑ ๋ฌธ์ œ์˜ ์ด๋ก ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
449 ๋…ผ๋ฌธ์˜ RL ๊ธฐ๋ฐ˜ ์ •์ฑ… ์ตœ์ ํ™” ์ ‘๊ทผ์€ 265์—์„œ LLM ๊ฐ•ํ™”ํ•™์Šต์„ ์œ„ํ•œ ๋ณด์ƒ ๋ชจ๋ธ๋ง ๊ธฐ์ดˆ ๊ฐœ๋…์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
449์˜ RL ๊ธฐ๋ฐ˜ LLM ์ตœ์ ํ™” ๋…ผ์˜๋Š” 683์—์„œ ์ œ์‹œํ•˜๋Š” reward modeling as reasoning์˜ ๊ธฐ์ดˆ ์œ„์—์„œ ์ถœ๋ฐœํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
449 ๋…ผ๋ฌธ์€ LLM์— ๊ธฐ๋ฐ˜ํ•œ ๊ฐ•ํ™”ํ•™์Šต ๋ฐ ๊ฐ€์น˜ ํ•จ์ˆ˜ ์ผ๋ฐ˜ํ™” ๊ด€์ ์—์„œ 863์˜ ๋™์‹œ ์ œ์–ด ํƒœ์Šคํฌ ํ•™์Šต์˜ ์ด๋ก ์  ๊ธฐ๋ฐ˜์„ ๊ฐ•ํ™”ํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
LLM๊ณผ RL ๊ฒฐํ•ฉ์— ๊ด€ํ•œ ์‹ฌ์ธต์  ๋ฆฌ๋ทฐ๋กœ, ReTool์ด ์ œ์•ˆํ•˜๋Š” ์ „๋žต์  ๋„๊ตฌ ์‚ฌ์šฉ ๊ฐ•ํ™”ํ•™์Šต ํ”„๋ ˆ์ž„์›Œํฌ์— ๊ฒฝ๋กœ์™€ ๋ฐฐ๊ฒฝ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Kimi k1.5 ๋…ผ๋ฌธ์€ RL ๊ธฐ๋ฐ˜ LLM ์ผ๋ฐ˜ํ™” ๋ฐ ์„ฑ๋Šฅ ํ™•์žฅ ์‹คํ—˜์„ ํ†ตํ•ด RL๊ณผ SFT์˜ ๊ทผ๋ณธ์  ์ฐจ์ด๋ฅผ ๋’ท๋ฐ›์นจํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
449๋Š” LLM์„ RL ๊ธฐ๋ฐ˜ ๊ฐ•ํ™”ํ•™์Šต์œผ๋กœ ํ™•์žฅํ•˜๋Š” ๋‹ค์–‘ํ•œ ์ ‘๊ทผ์„ ์ œ์•ˆํ•ด, 249์˜ ์ปค๋ฆฌํ˜๋Ÿผ-๊ฐ•ํ™”ํ•™์Šต ์กฐํ•ฉ๊ณผ ๋น„๊ต๋œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
449์˜ RL ๊ธฐ๋ฐ˜ ์ถ”๋ก  ์„ฑ๋Šฅ ํ–ฅ์ƒ์€ 746์˜ iterative refinement์™€ self-feedback ๊ฐœ๋…์œผ๋กœ ๊ธฐ์ˆ ์ ์œผ๋กœ ํ™•์žฅ๋  ์ˆ˜ ์žˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
449 ๋…ผ๋ฌธ์€ LLM๊ณผ RL์˜ ์œตํ•ฉ ํ™•์žฅ ๊ฐ€๋Šฅ์„ฑ์„ ๋ชจ์ƒ‰ํ•˜์—ฌ, ChemGymRL์˜ RL ์—์ด์ „ํŠธ ํ™˜๊ฒฝ ์‘์šฉ์— ์‹œ์‚ฌ์ ์„ ์ค๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
์ž๊ธฐ ์ธ์„ผํ‹ฐ๋ธŒํ™” ๊ธฐ๋ฐ˜ ๊ฒ€์ƒ‰ ํƒ์ƒ‰์ด RL ๊ธฐ๋ฐ˜ LLM ์ถ”๋ก  ์ตœ์ ํ™”๋กœ ํ™•์žฅ๋˜๋Š” ์‹ค์ œ ์‚ฌ๋ก€๋กœ ํ‰๊ฐ€๋ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
781 ๋…ผ๋ฌธ์€ 449์—์„œ ์ œ์‹œํ•œ RL ํŒŒ์ธํŠœ๋‹ LLM์„ ๊ณผํ•™ ๋…ผ๋ฌธ ์ž๋™ ์š”์•ฝ ๋“ฑ ์‹ค์ œ ์‘์šฉ ํƒœ์Šคํฌ์— ์ ์šฉํ•˜๋Š” ์‚ฌ๋ก€์ž…๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
449์—์„œ ์ œ์‹œ๋œ LLM-RL ํ”„๋ ˆ์ž„์›Œํฌ๋Š” 465์˜ ์žฌ๋ฃŒ๊ณผํ•™ ๋ถ„์•ผ LLM ์‘์šฉ ๋…ผ๋ฌธ์—์„œ ์‹ค์ œ ์ ์šฉ ๋ฐ ํ•œ๊ณ„์ ์ด ๋ถ„์„๋œ๋‹ค.
๋ฐ˜๋ก /๋น„ํŒ
๊ธฐ์กด SFT(์ง€๋„ํ•™์Šต)์™€ ๊ฐ•ํ™”ํ•™์Šต์„ ํ†ตํ•œ LLM generalization ์ฐจ์ด๋ฅผ ์‹คํ—˜์ ์œผ๋กœ ๋น„๊ตํ•ด, 449๋ฒˆ์˜ ๊ฐ•ํ™”ํ•™์Šต ๊ธฐ๋ฐ˜ ์ถ”๋ก  ๊ฐ•ํ™” ํšจ๊ณผ์™€ ๋Œ€๋น„ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •