Kimi k1.5: Scaling reinforcement learning with llms

저자: Kimi Team, Angang Du, Bofei Gao, Bowei Xing, Changjiu Jiang, Cheng Chen, Cheng Li, Chenjun Xiao, Chenzhuang Du, Chonghua Liao, Chuning Tang, Congcong Wang, Dehao Zhang, Enming Yuan, Enzhe Lu, Feng Tang, Flood Sung, Guangda Wei, Guokun Lai, Haiqing Guo | 날짜: 2025 | DOI: arXiv:2501.12599v4 📄 PDF

Essence

Figure 1: Kimi k1.5 long-CoT results

본 논문은 대규모 언어모델(LLM)의 강화학습(RL) 기반 훈련을 통해 추론 성능을 대폭 향상시킨 Kimi k1.5 모델을 제시한다. 긴 맥락(long context) 확장과 개선된 정책 최적화를 기반으로 복잡한 기법(MCTS, 가치함수 등) 없이도 o1 수준의 성능을 달성했다.

Motivation

Known:
- 차세대 토큰 예측 기반 사전훈련은 사용 가능한 고품질 데이터량으로 제한됨
- RL은 LLM의 새로운 확장 축을 제시하지만 선행 연구는 경쟁력 있는 결과 미흡
Gap:
- RL과 LLM의 효과적 결합 방식이 확립되지 않음
- 복잡한 계획 알고리즘 없이도 강력한 추론 성능 달성 가능성 미탐색
Why:
- 모델이 보상 신호로부터 자동 탐색 가능 → 정적 데이터셋 한계 극복
- 긴 맥락 윈도우 활용으로 암시적 탐색 공간 구성 가능
Approach:
- 128k 토큰 맥락 창 확장
- 부분 롤아웃(partial rollout)을 통한 훈련 효율화
- 온라인 미러 강하(online mirror descent) 기반 정책 최적화
- 멀티모달 RL 훈련

Achievement

Figure 2: Kimi k1.5 short-CoT results

Long-CoT 성능: AIME 77.5점(o1 74.4점과 동등), MATH-500 96.2점(o1 94.8점 상회), Codeforces 94 백분위 달성
- MathVista 74.9점, MMMU 70점으로 멀티모달 추론 우수성 입증
Short-CoT 성능: AIME 60.8점(GPT-4o 16점 대비 +550%), MATH-500 94.6점으로 기존 단문 추론 모델 대폭 초과
- LiveCodeBench 47.3점으로 코딩 추론 성능 향상
Long2Short 방법론: 긴 추론에서 학습한 활성화 패턴을 단문 모델에 이전하여 성능 유지

How

Figure 3: Large Scale Reinforcement Learning Training System for LLM

RL 프롬프트 셋 큐레이션:
- 다양한 학문 분야 커버(STEM, 코딩, 일반 추론)
- 모델 기반 난이도 평가: SFT 모델의 10회 샘플링 통과율로 난이도 산정
- 보상 해킹 방지: 8회 무추론 샘플링으로 정답 도달 가능한 문제 제거
Long-CoT 지도 미세조정:
- 고품질 추론 경로 데이터셋 구성
- 계획(planning), 평가(evaluation), 반성(reflection), 탐색(exploration) 요소 포함
- 긴 맥락에서 자동회귀 추론으로 암시적 계획 수행
강화학습 최적화:
- 부분 롤아웃: 이전 궤적 재사용으로 처음부터 생성 비용 절감
- 온라인 미러 강하 변형으로 견고한 정책 최적화
- 길이 페널티와 데이터 레시피 최적화 통합
- 검증 가능 문제는 규칙 기반 보상, 일반 QA는 학습된 보상 모델 활용

Originality

맥락 길이의 명시적 확장 축: 128k 토큰 범위에서 RL 성능이 지속 향상됨을 입증 → 기존의 MCTS나 가치함수 중심 접근과 차별화
부분 롤아웃 기법: 이전 궤적 재사용으로 RL 훈련 효율성 대폭 개선 → 대규모 훈련 가능성 제시
단순한 프레임워크의 강력성: 복잡한 별도 계획 알고리즘 없이 자동회귀 생성만으로 암시적 탐색 달성
멀티모달 RL 훈련: 텍스트와 비전 데이터 공동 훈련으로 크로스모달 추론 능력 확보
Long2Short 지식 이전: 장문 추론의 내부 표현을 단문 모델에 적용하는 체계적 방법론

Limitation & Further Study

검증 모델의 한계: 보상 해킹 방지를 위한 현재 방법(N=8 무추론 샘플링)이 경험적 휴리스틱 → 더 정교한 검증 모델 개발 필요
훈련 데이터 공개 미흡: RL 프롬프트 셋 상세 구성 및 규모에 대한 구체적 정보 부족 → 재현성 제한
추론 비용 분석 부재: 긴 맥락 활용으로 인한 추론 시간/계산량 증가의 정량적 평가 미제시
문제 도메인 한정성: STEM, 코딩 중심의 검증 가능 문제에 최적화 → 개방형 생성 과제로의 확장 방안 미명시
후속 연구 방향:
- 더욱 정교한 보상 모델 및 검증 시스템 개발
- 다양한 도메인(대화, 창작, 분석)으로의 RL 확대 적용
- 추론 효율성 최적화 (길이-성능 트레이드오프 개선)
- 가치함수 없는 계획의 이론적 근거 강화

Evaluation

총평: 본 논문은 긴 맥락과 간단한 정책 최적화만으로 o1 수준의 추론 성능을 달성한 점에서 실질적 기여도가 크다. 특히 Long2Short 기법으로 단문 모델도 대폭 향상시킨 결과는 실무적 가치가 높으나, 훈련 데이터 공개 미흡과 이론적 근거 보강이 이루어진다면 더욱 설득력 있는 연구가 될 것으로 판단된다.

같이 보면 좋은 논문

기반 연구

A survey of reasoning with foundation models

파운데이션 모델의 추론 및 강화학습 기반 사고력 확장 관련 다양한 접근법을 메타 수준에서 분석한다.

기반 연구

Improving generalization of robot locomotion policies via sharpness-aware reinforcement learning

로봇 정책의 일반화와 RL 학습에서 LLM 활용 및 scaling 전략에 대한 이론적 기반을 제공합니다.

기반 연구

Robustness evaluation of offline reinforcement learning for robot control against action perturbations

449는 대형 언어모델과 RL 융합 확장 전략을 제시하며 RL의 일반화 및 취약성 문제의 이론적 기반을 제공한다.

기반 연구

DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning

449 논문의 RL 기반 정책 최적화 접근은 265에서 LLM 강화학습을 위한 보상 모델링 기초 개념을 제공합니다.

기반 연구

RM-R1: Reward Modeling as Reasoning

449의 RL 기반 LLM 최적화 논의는 683에서 제시하는 reward modeling as reasoning의 기초 위에서 출발한다.

기반 연구

Value iteration for learning concurrently executable robotic control tasks

449 논문은 LLM에 기반한 강화학습 및 가치 함수 일반화 관점에서 863의 동시 제어 태스크 학습의 이론적 기반을 강화합니다.

기반 연구

ReTool: Reinforcement Learning for Strategic Tool Use in LLMs

LLM과 RL 결합에 관한 심층적 리뷰로, ReTool이 제안하는 전략적 도구 사용 강화학습 프레임워크에 경로와 배경을 제시합니다.

기반 연구

SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training

Kimi k1.5 논문은 RL 기반 LLM 일반화 및 성능 확장 실험을 통해 RL과 SFT의 근본적 차이를 뒷받침한다.

다른 접근

Curriculum Reinforcement Learning from Easy to Hard Tasks Improves LLM Reasoning

449는 LLM을 RL 기반 강화학습으로 확장하는 다양한 접근을 제안해, 249의 커리큘럼-강화학습 조합과 비교된다.

후속 연구

Self-Refine: Iterative Refinement with Self-Feedback

449의 RL 기반 추론 성능 향상은 746의 iterative refinement와 self-feedback 개념으로 기술적으로 확장될 수 있다.

후속 연구

ChemGymRL: A Customizable Interactive Framework for Reinforcement Learning for Digital Chemistry

449 논문은 LLM과 RL의 융합 확장 가능성을 모색하여, ChemGymRL의 RL 에이전트 환경 응용에 시사점을 줍니다.

후속 연구

Iterative self-incentivization empowers large language models as agentic searchers

자기 인센티브화 기반 검색 탐색이 RL 기반 LLM 추론 최적화로 확장되는 실제 사례로 평가됩니다.

응용 사례

SurveyX: Academic survey automation via large language models

781 논문은 449에서 제시한 RL 파인튜닝 LLM을 과학 논문 자동 요약 등 실제 응용 태스크에 적용하는 사례입니다.

응용 사례

Large Language Model in Materials Science: Roles, Challenges, and Strategic Outlook

449에서 제시된 LLM-RL 프레임워크는 465의 재료과학 분야 LLM 응용 논문에서 실제 적용 및 한계점이 분석된다.

반론/비판

SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training

기존 SFT(지도학습)와 강화학습을 통한 LLM generalization 차이를 실험적으로 비교해, 449번의 강화학습 기반 추론 강화 효과와 대비할 수 있습니다.

← 목록으로 돌아가기