DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning

์ €์ž: DeepSeek-AI, Daya Guo, Dejian Yang, Haowei Zhang, Jun-Mei Song | ๋‚ ์งœ: 2025 | DOI: 10.1038/s41586-025-09422-z 📄 PDF


Essence

Figure 1

Figure 1: (a) RL ํ›ˆ๋ จ ๊ณผ์ •์—์„œ DeepSeek-R1-Zero์˜ AIME ์ •ํ™•๋„. (b) RL ํ”„๋กœ์„ธ์Šค ์ค‘ ์‘๋‹ต์˜ ํ‰๊ท  ๊ธธ์ด ์ฆ๊ฐ€.

๋ณธ ๋…ผ๋ฌธ์€ ์ธ๊ฐ„์ด ์ฃผ์„์„ ๋‹จ ์ถ”๋ก  ๊ถค์ (reasoning trajectory) ์—†์ด ์ˆœ์ˆ˜ ๊ฐ•ํ™”ํ•™์Šต(RL)์„ ํ†ตํ•ด ๋Œ€ํ˜•์–ธ์–ด๋ชจ๋ธ(LLM)์˜ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ์œ ๋„ํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ค€๋‹ค. RL ํ›ˆ๋ จ ๊ณผ์ •์—์„œ ๋ชจ๋ธ์€ ์ž๋ฐœ์ ์œผ๋กœ ์ž๊ธฐ ๊ฒ€์ฆ, ์žฌ๊ฒ€ํ† , ๋™์  ์ „๋žต ์ ์‘ ๋“ฑ์˜ ๊ณ ๊ธ‰ ์ถ”๋ก  ํŒจํ„ด์„ ๊ฐœ๋ฐœํ•œ๋‹ค.

Motivation

Achievement

Figure 1a

AIME 2024 ๋ฒค์น˜๋งˆํฌ์—์„œ Pass@1 15.6%์—์„œ 77.9%๋กœ, Self-consistency ์ ์šฉ ์‹œ 86.7%๊นŒ์ง€ ๋‹ฌ์„ฑ

  1. ์ˆ˜ํ•™ ๋ฌธ์ œ ํ•ด๊ฒฐ: AIME 2024์—์„œ Pass@1 ๊ธฐ์ค€ 77.9%, Self-consistency ์ ์šฉ ์‹œ 86.7% ์ •ํ™•๋„ ๋‹ฌ์„ฑ (์ธ๊ฐ„ ํ‰๊ท  ์ˆ˜์ค€ ์ดˆ๊ณผ)
  2. ์ฝ”๋”ฉ ๊ฒฝ์Ÿ ๋ฐ STEM ๋ถ„์•ผ ์šฐ์ˆ˜์„ฑ: ์ฝ”๋”ฉ ๊ฒฝ์Ÿ(coding competitions) ๋ฐ ๋Œ€ํ•™์› ์ˆ˜์ค€์˜ ์ƒ๋ฌผ, ๋ฌผ๋ฆฌ, ํ™”ํ•™ ๋ฌธ์ œ์—์„œ ํƒ์›”ํ•œ ์„ฑ๋Šฅ ์ž…์ฆ
  3. ์ž๋ฐœ์  ์ถ”๋ก  ๋Šฅ๋ ฅ ๋ฐœ์ „: ์™ธ๋ถ€ ์ œ์•ฝ ์—†์ด ์ž๋™์œผ๋กœ ์‚ฌ๊ณ  ์‹œ๊ฐ„ ์ฆ๊ฐ€(Figure 1b, ์ˆ˜๋ฐฑ์—์„œ ์ˆ˜์ฒœ ํ† ํฐ), ๊ฒ€์ฆ๊ณผ ์žฌ๊ฒ€ํ†  ๋“ฑ์˜ ๊ณ ๊ธ‰ ์ถ”๋ก  ์ „๋žต ๋…๋ฆฝ์  ๊ฐœ๋ฐœ
  4. ๋ชจ๋ธ ์ฆ๋ฅ˜(Distillation): ์†Œํ˜• ๋ชจ๋ธ๋กœ ์ฆ๋ฅ˜๋œ ๋ฒ„์ „๋“ค๋„ ์›๋ž˜์˜ ๋ช…๋ น์–ด ์กฐ์ •(instruction-tuned) ๋ชจ๋ธ์„ ๋Šฅ๊ฐ€ํ•˜๋Š” ์ถ”๋ก  ๋Šฅ๋ ฅ ๋ณด์œ 

How

Figure 5

RL ํ”„๋ ˆ์ž„์›Œํฌ ๊ฐœ์š”

Originality

Limitation & Further Study

Evaluation

Novelty: 5/5 Technical Soundness: 5/5 Significance: 5/5 Clarity: 4/5 Overall: 4.75/5

์ดํ‰: ๋ณธ ๋…ผ๋ฌธ์€ LLM์˜ ์ถ”๋ก  ๋Šฅ๋ ฅ ๋ฐœ์ „์— ์žˆ์–ด ์ธ๊ฐ„ ์ฃผ์„์˜ ํ•„์š”์„ฑ์„ ๊ทผ๋ณธ์ ์œผ๋กœ ์žฌ๊ฒ€ํ† ํ•˜๋ฉฐ, ์ˆœ์ˆ˜ RL๋งŒ์œผ๋กœ ๊ณ ๊ธ‰ ์ถ”๋ก  ํŒจํ„ด์˜ ์ž๋ฐœ์  ๋ฐœํ˜„์„ ์ž…์ฆํ•œ ํ˜์‹ ์  ์—ฐ๊ตฌ์ด๋‹ค. AIME์—์„œ ์ธ๊ฐ„ ์ˆ˜์ค€์„ ์ดˆ๊ณผํ•˜๋Š” ์„ฑ๋Šฅ ๋‹ฌ์„ฑ๊ณผ ํ•จ๊ป˜ ๋ชจ๋ธ์˜ ์ž๊ธฐ ์ง„ํ™” ๊ณผ์ •์„ ๋ช…ํ™•ํžˆ ๋ณด์—ฌ์ฃผ๋Š” ์ ์ด ๋†’์ด ํ‰๊ฐ€๋˜๋‚˜, ๊ฐœ๋ฐฉํ˜• ์ž‘์—…์œผ๋กœ์˜ ํ™•์žฅ๊ณผ ์‹ ๊ฒฝ๋ง ๋ณด์ƒ ๋ชจํ˜•์˜ ์•ˆ์ •ํ™”๊ฐ€ ํ–ฅํ›„ ๊ณผ์ œ๋กœ ๋‚จ์•„์žˆ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๋Œ€ํ˜•์–ธ์–ด๋ชจ๋ธ์˜ ์ถ”๋ก  ์œ ๋„ ๋ฐ ํ‰๊ฐ€ ๋ฐฉ๋ฒ•๋ก ์„ ํฌ๊ด„์ ์œผ๋กœ ๋…ผ์˜ํ•˜๋ฉฐ, ๊ฐ•ํ™”ํ•™์Šต ๊ธฐ๋ฐ˜ ๊ณ ๊ธ‰ ์ถ”๋ก  ํŒจํ„ด์˜ ์—ฐ๊ตฌ์  ๋งฅ๋ฝ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
RM-R1 ๋…ผ๋ฌธ์€ LLM์˜ ์ถ”๋ก ์„ ๋ฆฌ์›Œ๋“œ ๋ชจ๋ธ๋ง ๊ด€์ ์—์„œ ์‹ฌ์ธต์ ์œผ๋กœ ๋ถ„์„ํ•˜๋ฉฐ, DeepSeek-R1๊ณผ ์œ ์‚ฌํ•œ ๊ฐ•ํ™”ํ•™์Šต ๊ธฐ๋ฐ˜ ์ ‘๊ทผ์˜ ์ด๋ก ์  ํ† ๋Œ€๋ฅผ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
DeepSeek-R1์˜ ๊ฐ•ํ™”ํ•™์Šต ๊ธฐ๋ฐ˜ ์ถ”๋ก  ๋Šฅ๋ ฅ์€ ์ž์œ ๊ณต๊ฐ„ ๊ด‘ํ•™ ์‹คํ—˜ ์ž๋™ํ™” ์‹œ์Šคํ…œ์˜ LLM ์—์ด์ „ํŠธ ์„ค๊ณ„์— ๊ธฐ๋ฐ˜ ๊ธฐ์ˆ ๋กœ ํ™œ์šฉ๋  ์ˆ˜ ์žˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
449 ๋…ผ๋ฌธ์˜ RL ๊ธฐ๋ฐ˜ ์ •์ฑ… ์ตœ์ ํ™” ์ ‘๊ทผ์€ 265์—์„œ LLM ๊ฐ•ํ™”ํ•™์Šต์„ ์œ„ํ•œ ๋ณด์ƒ ๋ชจ๋ธ๋ง ๊ธฐ์ดˆ ๊ฐœ๋…์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
DeepSeek-R1์˜ ๊ฐ•ํ™”ํ•™์Šต ๊ธฐ๋ฐ˜ ์ถ”๋ก  ๋Šฅ๋ ฅ์€ LLM์ด PDDL๊ณผ ๊ฐ™์€ ๊ธฐํ˜ธ์  ์„ธ๊ณ„ ๋ชจ๋ธ์„ ์ƒ์„ฑํ•˜๋Š” ๋ฐ ํ•„์š”ํ•œ ๋…ผ๋ฆฌ์  ์ถ”๋ก ์˜ ๊ธฐ๋ฐ˜์ด ๋œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
LLM์˜ RL์„ ํ†ตํ•œ ์ถ”๋ก  ์œ ๋„ ๋ฐ ๊ฐ•ํ™”ํ•™์Šต์˜ ์ผ๋ฐ˜ํ™” ํšจ๊ณผ๋ฅผ ์‹คํ—˜์ ์œผ๋กœ ๋ถ„์„ํ•˜์—ฌ RL๊ณผ SFT์˜ ๋น„๊ต๊ตฌ๋„๋ฅผ ๋ณด์™„ํ•จ.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
265๋Š” ๊ฐ•ํ™”ํ•™์Šต์„ ํ†ตํ•œ LLM ์ถ”๋ก  ์ธ์„ผํ‹ฐ๋ธŒ ์ตœ์ ํ™” ์›๋ฆฌ๋ฅผ ์ œ์‹œํ•˜๋ฉฐ, 837์˜ RL ๊ธฐ๋ฐ˜ ํŠนํ™”๋ชจ๋ธ ํ›ˆ๋ จ๊ณผ ์ง์ ‘ ์—ฐ๊ฒฐ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
DeepSeek-R1 ๋…ผ๋ฌธ์€ LLM์˜ ๋ณต์žกํ•œ ๊ณผ์ œ์—์„œ ์ถ”๋ก  ๋Šฅ๋ ฅ ํ–ฅ์ƒ ๊ธฐ๋ฒ•์„ ๋‹ค๋ฃจ๋ฉฐ FROGENT์˜ ์ž๋™ํ™” ์ถ”๋ก  ํŒŒ์ดํ”„๋ผ์ธ ์„ค๊ณ„์— ๊ทผ๊ฐ„์ด ๋œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
DeepSeek-R1์˜ RL ๊ธฐ๋ฐ˜ ์ž๊ธฐ ๊ฐœ์„  ๋ฉ”์ปค๋‹ˆ์ฆ˜์€ SEVerA๊ฐ€ ํ˜•์‹์ ์œผ๋กœ ๊ฒ€์ฆํ•˜๋ ค๋Š” ์ž๊ธฐ ์ง„ํ™” ์—์ด์ „ํŠธ์˜ ํ•ต์‹ฌ ํ•™์Šต ํŒจ๋Ÿฌ๋‹ค์ž„์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Selfcheck๋Š” LLM์ด ์ž์‹ ์˜ ๋‹จ๊ณ„๋ณ„ ์ถ”๋ก ์„ ์ž๊ฐ€ ๊ฒ€์ฆํ•˜๋Š” zero-shot ๋ฐฉ๋ฒ•์„ ๋‹ค๋ฃจ๋ฉฐ, DeepSeek-R1์˜ ์ž๊ธฐ ๊ฒ€์ฆ ๊ฐ•ํ™”ํ•™์Šต ํšจ๊ณผ์™€ ๋Œ€์กฐํ•ด๋ณผ ์ˆ˜ ์žˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
ํ”„๋กœ๊ทธ๋ž˜๋ฐ ๊ฒฐ๊ณผ๋ฌผ์˜ ๋งฅ๋ฝ์  ์žฌ์ž‘์„ฑ ๋ฐ ์ž๊ฐ€ ๊ฐœ์„  ์ „๋žต์„ LLM์— ์ ์šฉํ•˜๋Š” ์•„์ด๋””์–ด๋กœ, reasoning ์œ ๋„์™€ ํ”ผ๋“œ๋ฐฑ ํ™œ์šฉ ์ธก๋ฉด์ด ์œ ์‚ฌํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๊ฐ•ํ™”ํ•™์Šต์„ ํ†ตํ•œ LLM ์ถ”๋ก  ๋Šฅ๋ ฅ ํ–ฅ์ƒ์„ ์œ„ํ•œ ๋Œ€์•ˆ์  ์ ‘๊ทผ๋ฒ•์„ ์ œ์‹œํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM์˜ ์ถ”๋ก  ๋Šฅ๋ ฅ ๊ฐœ์„ ์„ ์œ„ํ•œ ๋‹ค๋ฅธ ๋ฐฉ๋ฒ•๋ก ์ด๋‚˜ ์•„ํ‚คํ…์ฒ˜๋ฅผ ์ œ์‹œํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM์˜ ์ž๊ธฐ ๊ฒ€์ฆ ๋ฐ ์ถ”๋ก  ๋Šฅ๋ ฅ ํ–ฅ์ƒ์„ ์œ„ํ•œ ๋Œ€์•ˆ์  ๋ฐฉ๋ฒ•์„ ์ œ์‹œํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
PAG๋Š” ์ •์ฑ… ๊ธฐ์šธ๊ธฐ ๊ธฐ๋ฐ˜ ์ž๊ธฐ ์ˆ˜์ • ๊ฐ•ํ™”ํ•™์Šต์„ ์‚ฌ์šฉํ•˜์—ฌ LLM ์ถ”๋ก ์„ ๊ฐœ์„ ํ•˜๋ฉฐ, DeepSeek-R1๊ณผ ์œ ์‚ฌํ•œ RL ๊ธฐ๋ฐ˜ ์ถ”๋ก  ๊ฐ•ํ™” ์ ‘๊ทผ์„ ์ทจํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Reward-Guided Iterative Refinement ๋…ผ๋ฌธ์€ ๋””ํ“จ์ „ ๋ชจ๋ธ์—์„œ์˜ ๋ฆฌ์›Œ๋“œ ํ™œ์šฉ์„ ๋‹ค๋ฃจ๋ฉฐ, LLM์˜ ์ž๊ธฐ๊ฐœ์„ ยท์ถ”๋ก  ์œ ๋„์— ๋Œ€ํ•œ ๋‹ค์–‘ํ•œ ๊ฐ•ํ™”ํ•™์Šต ์‘์šฉ๋ฒ•์„ ๋น„๊ต ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
863๋ฒˆ ๋…ผ๋ฌธ๊ณผ ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ ๊ฐ•ํ™”ํ•™์Šต ๊ธฐ๋ฐ˜์˜ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ๊ฐœ์„ ํ•˜๊ณ ์ž ํ•˜์ง€๋งŒ, 265๋ฒˆ ๋…ผ๋ฌธ์€ LLM ์ž์ฒด์˜ ์ถ”๋ก  ๊ฐ•ํ™” ๊ธฐ๋ฒ•์„ ์ฃผ๋กœ ๋‹ค๋ฃน๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
DeepSeek ์‹œ๋ฆฌ์ฆˆ์˜ ์ด์ „ ์ž‘์—…์œผ๋กœ ๋ณธ ์—ฐ๊ตฌ์˜ ๊ธฐ๋ฐ˜์ด ๋˜๋Š” ๊ด€๋ จ ์—ฐ๊ตฌ์ด๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
๊ธด ์‚ฌ๊ณ  ์‚ฌ์Šฌ(Long Chain-of-Thought)์— ๋Œ€ํ•œ ์„œ๋ฒ ์ด๋กœ, DeepSeek-R1์ด ๊ฐœ์ฒ™ํ•œ RL ๊ธฐ๋ฐ˜ ์ถ”๋ก ์˜ ์ด๋ก ์  ๋ฐฐ๊ฒฝ๊ณผ ์ตœ์‹  ๋™ํ–ฅ์„ ํญ๋„“๊ฒŒ ๋‹ค๋ฃฌ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
SEVerA๋Š” ์ž๊ธฐ ์ง„ํ™” ์—์ด์ „ํŠธ์— ํ˜•์‹์  ์•ˆ์ „์„ฑ ๋ณด์ฆ์„ ์ถ”๊ฐ€ํ•œ ํ”„๋ ˆ์ž„์›Œํฌ๋กœ, DeepSeek-R1์˜ RL ๊ธฐ๋ฐ˜ ์ž๊ธฐ ๊ฐœ์„ ์„ ์•ˆ์ „ํ•˜๊ฒŒ ๊ฒ€์ฆํ•˜๋Š” ํ™•์žฅ์ด๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
์œ ์‚ฌํ•œ CBPS ์‹œ์Šคํ…œ์—์„œ์˜ ์›Œํฌ๋กœ๋“œ ํŠน์„ฑ ํ‰๊ฐ€์™€ ํšจ์œจ ํ–ฅ์ƒ์„ ์œ„ํ•œ ๊ฐ•ํ™”ํ•™์Šต ๊ธฐ๋ฐ˜ ๊ธฐ๋ฒ•์„ ์ ์šฉํ•˜๋Š” ์‚ฌ๋ก€์ž…๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •