Essence
Figure 1: (a) RL ํ๋ จ ๊ณผ์ ์์ DeepSeek-R1-Zero์ AIME ์ ํ๋. (b) RL ํ๋ก์ธ์ค ์ค ์๋ต์ ํ๊ท ๊ธธ์ด ์ฆ๊ฐ.
๋ณธ ๋
ผ๋ฌธ์ ์ธ๊ฐ์ด ์ฃผ์์ ๋จ ์ถ๋ก ๊ถค์ (reasoning trajectory) ์์ด ์์ ๊ฐํํ์ต(RL)์ ํตํด ๋ํ์ธ์ด๋ชจ๋ธ(LLM)์ ์ถ๋ก ๋ฅ๋ ฅ์ ์ ๋ํ ์ ์์์ ๋ณด์ฌ์ค๋ค. RL ํ๋ จ ๊ณผ์ ์์ ๋ชจ๋ธ์ ์๋ฐ์ ์ผ๋ก ์๊ธฐ ๊ฒ์ฆ, ์ฌ๊ฒํ , ๋์ ์ ๋ต ์ ์ ๋ฑ์ ๊ณ ๊ธ ์ถ๋ก ํจํด์ ๊ฐ๋ฐํ๋ค.
Evaluation
Novelty: 5/5 Technical Soundness: 5/5 Significance: 5/5 Clarity: 4/5 Overall: 4.75/5
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ LLM์ ์ถ๋ก ๋ฅ๋ ฅ ๋ฐ์ ์ ์์ด ์ธ๊ฐ ์ฃผ์์ ํ์์ฑ์ ๊ทผ๋ณธ์ ์ผ๋ก ์ฌ๊ฒํ ํ๋ฉฐ, ์์ RL๋ง์ผ๋ก ๊ณ ๊ธ ์ถ๋ก ํจํด์ ์๋ฐ์ ๋ฐํ์ ์
์ฆํ ํ์ ์ ์ฐ๊ตฌ์ด๋ค. AIME์์ ์ธ๊ฐ ์์ค์ ์ด๊ณผํ๋ ์ฑ๋ฅ ๋ฌ์ฑ๊ณผ ํจ๊ป ๋ชจ๋ธ์ ์๊ธฐ ์งํ ๊ณผ์ ์ ๋ช
ํํ ๋ณด์ฌ์ฃผ๋ ์ ์ด ๋์ด ํ๊ฐ๋๋, ๊ฐ๋ฐฉํ ์์
์ผ๋ก์ ํ์ฅ๊ณผ ์ ๊ฒฝ๋ง ๋ณด์ ๋ชจํ์ ์์ ํ๊ฐ ํฅํ ๊ณผ์ ๋ก ๋จ์์๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
๋ํ์ธ์ด๋ชจ๋ธ์ ์ถ๋ก ์ ๋ ๋ฐ ํ๊ฐ ๋ฐฉ๋ฒ๋ก ์ ํฌ๊ด์ ์ผ๋ก ๋
ผ์ํ๋ฉฐ, ๊ฐํํ์ต ๊ธฐ๋ฐ ๊ณ ๊ธ ์ถ๋ก ํจํด์ ์ฐ๊ตฌ์ ๋งฅ๋ฝ์ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
RM-R1 ๋
ผ๋ฌธ์ LLM์ ์ถ๋ก ์ ๋ฆฌ์๋ ๋ชจ๋ธ๋ง ๊ด์ ์์ ์ฌ์ธต์ ์ผ๋ก ๋ถ์ํ๋ฉฐ, DeepSeek-R1๊ณผ ์ ์ฌํ ๊ฐํํ์ต ๊ธฐ๋ฐ ์ ๊ทผ์ ์ด๋ก ์ ํ ๋๋ฅผ ์ ๊ณตํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
DeepSeek-R1์ ๊ฐํํ์ต ๊ธฐ๋ฐ ์ถ๋ก ๋ฅ๋ ฅ์ ์์ ๊ณต๊ฐ ๊ดํ ์คํ ์๋ํ ์์คํ
์ LLM ์์ด์ ํธ ์ค๊ณ์ ๊ธฐ๋ฐ ๊ธฐ์ ๋ก ํ์ฉ๋ ์ ์๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
449 ๋
ผ๋ฌธ์ RL ๊ธฐ๋ฐ ์ ์ฑ
์ต์ ํ ์ ๊ทผ์ 265์์ LLM ๊ฐํํ์ต์ ์ํ ๋ณด์ ๋ชจ๋ธ๋ง ๊ธฐ์ด ๊ฐ๋
์ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
DeepSeek-R1์ ๊ฐํํ์ต ๊ธฐ๋ฐ ์ถ๋ก ๋ฅ๋ ฅ์ LLM์ด PDDL๊ณผ ๊ฐ์ ๊ธฐํธ์ ์ธ๊ณ ๋ชจ๋ธ์ ์์ฑํ๋ ๋ฐ ํ์ํ ๋
ผ๋ฆฌ์ ์ถ๋ก ์ ๊ธฐ๋ฐ์ด ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
LLM์ RL์ ํตํ ์ถ๋ก ์ ๋ ๋ฐ ๊ฐํํ์ต์ ์ผ๋ฐํ ํจ๊ณผ๋ฅผ ์คํ์ ์ผ๋ก ๋ถ์ํ์ฌ RL๊ณผ SFT์ ๋น๊ต๊ตฌ๋๋ฅผ ๋ณด์ํจ.
๊ธฐ๋ฐ ์ฐ๊ตฌ
265๋ ๊ฐํํ์ต์ ํตํ LLM ์ถ๋ก ์ธ์ผํฐ๋ธ ์ต์ ํ ์๋ฆฌ๋ฅผ ์ ์ํ๋ฉฐ, 837์ RL ๊ธฐ๋ฐ ํนํ๋ชจ๋ธ ํ๋ จ๊ณผ ์ง์ ์ฐ๊ฒฐ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
DeepSeek-R1 ๋
ผ๋ฌธ์ LLM์ ๋ณต์กํ ๊ณผ์ ์์ ์ถ๋ก ๋ฅ๋ ฅ ํฅ์ ๊ธฐ๋ฒ์ ๋ค๋ฃจ๋ฉฐ FROGENT์ ์๋ํ ์ถ๋ก ํ์ดํ๋ผ์ธ ์ค๊ณ์ ๊ทผ๊ฐ์ด ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
DeepSeek-R1์ RL ๊ธฐ๋ฐ ์๊ธฐ ๊ฐ์ ๋ฉ์ปค๋์ฆ์ SEVerA๊ฐ ํ์์ ์ผ๋ก ๊ฒ์ฆํ๋ ค๋ ์๊ธฐ ์งํ ์์ด์ ํธ์ ํต์ฌ ํ์ต ํจ๋ฌ๋ค์์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
Selfcheck๋ LLM์ด ์์ ์ ๋จ๊ณ๋ณ ์ถ๋ก ์ ์๊ฐ ๊ฒ์ฆํ๋ zero-shot ๋ฐฉ๋ฒ์ ๋ค๋ฃจ๋ฉฐ, DeepSeek-R1์ ์๊ธฐ ๊ฒ์ฆ ๊ฐํํ์ต ํจ๊ณผ์ ๋์กฐํด๋ณผ ์ ์๋ค.
๋ค๋ฅธ ์ ๊ทผ
ํ๋ก๊ทธ๋๋ฐ ๊ฒฐ๊ณผ๋ฌผ์ ๋งฅ๋ฝ์ ์ฌ์์ฑ ๋ฐ ์๊ฐ ๊ฐ์ ์ ๋ต์ LLM์ ์ ์ฉํ๋ ์์ด๋์ด๋ก, reasoning ์ ๋์ ํผ๋๋ฐฑ ํ์ฉ ์ธก๋ฉด์ด ์ ์ฌํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๊ฐํํ์ต์ ํตํ LLM ์ถ๋ก ๋ฅ๋ ฅ ํฅ์์ ์ํ ๋์์ ์ ๊ทผ๋ฒ์ ์ ์ํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM์ ์ถ๋ก ๋ฅ๋ ฅ ๊ฐ์ ์ ์ํ ๋ค๋ฅธ ๋ฐฉ๋ฒ๋ก ์ด๋ ์ํคํ
์ฒ๋ฅผ ์ ์ํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM์ ์๊ธฐ ๊ฒ์ฆ ๋ฐ ์ถ๋ก ๋ฅ๋ ฅ ํฅ์์ ์ํ ๋์์ ๋ฐฉ๋ฒ์ ์ ์ํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
PAG๋ ์ ์ฑ
๊ธฐ์ธ๊ธฐ ๊ธฐ๋ฐ ์๊ธฐ ์์ ๊ฐํํ์ต์ ์ฌ์ฉํ์ฌ LLM ์ถ๋ก ์ ๊ฐ์ ํ๋ฉฐ, DeepSeek-R1๊ณผ ์ ์ฌํ RL ๊ธฐ๋ฐ ์ถ๋ก ๊ฐํ ์ ๊ทผ์ ์ทจํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
Reward-Guided Iterative Refinement ๋
ผ๋ฌธ์ ๋ํจ์ ๋ชจ๋ธ์์์ ๋ฆฌ์๋ ํ์ฉ์ ๋ค๋ฃจ๋ฉฐ, LLM์ ์๊ธฐ๊ฐ์ ยท์ถ๋ก ์ ๋์ ๋ํ ๋ค์ํ ๊ฐํํ์ต ์์ฉ๋ฒ์ ๋น๊ต ๊ฐ๋ฅํ๊ฒ ํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
863๋ฒ ๋
ผ๋ฌธ๊ณผ ๋ง์ฐฌ๊ฐ์ง๋ก ๊ฐํํ์ต ๊ธฐ๋ฐ์ ์ถ๋ก ๋ฅ๋ ฅ์ ๊ฐ์ ํ๊ณ ์ ํ์ง๋ง, 265๋ฒ ๋
ผ๋ฌธ์ LLM ์์ฒด์ ์ถ๋ก ๊ฐํ ๊ธฐ๋ฒ์ ์ฃผ๋ก ๋ค๋ฃน๋๋ค.
ํ์ ์ฐ๊ตฌ
DeepSeek ์๋ฆฌ์ฆ์ ์ด์ ์์
์ผ๋ก ๋ณธ ์ฐ๊ตฌ์ ๊ธฐ๋ฐ์ด ๋๋ ๊ด๋ จ ์ฐ๊ตฌ์ด๋ค.
ํ์ ์ฐ๊ตฌ
๊ธด ์ฌ๊ณ ์ฌ์ฌ(Long Chain-of-Thought)์ ๋ํ ์๋ฒ ์ด๋ก, DeepSeek-R1์ด ๊ฐ์ฒํ RL ๊ธฐ๋ฐ ์ถ๋ก ์ ์ด๋ก ์ ๋ฐฐ๊ฒฝ๊ณผ ์ต์ ๋ํฅ์ ํญ๋๊ฒ ๋ค๋ฃฌ๋ค.
ํ์ ์ฐ๊ตฌ
SEVerA๋ ์๊ธฐ ์งํ ์์ด์ ํธ์ ํ์์ ์์ ์ฑ ๋ณด์ฆ์ ์ถ๊ฐํ ํ๋ ์์ํฌ๋ก, DeepSeek-R1์ RL ๊ธฐ๋ฐ ์๊ธฐ ๊ฐ์ ์ ์์ ํ๊ฒ ๊ฒ์ฆํ๋ ํ์ฅ์ด๋ค.
์์ฉ ์ฌ๋ก
์ ์ฌํ CBPS ์์คํ
์์์ ์ํฌ๋ก๋ ํน์ฑ ํ๊ฐ์ ํจ์จ ํฅ์์ ์ํ ๊ฐํํ์ต ๊ธฐ๋ฐ ๊ธฐ๋ฒ์ ์ ์ฉํ๋ ์ฌ๋ก์
๋๋ค.