Curriculum Reinforcement Learning from Easy to Hard Tasks Improves LLM Reasoning
์ ์: Shubham Parashar, Shurui Gui, Xiner Li, Hongyi Ling, Sushil Vemuri | ๋ ์ง: 2025 | DOI: 10.48550/arXiv.2506.06632 📄 PDF
Essence
E2H Reasoner์ ์์
๋ถํด: ํ์ต์ด ์งํ๋จ์ ๋ฐ๋ผ ์๋ช
(Trivial) โ ์ฌ์(Easy) โ ์ค๊ฐ(Medium) โ ์ด๋ ค์(Hard) ์์
์ผ๋ก ์ ์ง์ ์ ํ
๋ณธ ๋
ผ๋ฌธ์ ๋๊ท๋ชจ ์ธ์ด๋ชจ๋ธ(LLM)์ ์ถ๋ก ๋ฅ๋ ฅ์ ๊ฐํํ์ต(RL)๊ณผ ์ปค๋ฆฌํ๋ผ ํ์ต์ ๊ฒฐํฉํ์ฌ ๊ฐ์ ํ๋ E2H Reasoner ๋ฐฉ๋ฒ์ ์ ์ํ๋ค. ์์
์ ๋์ด๋๋ณ๋ก ๋ถํดํ๊ณ ํ๋ฅ ์ ์ค์ผ์ค๋ฌ๋ฅผ ํตํด ์ฌ์ด ์์
์์ ์ด๋ ค์ด ์์
์ผ๋ก ์ ์ง์ ํ์ต์ ์ํํจ์ผ๋ก์จ, ๋จ์ RL๋ง์ผ๋ก๋ ํด๊ฒฐ ๋ถ๊ฐ๋ฅํ ์ถ๋ก ๋ฌธ์ ๋ฅผ ํ์ต ๊ฐ๋ฅํ๊ฒ ํ๋ค.
Motivation
- Known: DeepSeek-R1๊ณผ OpenAI o1 ๊ฐ์ ๋ชจ๋ธ๋ค์ RL ๊ธฐ๋ฐ ์ฌํํ์ต(post-training)์ ํตํด ๋ฐ์ด๋ ์ถ๋ก ๋ฅ๋ ฅ์ ๋ณด์ฌ์ค๋ค. ๊ทธ๋ฌ๋ ๊ธฐ์กด RL ๋ฐฉ์๋ง์ผ๋ก๋ ์ฌ์ ํ์ต ๋ชจ๋ธ์ด 0-shot์ผ๋ก ํด๊ฒฐํ์ง ๋ชปํ๋ ์ด๋ ค์ด ์์
ํ์ต์ ํ๊ณ๊ฐ ์๋ค.
- Gap: ๋จ์ RL์ ์ด๋ ค์ด ์์
์์ ํฌ์ํ ๋ณด์ ์ ํธ(sparse reward)๋ก ์ธํด ํ์ต์ด ๋นํจ์จ์ ์ด๋ค. ๋ํ ๋ณต์กํ ์ถ๋ก ์์
์ ์ฌ๋ฌ ๊ธฐ์ด ๊ธฐ์ ์ ์กฐํฉ์ ์๊ตฌํ๋๋ฐ, ์ธ๋ฐํ ๋จ๊ณ๋ณ ๋ณด์ ์ค๊ณ๋ ์์
ํนํ์ ์ด๊ณ ํ์ฅ์ฑ์ด ๋จ์ด์ง๋ค.
- Why: ์ปค๋ฆฌํ๋ผ ํ์ต์ ์ธ๊ฐ ํ์ต๊ณผ ์ ์ฌํ๊ฒ ๊ธฐ์ด๋ถํฐ ์ฌํ ๋ด์ฉ์ผ๋ก ์์ฐจ ์งํํ์ฌ ํ์ต ํจ์จ์ ๋์ผ ์ ์๋ค. ์์
๋ถํด๋ฅผ ํตํด ๋ถํฌ ๋ณํ(distribution shift)๋ฅผ ์ํํ๊ณ , ๋์ด๋๋ณ ํ์ต์ผ๋ก ๊ธฐ์ด ๊ธฐ์ ์ต๋์ ๋จ๊ณํํ ์ ์๋ค.
- Approach:
- ํ์ต ๋ฐ์ดํฐ๋ฅผ ๋์ด๋๋ณ ๋ถ๋ถ์งํฉ์ผ๋ก ๋ถํด (์๋ช
/์ฌ์/์ค๊ฐ/์ด๋ ค์)
- ํ์ต ์งํ์ ๋ฐ๋ผ ํ๋ฅ ์ ์ค์ผ์ค๋ฌ๋ก ์์
๋น์ค์ ๋์ ์กฐ์
- ์ด๋ก ์ ์๋ ด ๋ณด์ฅ ์ ๊ณต (Approximate Policy Iteration ํ๋ ์์ํฌ)
Achievement
Pass@k ํ๊ฐ์์ E2H๊ฐ ๊ธฐ์ ๋ชจ๋ธ์ ์ํ: (a) Countdown, (b) Blocksworld, (c) LLaMA 3.2 3B์ ์ถ๋ก ์์
- ์ค์ฆ์ ์ฑ๊ณผ: 5๊ฐ ์ถ๋ก ์์
(Blocksworld, Countdown, MATH, AQuA, GSM8K)์์ ์ต๊ณ ์ฑ๋ฅ(SOTA) ๋ฌ์ฑ. ํนํ ๊ธฐ์ ๋ชจ๋ธ์ด 0-shot์ผ๋ก ํด๊ฒฐ ๋ถ๊ฐ๋ฅํ ๋ฌธ์ ๊น์ง ํ์ตํ์ฌ ๋์ pass@k ๊ฐ ๋ฌ์ฑ
- ์ด๋ก ์ ๋ณด์ฅ: Approximate Policy Iteration ํ๋ ์์ํฌ ๋ด์์ E2H Reasoner์ ์๋ ด์ฑ์ ์ฆ๋ช
ํ๊ณ , ์ ์ ํ๊ฒ ๋ถํด๋ ์์
์ ํตํ ์ปค๋ฆฌํ๋ผ ํ์ต์ด ์ง์ ํ์ต๋ณด๋ค ์ ์ ํ๋ณธ์ผ๋ก๋ ์๋ ด ๊ฐ๋ฅํจ์ ๋ณด์๋ค (finite-sample complexity bound ๋์ถ)
- ์ผ๋ฐํ ๋ฅ๋ ฅ: ์ปค๋ฆฌํ๋ผ ํ์ต์ ํตํด ๋ชจ๋ธ์ด ๋ถํฌ ๋ด ๋์ ๋ฟ๋ง ์๋๋ผ ๋ถํฌ ์ธ(OOD) ์์
์ผ๋ก์ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๊ฐํ
How
์ฝ์ฌ์ธ ๊ธฐ๋ฐ ์ค์ผ์ค๋ง ๋ฉ์ปค๋์ฆ (Gaussian Sampler๋ฅผ ํตํ ๋์ ์์
๋น์ค ์กฐ์ )
๋ฐฉ๋ฒ๋ก ์ ํต์ฌ ์์:
- ์์
๋ถํด (Task Decomposition):
- ์ธ๊ฐ ์ฃผ์ ํ์ฉ: ๊ณํ ๊ธธ์ด(Blocksworld), ๋ผ๋ฒจ๋ ๋์ด๋(MATH), ํผ์ฐ์ฐ์ ์(Countdown)
- ์๋ ๋์ด๋ ์ถ์ : CoT ํ๋กฌํํ
๊ธฐ๋ฐ ์ค๋ฅ์จ ์ฟผํ์ผ(quartile) ๋ถ๋ฅ (AQuA, GSM8K)
- ์ด 4๋จ๊ณ ๋์ด๋ ๋ ๋ฒจ ์ค์
- ํ๋ฅ ์ ์ค์ผ์ค๋ฌ (Probabilistic Scheduler):
- Gaussian Sampler๋ฅผ ํตํ ๋ถ๋๋ฌ์ด ํ๋ฅ ๋ถํฌ ์ ํ
- ์ฝ์ฌ์ธ ํจ์ ๊ธฐ๋ฐ ์ค์ผ์ค๋ง์ผ๋ก ํ์ต ์ด๊ธฐ ์ฌ์ด ์์
๊ฐ์กฐ ํ ์ ์ง์ ํ๊ฐ
- ๊ฐ ํ์ต ์คํ
์์ ์์
๋์ด๋๋ฅผ ์ํ๋งํ์ฌ ์ ์์ ์ปค๋ฆฌํ๋ผ ๊ตฌ์ฑ
- ๊ฐํํ์ต ํฌ๋ฆฌํฐ ์ต์ ํ:
- MDP ํ์ํ: ์ํ(ํ ํฐ ํ๋ฆฌํฝ์ค), ํ๋(์ดํ), ๋ณด์(์ ๋ต ์ฌ๋ถ์ ํฌ์ ์ ํธ)
- , ํ๊ทธ๋ก ์ถ๋ก ๊ณผ์ ๊ณผ ์ต์ข
๋ต ๊ตฌ๋ถ
- ๊ธฐ์กด RL ์๊ณ ๋ฆฌ์ฆ(GRPO ๋ฑ)๊ณผ ํธํ ๊ฐ๋ฅํ ์ค๊ณ
- ๊ณผ์ ํฉ ๋ฐฉ์ง:
- ์ ์ ํ ์ค์ผ์ค๋ง์ ํตํด ์ฌ์ด ์์
์ ์ ์ง์ ์ผ๋ก ํ์ด๋ ์์
- ๋จ์ํ ์ฌ์ด ์์
์๋ง ์ง์คํ์ง ์๋๋ก ๋์ ์กฐ์
Originality
- ์๋ก์ด ๊ด์ : ์ถ๋ก ์ "์ค๊ฐ ๋จ๊ณ ์์ฑ"์ด ์๋๋ผ "๊ธฐ์ด ์๋ฆฌ๋ฅผ ์ต๋ํ์ฌ ๋ณต์กํ ๋ฌธ์ ์ ์ ์ฉํ๋ ์ผ๋ฐํ ๋ฅ๋ ฅ"์ผ๋ก ์ฌ์ ์ํ์ฌ ์ถ๋ก ์ ๋ณธ์ง์ ์ ๊ทผ
- ๊ฐ์ ๋ ์ปค๋ฆฌํ๋ผ ์ค๊ณ: ๊ธฐ์กด์ ๊ณ ์ ๋ ๋ฐ๋ณต(fixed iterations) ๊ธฐ๋ฐ ์ ํ์ด ์๋๋ผ ํ๋ฅ ์ ์ค์ผ์ค๋ฌ(Gaussian Sampler)๋ฅผ ํตํ ๋ถ๋๋ฝ๊ณ ๋์ ์ธ ์์
๋น์ค ์กฐ์ ์ผ๋ก ์ฐจ๋ณํ
- ์ด๋ก ์ ๊ธฐ์ฌ: Approximate Policy Iteration ํ๋ ์์ํฌ์์ CRL์ ์๋ ด์ฑ๊ณผ ํ๋ณธ ๋ณต์ก๋ ์ํ์ ์๋ฐํ๊ฒ ์ฆ๋ช
ํ์ฌ ๊ฒฝํ์ ๊ด์ฐฐ์ ์ด๋ก ์ผ๋ก ๋ท๋ฐ์นจ
- ํ์ฅ ๊ฐ๋ฅํ ๋์ด๋ ์ถ์ : ์ธ๊ฐ ์ฃผ์์ด ์๋ ๊ฒฝ์ฐ CoT ๊ธฐ๋ฐ ์๋ ๋์ด๋ ์ถ์ ์ผ๋ก ์๋ก์ด ์์
์ ๋น ๋ฅธ ์ ์ฉ ๊ฐ๋ฅ
Limitation & Further Study
- ์์
๋ถํด์ ํ๊ณ: ๋์ด๋ ๋ถํด๊ฐ ํด๋ฆฌ์คํฑ(๊ฒฝํ๋ฒ์น)์ ๊ธฐ๋ฐํ๋ฉฐ, ์ต์ ์ ๋ถํด ๋ฐฉ์์ด๋ ๋จ๊ณ ์์ ๋ํ ์ด๋ก ์ ์ง์นจ์ด ๋ถ์ฌ. ๋ค์ํ ๋๋ฉ์ธ์ ๋ํ ๋ณดํธ์ ๋ถํด ๊ธฐ์ค ๋ถ์กฑ
- ํ์ฅ์ฑ ์ ์ฝ: ํ์ฌ ํ๊ฐ๋ ์์ ๊ท๋ชจ ๋ชจ๋ธ(1.5B~3B)๊ณผ ์ ํ๋ ์์
์์์ ์ํ. ๋๊ท๋ชจ ๋ชจ๋ธ(10B ์ด์)๊ณผ ๋ ๋ค์ํ ์ถ๋ก ์์
์ ๋ํ ๊ฒ์ฆ ํ์
- ์ค์ผ์ค๋ง ํ์ดํผํ๋ผ๋ฏธํฐ: ์ฝ์ฌ์ธ ์ค์ผ์ค๋ฌ์ ๊ธฐ์ธ๊ธฐ, ๊ฐ์ฐ์์ ๋ถํฌ์ ํ์คํธ์ฐจ ๋ฑ ํ์ดํผํ๋ผ๋ฏธํฐ์ ๋ฏผ๊ฐ๋ ๋ถ์ ๋ฐ ์๋ ์ค์ ๋ฐฉ์ ๋ฏธ์ ์
- ํ์ ์ฐ๊ตฌ ๋ฐฉํฅ:
- ๋ฉํ๋ฌ๋(meta-learning) ๊ธฐ๋ฐ ์ต์ ์ปค๋ฆฌํ๋ผ ์๋ ์ค๊ณ
- ๋ค์ค ์ถ๋ก ๋๋ฉ์ธ ๊ฐ ์ ์ดํ์ต(transfer learning) ํจ๊ณผ ๋ถ์
- ํผํฉ ์ ๋ต(hybrid approach): ๋จ๊ณ๋ณ ๋ณด์ ์ ํธ์ ์ปค๋ฆฌํ๋ผ์ ๊ฒฐํฉ ํจ๊ณผ ์ฐ๊ตฌ
- ์ธ๊ฐ ํผ๋๋ฐฑ(RLHF) ํตํฉ์ผ๋ก ์ปค๋ฆฌํ๋ผ ํ์ต์ ์์ ์ฑ ๊ฐ์
Evaluation
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ LLM ์ถ๋ก ํ์ต์ ์ํด ์ปค๋ฆฌํ๋ผ ํ์ต๊ณผ ๊ฐํํ์ต์ ๊ฒฐํฉํ ์ค์ง์ ์ผ๋ก ํจ๊ณผ์ ์ธ ๋ฐฉ๋ฒ์ ์ ์ํ๋ฉฐ, ์ด๋ก ์ ์๋ ด ๋ณด์ฅ๊ณผ ์ค์ฆ์ ์ฐ์์ฑ์ ๋์์ ์ ๊ณตํ๋ค. ๋ค๋ง ๋์ด๋ ๋ถํด์ ์๋ํ, ๋๊ท๋ชจ ๋ชจ๋ธ ๊ฒ์ฆ, ํ์ดํผํ๋ผ๋ฏธํฐ ๋ฏผ๊ฐ๋ ๋ถ์ ๋ฑ์ ๋ณด์์ด ์์ผ๋ฉด ์ํฅ๋ ฅ์ด ๋์ฑ ์ฆ๋๋ ๊ฒ์ผ๋ก ํ๋จ๋๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
์ปค๋ฆฌํ๋ผ RL์์ ์ถ๋ก ์ ํ์ ์กฐํฉ ๋ฐ ReAct ๋ฐฉ์ ์ ์ฉ์ ์ด๋ก ์ ๊ธฐ๋ฐ์ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
SFT Memorizes, RL Generalizes ๋
ผ๋ฌธ์ RL ๊ธฐ๋ฐ LLM reasoning ํ์ต์์ ์ผ๋ฐํ์ ์ปค๋ฆฌํ๋ผ ์ค๊ณ์ ์ด๋ก ์ ๋ฐํ์ ์ ๊ณตํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
746์ ์ค์ค๋ก ์๊ธฐ ํผ๋๋ฐฑ์ ํตํ ์ ์ง์ ์ถ๋ก ์ฑ๋ฅ ๊ฐ์ ์ ๊ตฌํํ์ฌ, 249์ ๋์ด๋ ๊ธฐ๋ฐ ์ปค๋ฆฌํ๋ผ ํ์ต ๋ฐฉ์๊ณผ๋ ๋ค๋ฅด์ง๋ง ์ ์ฌ ๋ฌธ์ ๋ฅผ ๋ค๋ฅธ ๋ฐฉ๋ฒ์ผ๋ก ์ ๊ทผํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
449๋ LLM์ RL ๊ธฐ๋ฐ ๊ฐํํ์ต์ผ๋ก ํ์ฅํ๋ ๋ค์ํ ์ ๊ทผ์ ์ ์ํด, 249์ ์ปค๋ฆฌํ๋ผ-๊ฐํํ์ต ์กฐํฉ๊ณผ ๋น๊ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
์๋ํ๋ ๊ณผํํ๊ตฌ์์ RL ๊ธฐ๋ฐ ๋ฐ๋ณต์ ์ฌ๊ณ (think-loop) ํ๋ ์์ํฌ์ ๋ ๋ค๋ฅธ ์ค๊ณ ๋ฐฉ์์ ์ ์ํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๊ฐํํ์ต์ ํตํ LLM ์ถ๋ก ๋ฅ๋ ฅ ํฅ์์ ์ํ ๋์์ ์ ๊ทผ๋ฒ์ ์ ์ํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์