์ ์: Lei Wang, Chen Ma, Xueyang Feng, Zeyu Zhang, Hao Yang, Jingsen Zhang, Zhiyuan Chen, Jiakai Tang, Xu Chen, Yankai Lin, Wayne Xin Zhao, Zhewei Wei, Ji-Rong Wen | ๋ ์ง: 2025 | DOI: N/A 📄 PDF
Essence
Long CoT์ Short CoT์ ๊ตฌ๋ณ: ๊น์ ์ถ๋ก (Deep Reasoning), ๊ด๋ฒ์ํ ํ์(Extensive Exploration), ์คํ ๊ฐ๋ฅํ ๋ฐ์ฑ(Feasible Reflection)์ ์ธ ๊ฐ์ง ํต์ฌ ํน์ฑ
OpenAI-o1๊ณผ DeepSeek-R1 ๊ฐ์ ์ถ๋ก ๋ํ์ธ์ด๋ชจ๋ธ(RLLMs)์ ์ฑ๊ณต์ ์ฅ๋ฌธ์ ์ฒด์ธ์ค๋ธ์ํธ(Long CoT) ํน์ฑ์ ๊ธฐ์ธํ๋ฉฐ, ๋ณธ ๋
ผ๋ฌธ์ Long CoT์ ์ ํต์ Short CoT์ ๊ตฌ๋ณ, ํต์ฌ ํน์ฑ, ๊ทธ๋ฆฌ๊ณ ๊ด๋ จ ํ์๋ค์ ๋ํ ์ต์ด์ ์ข
ํฉ์ ๋ถ์์ ์ ๊ณตํ๋ค.
Achievement
์ง๋ 3๋
๊ฐ ์ ํ๋ Long CoT์ ์งํ: ๊น์ ์ถ๋ก , ์คํ ๊ฐ๋ฅํ ๋ฐ์ฑ, ๊ด๋ฒ์ํ ํ์์ ์ธ ๊ฐ์ง ํน์ฑ์ ์์ ๋ถ๊ธฐ๋ก ํํ
Long CoT์ ๋ถ๋ฅ๋ฒ: ๊น์ ์ถ๋ก ํ์ฑ(์์ฐ์ด, ๊ตฌ์กฐํ๋ ์ธ์ด, ์ ์ฌ ๊ณต๊ฐ), ๊น์ ์ถ๋ก ํ์ต(๋ชจ๋ฐฉํ์ต, ์๊ธฐํ์ต), ์คํ ๊ฐ๋ฅํ ๋ฐ์ฑ(์ ์ฒด ํผ๋๋ฐฑ, ํ๋ก์ธ์ค ํผ๋๋ฐฑ), ๊ด๋ฒ์ํ ํ์(ํ์ ์ค์ผ์ผ๋ง, ๋ด๋ถ/์ธ๋ถ ํ์)
- ์ฒด๊ณ์ ๊ตฌ๋ณ: Long CoT๋ฅผ ํ์์ ์ผ๋ก ์ ์ํ๊ณ Short CoT์์ ์ฐจ์ด๋ฅผ ์์ํํจ.
- Short CoT: $\text{CoT}_S = R(\{n_i\}^k_{i=1}|(k \leq B_s) \land (j=1 \Leftrightarrow \forall i \leq k, n_i \to n_{i+j}) \land (\forall i \neq j \leq k, n_i \neq n_j))$
- Long CoT๋ ๊ฒฝ๊ณ $B_l \gg B_s$๋ก ํ์ฅํ๋ฉฐ, ๊น์ด ์ ์ฝ์ ์ํํจ
- ์ธ ๊ฐ์ง ํต์ฌ ํน์ฑ ์ ์:
- Deep Reasoning: ๋ณต์กํ ๊ตฌ์กฐ ์ ๋ฐ์์ ์๋ฐํ ๋
ผ๋ฆฌ์ ๋ถ์์ ์ํํ๋ ๋ฅ๋ ฅ
- Extensive Exploration: ํํ ๋ถํ์ค ๋
ธ๋ ์์ฑ ๋ฐ ์๋ ค์ง ๋
ผ๋ฆฌ์์ ๋ฏธ์ง์ ๋
ผ๋ฆฌ๋ก์ ์ ํ
- Feasible Reflection: ๋
ผ๋ฆฌ์ ์ฐ๊ฒฐ์ ํผ๋๋ฐฑ ๋ฐ ์ ์
- ํซ ํ์์ ์ฒด๊ณ์ ๋ถ์: overthinking, inference-time scaling, "Aha Moment" ๋ฑ์ ์ถํ ๋ฉ์ปค๋์ฆ ์ค๋ช
How
๊น์ ์ถ๋ก ์ ์ธ ๊ฐ์ง ์ฃผ์ ํ์: ์์ฐ์ด(CoT, MathPrompter), ๊ตฌ์กฐํ๋ ์ธ์ด(PoT, CoC), ์ ์ฌ ๊ณต๊ฐ(Quiet-STaR, PlanningTokens)
Deep Reasoning Formation (๊น์ ์ถ๋ก ํ์ฑ):
- ์์ฐ์ด ํ์: ์์ฐ ์ธ์ด๋ก ๋จ๊ณ๋ณ ์ถ๋ก ์ ๋ช
์์ ์ผ๋ก ํํ (CoT, MathPrompter, CodeI/O)
- ๊ตฌ์กฐํ๋ ์ธ์ด: ํ๋ก๊ทธ๋๋ฐ ์ธ์ด๋ ํ์ ๋
ผ๋ฆฌ๋ก ํํํ์ฌ ๊ฒ์ฆ์ฑ ๊ฐํ (PoT, CoC, ENVISIONS)
- ์ ์ฌ ๊ณต๊ฐ: ๋ชจ๋ธ์ ๋ด๋ถ ํํ ๊ณต๊ฐ์์ ์ถ๋ก ์ํ (Quiet-STaR, RecurrentBlock, LTMs)
Deep Reasoning Learning (๊น์ ์ถ๋ก ํ์ต):
- ๋ชจ๋ฐฉํ์ต: ์ฅ๋ฌธ ์ถ๋ก ๋ฐ์ดํฐ์
์ผ๋ก ๊ฐ๋
ํ์ต (GSM8K, AceMath, STILL-2)
- ์๊ธฐํ์ต: ๊ฐํํ์ต/์๊ธฐ๋ณด์์ ํตํ ์๋ ๊ฐ์ (STaR, ReST, CPO, BOLT)
Feasible Reflection (์คํ ๊ฐ๋ฅํ ๋ฐ์ฑ):
- ์ ์ฒด ํผ๋๋ฐฑ: ์ต์ข
๋ต๋ณ์ ์ ํ์ฑ ํ๊ฐ (Self-Critique, Critic-RM)
- ํ๋ก์ธ์ค ํผ๋๋ฐฑ: ์ค๊ฐ ๋จ๊ณ์ ์ ํ์ฑ ํ๊ฐ (ReAct, Math-Shepherd, PRIME)
Extensive Exploration (๊ด๋ฒ์ํ ํ์):
- ํ์ ์ค์ผ์ผ๋ง: ์ถ๋ก ๊ธธ์ด ์ฆ๊ฐ๋ก ์ฑ๋ฅ ํฅ์ (inference-time scaling)
- ๋ด๋ถ ํ์: ๋ชจ๋ธ ๋ด๋ถ์์ ์ฌ๋ฌ ๊ฒฝ๋ก ๋ณ๋ ฌ ์์ฑ (Self-Consistency, Tree of Thought)
- ์ธ๋ถ ํ์: ๋๊ตฌ/ํ๊ฒฝ๊ณผ์ ์ํธ์์ฉ์ ํตํ ํ์ (ReAct, Tool-use)
Evaluation
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ RLLMs์ ์ค์ฌ ๊ธฐ์ ์ธ Long CoT๋ฅผ ์ฒ์์ผ๋ก ์ฒด๊ณ์ ์ผ๋ก ๋ถ์ํ ์ค์ํ ์ข
ํฉ ์ค๋ฌธ์ผ๋ก, ๋ช
ํํ ๋ถ๋ฅ ์ฒด๊ณ์ ํ๋ถํ ์ฌ๋ก๋ฅผ ์ ๊ณตํ์ฌ ํ์ ์ฐ๊ตฌ์ ์ง๋๋ฅผ ์ ์ํ๋ค. ๋ค๋ง ์ด๋ก ์ ๊น์ด์ ์ผ๋ถ ํ์์ ์ค๋ช
์ด ์ถ๊ฐ ๋ฐ์ ์ ์ฌ์ง๋ฅผ ๋จ๊ธด๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
Generative language modeling for automated theorem proving ๋
ผ๋ฌธ์ ์ฒด์ธ์ค๋ธ์ํธ์ LLM ๊ธฐ๋ฐ ์ํ ์ฆ๋ช
์์ฑ์ด๋ผ๋ ์ฃผ์ ์์ 833 ๋
ผ๋ฌธ์ ํต์ฌ ๋
ผ์์ ์ด๋ก ์ ๊ธฐ๋ฐ์ด ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Towards reasoning era ๋
ผ๋ฌธ์ ์ฅ๊ธฐ ์ฒด์ธ์ค๋ธ์ํธ ๊ธฐ๋ฐ LLM ์ถ๋ก ์ ํต์ฌ ํน์ฑ๊ณผ ํ์์ ์ข
ํฉํด, ๋นํ์-ํ์ ์ฆ๋ช
๋ณํ์ ๊ฐ์น์ ํ๊ณ๋ฅผ ์ด๋ก ์ ์ผ๋ก ์กฐ๋ช
ํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
155 ๋
ผ๋ฌธ์ ๊ณ ํ์ง ์ฐ๊ตฌ ์์ด๋์ด ์์ฐ์ ์๋๋ ฅ์ ์ฌ์ธต ๋ถ์ํ์ฌ, 833์์ ๋ค๋ฃฌ ์ฅ๊ธฐ ์ฒด์ธ์ค๋ธ์ํธ ์ถ๋ก ์ ํ์ ์ฑ๊ณผ ์ฐ๊ด๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๊ธด chain-of-thought ์ถ๋ก ๋ฅ๋ ฅ ํ๊ฐ๋ฅผ ๋ค๋ฃจ๋ ์ข
ํฉ์ ๋ฆฌ๋ทฐ๋ก, ์ถ๋ก ๊ฒฝ๊ณ ์ธก์ ์ฒด๊ณ์ ๋ํ ์ด๋ก ์ ๊ธฐ์ด๋ฅผ ์ ๊ณตํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋ ๋ค LLM์ ๋ค๋จ๊ณ, ์ฒด์ธ์ค๋ธ์ํธ(Chain-of-Thought) ์ถ๋ก ๊ณผ์ ๋ถ์์ ์ด์ ์ ๋์ง๋ง, 242๋ ๋๊ตฌ์์ ์ํธ์์ฉ ๊ธฐ๋ฐ ์๊ฐ์์ ์ ์ง์คํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๊ธด ์ฌ๊ณ ์ฌ์ฌ ์๋ฒ ์ด๋ LLM์ ์ถ๋ก ๋ฅ๋ ฅ์ ์ฒด๊ณ์ ์ผ๋ก ๋ถ์ํ๋ฉฐ, ๊ฐ์ค ๋ฐ๊ฒฌ๊ณผ ๊ท์น ํ์ต ์๋ฒ ์ด์ ์ํธ ๋ณด์์ ์ธ ๊ด์ ์ ์ ๊ณตํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
346๋ฒ ๋
ผ๋ฌธ์ ๊ณผํ์ ๋ฌธ์ ํด๊ฒฐ์ ์ํ ํ์ด๋ฐ์ด์
๋ชจ๋ธ ์๋ธ์
์ ์ฉ์ ๋ค๋ฃจ์ด, chain-of-thought ๊ธฐ๋ฐ reasoning์ ํ์ฅ ๋๋ ๋์กฐ์ ๋ฐฉํฅ์ฑ์ ํ์ธํ ์ ์์ต๋๋ค.
ํ์ ์ฐ๊ตฌ
Draft, sketch, and prove ๋
ผ๋ฌธ์ ์ฅ๊ธฐ ์ฒด์ธ์ค๋ธ์ํธ์ ์ถ๋ก ์ ์ํด ๋นํ์-ํ์ ๋ณํ ์ ๊ทผ์ ์ ์ํ๋ฉฐ, 833 ๋
ผ๋ฌธ์ ๋กฑ CoT์ ์ค์ ์ฆ๋ช
์์คํ
์ฐ๊ฒฐ ์ธก๋ฉด์์ ์ฐ๊ด์ฑ์ด ๋๋ค.
ํ์ ์ฐ๊ตฌ
785 ๋
ผ๋ฌธ์ ๋ฉํฐ๋ชจ๋ฌ ์ฒด์ธ ์ค๋ธ ์ํธ ํ์ต์ ๋ต์ ์ค์ ๋ก ๋ํ ๋ชจ๋ธ์ ์ ์ฉ ๋ฐ ํ๊ฐํ์ฌ, reasoning era๋ก์ ์ง์
์์ Long CoT์ ์ค๋ฌด์ ์ํฅ๋ ฅ์ ๋ณด์ฌ์ค๋๋ค.
ํ์ ์ฐ๊ตฌ
833 ๋
ผ๋ฌธ์ด ๊ตฌ์ฒด์ ์ผ๋ก Long CoT ๊ธฐ๋ฐ ์ถ๋ก ๋ชจ๋ธ์ ๋ถ์ํ๋ ํํธ, 746 ๋
ผ๋ฌธ์ ์๊ธฐ๋ฐ๋ณต์ ํตํ ์ฒด์ธ์ค๋ธ์ํธ ๊ฐ์ ์ ๊ตฌํํด Long CoT ํจ๋ฌ๋ค์์ ์ค์ ํจ๊ณผ ์ธก๋ฉด์ ๋ณด์ฌ์ค๋ค.
ํ์ ์ฐ๊ตฌ
์ฌ์ธต์ ยทํธ๋ฆฌ๊ตฌ์กฐ ๊ธฐ๋ฐ ์ง๋ฌธ ํ๋ ์์ํฌ๋ก ์ฅ๋ฌธ์ ์ฒด์ธ์ค๋ธ์ํธ ์ถ๋ก ํ์์ ๊ธฐ์ ํ๊ฐํ๋ ์๋ก์ด ๋ฐฉ๋ฒ์ ์ ์ํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
๊ธด ์ฌ๊ณ ์ฌ์ฌ(Long Chain-of-Thought)์ ๋ํ ์๋ฒ ์ด๋ก, DeepSeek-R1์ด ๊ฐ์ฒํ RL ๊ธฐ๋ฐ ์ถ๋ก ์ ์ด๋ก ์ ๋ฐฐ๊ฒฝ๊ณผ ์ต์ ๋ํฅ์ ํญ๋๊ฒ ๋ค๋ฃฌ๋ค.