Towards reasoning era: A survey of long chain-of-thought for reasoning large language models

Motivation

Known: 최근 OpenAI-o1, DeepSeek-R1 등 RLLMs는 수학, 코딩 등 복잡한 도메인에서 뛰어난 성능을 보이며, 추론 시간 스케일링(inference-time scaling)을 활용한 Long CoT가 핵심 요소임이 입증되고 있음.
Gap: Long CoT에 대한 포괄적 종합 분석이 부재하여, Short CoT와의 명확한 구별이 없고, "과도한 사고(overthinking)"와 "추론 시간 스케일링"에 대한 논의가 정리되지 않음.
Why: Long CoT의 특성, 출현 메커니즘, 관련 현상들(emergence, overthinking, "Aha Moment" 등)을 체계적으로 이해할 필요가 있음.
Approach: Long CoT를 형식화하고, Short CoT와의 차이를 수식으로 정의한 후, 세 가지 핵심 특성(deep reasoning, extensive exploration, feasible reflection)으로 분류하여 관련 연구를 조직화함.

Achievement

지난 3년간 선택된 Long CoT의 진화: 깊은 추론, 실현 가능한 반성, 광범위한 탐색의 세 가지 특성을 색상 분기로 표현

Long CoT의 분류법: 깊은 추론 형성(자연어, 구조화된 언어, 잠재 공간), 깊은 추론 학습(모방학습, 자기학습), 실현 가능한 반성(전체 피드백, 프로세스 피드백), 광범위한 탐색(탐색 스케일링, 내부/외부 탐색)

체계적 구별: Long CoT를 형식적으로 정의하고 Short CoT와의 차이를 수식화함.
- Short CoT: $\text{CoT}_S = R(\{n_i\}^k_{i=1}|(k \leq B_s) \land (j=1 \Leftrightarrow \forall i \leq k, n_i \to n_{i+j}) \land (\forall i \neq j \leq k, n_i \neq n_j))$
- Long CoT는 경계 $B_l \gg B_s$로 확장하며, 깊이 제약을 완화함
세 가지 핵심 특성 정의:
- Deep Reasoning: 복잡한 구조 전반에서 엄밀한 논리적 분석을 수행하는 능력
- Extensive Exploration: 평행 불확실 노드 생성 및 알려진 논리에서 미지의 논리로의 전환
- Feasible Reflection: 논리적 연결의 피드백 및 정제
핫 현상의 체계적 분석: overthinking, inference-time scaling, "Aha Moment" 등의 출현 메커니즘 설명

How

깊은 추론의 세 가지 주요 형식: 자연어(CoT, MathPrompter), 구조화된 언어(PoT, CoC), 잠재 공간(Quiet-STaR, PlanningTokens)

Deep Reasoning Formation (깊은 추론 형성):

자연어 형식: 자연 언어로 단계별 추론을 명시적으로 표현 (CoT, MathPrompter, CodeI/O)
구조화된 언어: 프로그래밍 언어나 형식 논리로 표현하여 검증성 강화 (PoT, CoC, ENVISIONS)
잠재 공간: 모델의 내부 표현 공간에서 추론 수행 (Quiet-STaR, RecurrentBlock, LTMs)

Deep Reasoning Learning (깊은 추론 학습):

모방학습: 장문 추론 데이터셋으로 감독학습 (GSM8K, AceMath, STILL-2)
자기학습: 강화학습/자기보상을 통한 자동 개선 (STaR, ReST, CPO, BOLT)

Feasible Reflection (실현 가능한 반성):

전체 피드백: 최종 답변의 정확성 평가 (Self-Critique, Critic-RM)
프로세스 피드백: 중간 단계의 정확성 평가 (ReAct, Math-Shepherd, PRIME)

Extensive Exploration (광범위한 탐색):

탐색 스케일링: 추론 길이 증가로 성능 향상 (inference-time scaling)
내부 탐색: 모델 내부에서 여러 경로 병렬 생성 (Self-Consistency, Tree of Thought)
외부 탐색: 도구/환경과의 상호작용을 통한 탐색 (ReAct, Tool-use)

Limitation & Further Study

다중모달 추론: 현재 분석이 텍스트 기반 추론에 집중되어 있으며, 이미지/비디오/오디오를 포함한 다중모달 Long CoT 확장 필요
효율성 개선: Long CoT의 높은 계산 비용(긴 출력, 여러 경로 탐색)을 해결하기 위한 압축, 스케줄링, 조기 종료 기법 개발
지식 강화: 외부 지식베이스, 검색, 도구 활용을 통한 Long CoT 강화 방향
이론적 이해: overthinking의 경계(언제 추가 추론이 해로운가), 최적 탐색 깊이 분석
일반화성: 현재 연구가 수학/코딩에 집중되어 있으며, 보다 다양한 도메인에서의 적용성 검증 필요
평가 지표: Long CoT의 품질을 정량화할 새로운 메트릭 개발 (길이 vs. 정확도의 트레이드오프 측정)

같이 보면 좋은 논문

기반 연구

Generative language modeling for automated theorem proving

Generative language modeling for automated theorem proving 논문은 체인오브쏘트와 LLM 기반 수학 증명 생성이라는 주제에서 833 논문의 핵심 논의의 이론적 기반이 된다.

기반 연구

Draft, sketch, and prove: Guiding formal theorem provers with informal proofs

Towards reasoning era 논문은 장기 체인오브쏘트 기반 LLM 추론의 핵심 특성과 현상을 종합해, 비형식-형식 증명 변환의 가치와 한계를 이론적으로 조명한다.

기반 연구

Beyond Brainstorming: What Drives High-Quality Scientific Ideas? Lessons from Multi-Agent Collaboration

155 논문은 고품질 연구 아이디어 생산의 원동력을 심층 분석하여, 833에서 다룬 장기 체인오브쏘트 추론의 혁신성과 연관된다.

기반 연구

RBF++: Quantifying and optimizing reasoning boundaries across measurable and unmeasurable capabilities for chain-of-thought reasoning

긴 chain-of-thought 추론 능력 평가를 다루는 종합적 리뷰로, 추론 경계 측정 체계에 대한 이론적 기초를 제공합니다.

다른 접근

CRITIC: Large Language Models Can Self-Correct with Tool-Interactive Critiquing

둘 다 LLM의 다단계, 체인오브쏘트(Chain-of-Thought) 추론 과정 분석에 초점을 두지만, 242는 도구와의 상호작용 기반 자가수정에 집중합니다.

다른 접근

From Reasoning to Learning: A Survey on Hypothesis Discovery and Rule Learning with Large Language Models

긴 사고 사슬 서베이는 LLM의 추론 능력을 체계적으로 분석하며, 가설 발견과 규칙 학습 서베이와 상호 보완적인 관점을 제공한다.

다른 접근

Foundation-Model Surrogates Enable Data-Efficient Active Learning for Materials Discovery

346번 논문은 과학적 문제 해결을 위한 파운데이션 모델 서브셋 적용을 다루어, chain-of-thought 기반 reasoning의 확장 또는 대조적 방향성을 확인할 수 있습니다.

후속 연구

Draft, sketch, and prove: Guiding formal theorem provers with informal proofs

Draft, sketch, and prove 논문은 장기 체인오브쏘트적 추론을 위해 비형식-형식 변환 접근을 제안하며, 833 논문의 롱 CoT와 실제 증명 시스템 연결 측면에서 연관성이 높다.

후속 연구

T-SciQ: Teaching multimodal chain-of-thought reasoning via mixed large language model signals for science question answering

785 논문은 멀티모달 체인 오브 쏘트 학습전략을 실제로 대형 모델에 적용 및 평가하여, reasoning era로의 진입에서 Long CoT의 실무적 영향력을 보여줍니다.

후속 연구

Self-Refine: Iterative Refinement with Self-Feedback

833 논문이 구체적으로 Long CoT 기반 추론 모델을 분석하는 한편, 746 논문은 자기반복을 통한 체인오브쏘트 개선을 구현해 Long CoT 패러다임의 실제 효과 측면을 보여준다.

후속 연구

TreeReview: A dynamic tree of questions framework for deep and efficient llm-based scientific peer review

심층적·트리구조 기반 질문 프레임워크로 장문의 체인오브쏘트 추론 현상을 기술평가하는 새로운 방법을 제시합니다.

후속 연구

DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning

긴 사고 사슬(Long Chain-of-Thought)에 대한 서베이로, DeepSeek-R1이 개척한 RL 기반 추론의 이론적 배경과 최신 동향을 폭넓게 다룬다.

Towards reasoning era: A survey of long chain-of-thought for reasoning large language models

Essence

Motivation

Achievement

How

Originality

Limitation & Further Study

Evaluation

같이 보면 좋은 논문

Towards reasoning era: A survey of long chain-of-thought for reasoning large language models

Essence

Motivation

Achievement

How

Originality

Limitation & Further Study

Evaluation

같이 보면 좋은 논문

🎧 Audio Overview