Large Language Models Cannot Self-Correct Reasoning Yet

저자: Jie Huang, Xinyun Chen, Swaroop Mishra, Huaixiu Steven Zheng, Adams Wei Yu | 날짜: 2023 | DOI: 10.48550/arXiv.2310.01798 📄 PDF

Essence

대규모 언어 모델(LLM)들은 외부 피드백 없이 자신의 추론 오류를 자동으로 수정하지 못하며, 오히려 자기 수정(self-correction) 후 성능이 저하된다는 것을 실증적으로 증명한다.

Motivation

Known: 최근 연구들에서 LLM의 자기 수정(self-correction) 능력이 추론 성능을 크게 향상시킨다고 주장하고 있음. 예를 들어, RCI는 GSM8K에서 7% 개선, CommonSenseQA에서 15% 개선을 보고함.
Gap: 그러나 기존 연구들은 정답 라벨(oracle labels)을 사용하여 수정을 유도하고 있으며, 실제 응용 환경에서 이러한 외부 피드백 없이 LLM이 진정으로 자신의 오류를 인식하고 수정할 수 있는지는 명확하지 않음.
Why: 근본적인 질문: "만약 LLM이 자기 수정 능력이 있다면, 처음부터 왜 올바른 답을 제시하지 않는가?" 이 역설을 해결하기 위해 외부 피드백 없는 내재적 자기 수정(intrinsic self-correction)에 대한 엄격한 평가가 필요함.
Approach: 세 가지 관점에서 기존 자기 수정 방법 평가: (1) 오라클 라벨 의존성, (2) 동등한 추론 비용 기준 비교, (3) 프롬프트 설계의 영향.

Achievement

두 라운드의 자기 수정 후 답변 변화 분석: 변화 없음, 올바른→잘못된, 잘못된→올바른 범주별 비율

오라클 라벨 문제: GSM8K, CommonSenseQA, HotpotQA에서 오라클 라벨을 사용한 자기 수정은 상당한 성능 개선(7-15%)을 보이지만, 외부 피드백 없는 내재적 자기 수정에서는 모든 모델과 데이터셋에서 성능 저하 관찰 (GPT-3.5: GSM8K 75.9%→75.1%, CommonSenseQA 75.8%→38.1%; GPT-4: 95.5%→91.5%, 82.0%→79.5%).
다중 에이전트 토론의 한계: 여러 LLM 인스턴스가 서로의 답을 비판하는 다중 에이전트 토론(Multi-Agent Debate)은 동등한 응답 수를 기준으로 자기일관성(self-consistency)보다 나은 성능을 보이지 못함.
프롬프트 설계 문제: 일부 기존 연구의 개선 효과는 초기 응답 생성 시 부최적(sub-optimal) 프롬프트를 사용한 것에서 비롯됨. 피드백을 초기 지시사항에 통합하면 자기 수정을 사용한 것보다 더 좋은 결과를 얻음.

How

실험 설정: GSM8K, CommonSenseQA, HotpotQA에서 GPT-3.5-Turbo, GPT-4, GPT-4-Turbo, Llama-2-70b-chat 모델 평가
세 단계 프롬프트 전략 적용: (1) 초기 생성, (2) 이전 생성 검토 및 피드백 생성, (3) 피드백을 포함한 원래 질문에 다시 답변. 최대 2라운드 자기 수정 수행
오라클 라벨 조건: 정답 라벨로 수정 프로세스 결정 (기존 연구 재현)
내재적 자기 수정: 라벨 제거, LLM이 독립적으로 수정 중단 여부 결정
다양한 프롬프트 평가: "이 답이 올바를 수도 있고 잘못될 수도 있다고 가정하세요. 신중하게 검토하고 발견한 심각한 문제를 보고하세요"와 같은 다양한 피드백 프롬프트 테스트
정성적 분석: 답변 변화 유형 분류 (No Change, Correct→Incorrect, Incorrect→Correct) 및 구체적 사례 분석

Originality

"내재적 자기 수정"의 엄격한 정의: 외부 피드백과 명확하게 구분하여, 실제 응용 가능성 있는 설정 제시
기존 주장에 대한 체계적 재검증: 오라클 라벨의 영향을 명확히 드러내고, 기존 논문들의 평가 문제점을 구조적으로 정리(Table 1)
공평한 비교 기준 수립: 동일한 모델 호출 수를 기준으로 비교하여, 자기일관성 vs 다중 에이전트 토론의 진정한 효과 측정
프롬프트 설계의 중요성 강조: 자기 수정 개선이 실제로는 프롬프트 개선의 결과일 수 있음을 증명

Limitation & Further Study

샘플 크기 제약: 비용 절감으로 GPT-4-Turbo와 Llama-2는 200개 샘플(HotpotQA 100개)에서만 평가. 전체 데이터셋 재평가 필요.
모델 범위 제한: OpenAI 모델 중심 평가. 더 다양한 오픈소스 모델(Llama-2 외) 포함 필요.
자기 수정 라운드 수: 최대 2라운드만 평가. 더 많은 라운드의 효과 미조사.
후속 연구 방향:
- 외부 도구(코드 실행, 검증 함수 등)를 활용한 피드백 메커니즘 개발
- LLM의 실제 오류 인식 메커니즘 분석
- 진정한 자기 수정을 가능하게 하는 모델 아키텍처 또는 학습 방법 연구
- 도메인별 자기 수정 효과 차이 조사

Evaluation

Novelty: 4/5 Technical Soundness: 4/5 Significance: 5/5 Clarity: 5/5 Overall: 4.5/5

총평: 이 논문은 LLM의 자기 수정 능력에 대한 기존 낙관적 주장들을 체계적으로 비판하고 실제 한계를 입증함으로써, 이 분야의 평가 기준을 높이고 향후 연구 방향을 재설정하는 중요한 기여를 한다. 특히 외부 피드백 없는 실제 조건에서의 성능 평가는 실용적 가치가 높다.

같이 보면 좋은 논문

다른 접근

CRITIC: Large Language Models Can Self-Correct with Tool-Interactive Critiquing

CRITIC 논문은 LLM이 도구를 활용할 때만 자기 수정이 가능하다는 점을 제안하며, 외부 피드백/툴 내장 등 차이점을 실증적으로 비교할 수 있습니다.

다른 접근

RM-R1: Reward Modeling as Reasoning

683번 논문은 Reasoning 기반의 Reward Modeling을 통해 LLM 자기교정의 조건과 가능성을 폭넓게 분석하여 471번의 비판적 결론과 균형 있게 읽기에 적합하다.

다른 접근

A vision for auto research with llm agents

LLM 에이전트의 자기 교정 실패 문제를 다루는 대신, 자동 연구 시스템 설계에 접근하는 방법을 제시합니다.

후속 연구

Selfcheck: Using llms to zero-shot check their own step-by-step reasoning

Selfcheck 논문은 LLM의 스텝별 자기 점검 및 자가 검증 성능 한계와 개선 아이디어를 실험적으로 제시하여, LLM의 자기 수정 가능성 논의에 깊이를 더합니다.

후속 연구

From Automation to Autonomy: A Survey on Large Language Models in Scientific Discovery

LLM 자율성의 진화와 단계별 발전을 분석하며, 자기교정 실패 현상도 구조적으로 조망합니다.

반론/비판

Don't Stop Pretraining: Adapt Language Models to Domains and Tasks

자체 개선(self-correction) 혹은 지속적 사전학습 접근법의 한계 및 위험을 실증적으로 보여주는 연구로, 도메인 적응의 실제 개선 효과와 대비할 수 있습니다.

반론/비판

Large language models can self-improve

Large language models can self-improve 논문은 LLM의 자기개선 가능성을 실험적으로 주장하며, self-correction 한계라는 본 논문과 논점이 대조됩니다.

반론/비판

Self-Refine: Iterative Refinement with Self-Feedback

Self-Refine 논문은 LLM의 자기 피드백 기반 순차적 개선이 효과적일 수 있음을 보여주어 자기교정의 한계를 비판적으로 조명합니다.

반론/비판

CRITIC: Large Language Models Can Self-Correct with Tool-Interactive Critiquing

Large Language Models Cannot Self-Correct Reasoning Yet 논문은 LLM의 자기 수정 능력의 실제적 한계를 비판적으로 분석하여, 자기교정 프레임워크의 약점 논의와 보완 필요성에 참고될 수 있습니다.

반론/비판

Selfcheck: Using llms to zero-shot check their own step-by-step reasoning

471 논문은 LLM의 자기오류 수정 한계를 지적, 747의 결과와 대조해 볼 수 있다.

반론/비판

Wrong-of-Thought: An Integrated Reasoning Framework with Multi-Perspective Verification and Wrong Information

LLM의 자기수정·자기검증의 한계와 XoT 등 다양한 방법에 대한 비판적 시각을 제시해 Wrong-of-Thought 프레임워크의 필요성을 부각합니다.

반론/비판

SciTrust: Evaluating the Trustworthiness of Large Language Models for Science

471번 논문은 LLM이 추론적 오류를 아직은 자체적으로 교정하지 못한다고 지적하며, 736번의 다중 신뢰성 평가 결과를 비판적으로 돌아볼 근거를 제시한다.

반론/비판

RBF++: Quantifying and optimizing reasoning boundaries across measurable and unmeasurable capabilities for chain-of-thought reasoning

LLM이 아직 논리적 추론 단계에서 자기검증 및 reasoning 한계가 심각하다는 점을 체계적으로 비판하며 RBF++의 한계/필요성을 제시합니다.

반론/비판

PAG: Multi-Turn Reinforced LLM Self-Correction with Policy as Generative Verifier

LLM의 자기 수정 한계를 비판적으로 분석하는 논문으로, PAG 프레임워크의 이론적 배경과 문제점을 함께 이해할 수 있습니다.

← 목록으로 돌아가기