Large language models can self-improve

Motivation

Known: LLM은 scaling을 통해 우수한 성능을 달성했으며, 특히 Chain-of-Thought(CoT) 프롬팅과 자기 일관성(self-consistency) 기법으로 추론 능력이 향상되고 있다. 하지만 성능 개선을 위해서는 여전히 대규모 고품질 감독 데이터(supervised dataset)가 필요하다.
Gap: 기존 방식은 FLAN, T0, InstructGPT 등이 모두 대량의 인간 주석 데이터를 수집하거나 크라우드소싱에 의존한다. 반면 인간 뇌는 외부 입력 없이 자체 추론을 통해 메타인지(metacognition) 과정으로 학습한다.
Why: 레이블 없는 데이터로도 LLM을 개선할 수 있다면, 비용이 많이 드는 인간 주석 작업을 크게 줄일 수 있을 것이다. 또한 모델이 자신의 추론 과정을 학습하는 방식은 인간의 학습 메커니즘과 유사하다.
Approach: (1) 레이블 없는 질문 데이터에 CoT 프롬팅으로 다중 추론 경로 생성 (2) 다수결 투표로 고신뢰도 답변 선택 (3) 해당 답변으로 이어지는 모든 추론 경로를 파인튜닝 데이터로 사용 (4) 혼합 형식(mixed format) 증강으로 다양한 학습 데이터 생성

그림 3: PaLM-540B에서 다중 경로 샘플링을 사용한 GSM8K 테스트 집합에서의 정확도 결과

다중 경로 디코딩(Multiple Path Decoding): 각 질문 x_i에 대해 샘플링 온도 T > 0으로 m개의 CoT 추론 경로 {r_i1, r_i2, ..., r_im} 생성
다수결 투표 기반 필터링(Majority Voting Filtering): 생성된 경로들의 최종 답변 {y_i1, y_i2, ..., y_im}에 대해 다수결 투표로 가장 일관성 있는 답변 ỹ_i 선택. 반드시 정답일 필요는 없지만 여러 경로가 합의한 답변
자기 일관성 데이터셋 구성: ỹ_i에 도달하는 모든 추론 경로 {r_ij | y_ij = ỹ_i}만 D_self-consistent에 포함
혼합 형식 증강(Mixed Format Augmentation): 동일한 (질문, 답변) 쌍에 대해 다양한 추론 형식을 함께 학습하여 강건성(robustness) 향상
파인튜닝: 생성된 고신뢰도 (질문, 추론-답변) 쌍들로 원래 모델을 파인튜닝하여 자가 개선
추가 방법 탐색: (1) 모델이 질문을 자체 생성하는 방식 (2) 모델이 CoT 프롬프트 템플릿을 생성하는 방식도 실험 (후자는 GSM8K에서 74.2% 달성으로 제로샷 최신 성능)

신뢰도 평가의 한계: 다수결 투표 신뢰도가 정확도와 상관관계를 보이지만 완벽하지는 않음. 비일관적(inconsistent) 오류나 체계적(systematic) 오류가 있는 경로도 학습 데이터에 포함될 수 있어 음의 영향 가능성
훈련 데이터 편향 증폭: 자가 개선 과정에서 원래 모델의 편향(bias)이 증폭될 위험. 특히 소수 집단에 대한 편향이나 사실적 오류가 강화될 수 있음
계산 비용: 다중 경로 디코딩으로 인한 추론 비용 증가는 언급되지 않음. m개 경로 생성 시 m배의 계산 필요
파인튜닝 데이터 품질 의존성: "고신뢰도" 판정 기준이 단순 다수결이므로, 모델이 특정 오류 패턴을 보일 때 다수의 같은 오류가 학습될 수 있음
후속 연구 방향: (1) 더욱 정교한 신뢰도 평가 메커니즘 개발 (2) 반복적 자가 개선 과정 연구 (3) 편향 및 오류 증폭 방지 기법 (4) 자가 생성 프롬프트 품질 향상 (5) 소형 모델에의 적용 가능성