Mind the gap: Examining the self-improvement capabilities of large language models

Motivation

Known: 최근 LLM 학습에서 합성 데이터(synthetic data) 활용이 증가하고 있으며, 모델이 자신의 생성물을 검증하여 데이터를 필터링하고 증류하는 자기개선 방법들이 경험적 성공을 보이고 있음
Gap: 이러한 자기개선의 경험적 성공에도 불구하고, 언제 자기개선이 가능한지, 왜 어떤 모델에서는 작동하고 다른 모델에서는 작동하지 않는지에 대한 근본적인 이해가 부족함. 기존 연구들은 단일 모델 계열이나 검증 메커니즘만 다루어 일반성이 제한됨
Why: "검증이 생성보다 쉽다"는 직관에도 불구하고, 모델이 자신의 생성물에 대해 얼마나 좋은 검증자 역할을 할 수 있는지, 그리고 이것이 모델 크기와 어떤 관계가 있는지 체계적으로 이해할 필요가 있음
Approach: 수학적 프레임워크를 통해 자기개선의 세 가지 핵심 요소(생성, 검증, 모델 업데이트)를 형식화하고, 여러 모델 계열, 검증 메커니즘, 작업에 걸쳐 생성-검증 갭을 측정하여 일반적인 패턴을 발견

Figure 2: 거부 샘플링(rejection sampling)을 예시로 한 자기개선 프레임워크의 핵심 정의 시각화

생성-검증 갭의 스케일링 현상: 특정 검증 방법(특히 Chain-of-Thought-Score)을 사용할 때, 상대 GV-Gap이 모델의 사전학습 연산량(flops)에 대해 단조증가하는 현상을 발견. 이는 더 큰 모델일수록 자신의 생성물을 더 잘 검증할 수 있음을 시사
교차 검증 분석: 서로 다른 모델을 생성과 검증에 사용할 때, GV-Gap은 검증자의 능력에 따라 증가하고 생성자의 능력에 따라 감소하는 일관된 패턴을 관찰
반복적 자기개선의 한계: 몇 회의 반복 자기개선 후 GV-Gap이 0에 수렴하며, 포화 속도는 모델 용량과 무관함. 반복 과정에서 효과적인 다양성(effective diversity)이 저하됨
검증 메커니즘의 특성: 같은 검증 방법은 서로 다른 모델에서도 일관된 추세를 유도하지만, 서로 다른 검증 메커니즘 간에는 상당한 겹치지 않음. GV-Gap과 생성 정확도 간에 필수적인 양의 상관관계가 없음을 발견

Figure 3: 교차 개선에서의 GV-Gaps. 각 행(고정된 생성자)에 대해, 검증자 능력이 증가할수록 갭이 증가

자기개선 프레임워크의 형식화:

생성 단계: 프롬프트 분포 μ에서 생성자 f가 여러 응답 y를 생성. 중요한 조건은 생성 분포의 변동성(improvable generation)이 존재해야 함
검증 단계: 검증자 모델 g를 통한 대체 유틸리티(proxy utility) ûg를 정의. 핵심 지표인 생성-검증 갭(GV-Gap)을 다음과 같이 정의:

```

gap(f, g) := J(f[w(ûg)]) - J(f)

```

여기서 w는 검증 점수를 가중치로 변환하는 함수. 상대 갭(relative gap)은 최대 가능 개선에 대한 정규화

모델 업데이트: 두 가지 방식 고려:
- KL 정규화 강화학습(RLHF): w(s) = exp(s/β)
- 거부 샘플링(Rejection Sampling): w(s) = 1[s ≥ τ]

실험 설정:

핵심 발견:

형식적 프레임워크: 자기개선을 생성, 검증, 업데이트의 세 가지 모듈로 분해하고 수학적으로 형식화한 것은 이전 연구에서 부족했던 부분
GV-Gap의 제안: 기존의 "모델 업데이트 후 성능 차이"라는 메트릭보다 더 정확하고 해석 가능한 생성-검증 갭을 핵심 지표로 제안하고, 상대 갭까지 정의하여 고성능 모델에도 적용 가능하게 함
광범위한 실증적 분석: 여러 모델 계열, 검증 메커니즘, 작업에 걸쳐 체계적이고 통제된 연구를 수행하여 개별 연구들의 일반화 가능성 검증
스케일링 현상의 발견: 상대 GV-Gap이 사전학습 flops의 로그에 선형적으로 증가한다는 스케일링 법칙을 제시(Figure 1의 뚜렷한 패턴)
반복적 자기개선의 분석: 기존 연구에서 다루지 않은 반복적 자기개선의 수렴 특성과 다양성 감소 현상을 명확히 규명

한계:

작업의 제한성: 주로 수학 문제(GSM8K, MATH) 중심으로 분석되었으며, 정보 검색이나 복잡한 추론 작업에서는 자기개선이 작동하지 않는 경향. 이는 결과의 일반화 가능성을 제한
인과관계의 미흡한 파악: GV-Gap이 높아도 실제 모델 학습 후 성능 개선이 보장되지 않는 경우가 있음. 프록시 유틸리티와 실제 유틸리티 간의 불일치 영향을 충분히 분석하지 못함
검증 메커니즘의 설계 원리 부족: CoT-S가 왜 MC보다 훨씬 나은 검증 성능을 보이는지에 대한 깊이 있는 설명 부족
모델 크기 범위: 실험이 특정 크기 범위의 모델에 집중되어 있으며, 매우 작은 모델이나 극도로 큰 모델(예: frontier 모델)에서의 행동이 충분히 다루어지지 않음

후속 연구 방향: