Evaluating large language models trained on code

Motivation

Known: GPT-3와 같은 대규모 언어 모델이 기본 프로그래밍 생성 능력을 보유하고 있지만, 코드 전용 모델의 성능은 체계적으로 평가되지 않았음. BLEU 스코어 등 텍스트 생성 메트릭은 의미적으로 동등하지만 표면적으로 다른 코드에 대해 신뢰성이 낮음.
Gap: 코드 생성 모델을 평가할 수 있는 표준화된 벤치마크와 함수형 정확성 기반의 객관적 평가 메트릭이 부재함.
Why: GitHub의 공개 코드 데이터가 풍부하고, 대규모 언어 모델이 다양한 도메인에서 성공했으므로 전문화된 코드 모델의 성능을 체계적으로 검증할 필요가 있음.
Approach: (1) 164개의 수작업 프로그래밍 문제로 구성된 HumanEval 벤치마크 제작, (2) 단위 테스트 통과 여부로 평가하는 pass@k 메트릭 제안, (3) GitHub 코드로 GPT 모델 미세조정하여 Codex 개발, (4) 안전한 코드 실행 환경(sandbox) 구축.

HumanEval 데이터셋의 3개 문제 예시와 Codex-12B가 생성한 정답. 도큐스트링만으로 함수를 완전히 구현하는 예시 제시

성능 향상: 단일 샘플 기준 Codex-12B는 28.8% 해결률(GPT-3: 0%, GPT-J: 11.4%), 100개 샘플 생성 시 Codex-S는 77.5% 달성. 모델 크기 확대(300M → 12B)에 따른 성능 스케일링 확인.
메트릭 기여: pass@k 메트릭의 불편 추정량(unbiased estimator) 제안으로 샘플링 기반 평가의 분산(variance) 문제 해결. 함수형 정확성이 BLEU 점수보다 신뢰성 높음을 입증.
평가 자산 공개: 164개 문제의 HumanEval 벤치마크와 평가 프레임워크를 오픈소스로 공개하여 재현성 확보.
실용적 응용: 로그 확률(log-probability) 기반 샘플 선택으로 44.5% 해결률 달성 - 모든 샘플을 완전 평가할 수 없는 배포 환경에서 활용 가능.

데이터 수집: 2020년 5월 GitHub의 5,400만 공개 저장소에서 수집한 Python 파일(179GB → 필터링 후 159GB). 자동 생성 파일, 장행 코드 제거.
미세조정 전략: GPT-3 모델 계열에서 출발(더 빠른 수렴). 사전학습된 자연어 표현 활용이지만, 미세조정 데이터셋 규모가 충분히 크면 성능 향상 제약.
Codex-S: 올바르게 구현된 독립형 함수(standalone functions)로 추가 미세조정하여 37.7% 해결률 달성 - 도메인 특화의 효과 입증.
Pass@k 계산:

```

pass@k = 1 - ∏(1 - k/(n-c+i)) for i=1 to k

```

여기서 n=생성 샘플 수, c=정답 샘플 수. 단순 추정 1-(1-p̂)^k는 편향됨을 증명.

HumanEval 규모: 164개 문제는 포괄적 평가에 제한적. 프로그래밍 난이도 범위(소프트웨어 인터뷰 난이도)가 실무 복잡도와 거리 있음.
도큐스트링 의존성: 모델이 명확한 자연어 사양(specification)을 요구. 불명확하거나 장쇄 연산 설명 시 성능 저하 - 변수 바인딩 문제 미해결.
단위 테스트 품질: 경계 사례(edge cases) 포함 완전한 테스트 스위트가 항상 제공되지 않으면 거짓 양성(false positive) 가능성.
보안/윤리 평가 미흡: 악의적 코드 생성 가능성, 라이선스 침해, 저작권 문제 등에 대한 정량적 분석 부재. 개요 수준의 논의만 포함.
후속 연구 방향: (1) 더 복잡한 프로그래밍 작업(멀티파일, 라이브러리 활용)으로 확장, (2) 에러 수정 능력 평가, (3) 다국어 코드 지원, (4) 모델의 편향성 및 공정성 분석.