The Story is Not the Science: Execution-Grounded Evaluation of Mechanistic Interpretability Research

Motivation

Known: 기존 동료 심사 체계는 논문 내러티브에만 집중하며, AI 에이전트의 대량 연구 생산으로 인해 재현성 검증의 어려움이 증가하고 있다.
Gap: 현존하는 AI 기반 논문 평가 시스템들은 내러티브의 일관성만 검사하고 실제 실행 가능성, 코드 정확성, 결과 재현성을 종합적으로 검증하지 못한다.
Why: AI가 생성하는 대량의 연구 결과와 암묵적 할루시네이션으로 인해 과학적 엄밀성이 위협받고 있으며, execution-grounded 평가는 인간 리뷰어가 놓치는 문제를 자동으로 감지할 수 있다.
Approach: mechanistic interpretability를 테스트 대상으로 하여 plan, report, code, data, walkthrough로 구성된 표준화된 연구 산출물을 정의하고, coherence, reproducibility, generalizability의 세 가지 차원에서 평가하는 MechEvalAgent를 개발했다.

Figure 1. (a) Execution-grouned evaluation uncovers failures that narrative-alone review misses. In this example, Failur

Execution-grounded evaluation framework: 내러티브와 실행 자원을 결합하여 plan-implementation 일관성, 코드 실행 가능성, 결과 재현성, 일반화 가능성을 체계적으로 검증하는 첫 프레임워크
MechEvalAgent 구현: 인간 전문가와 80% 이상의 일치도를 달성하며 인간 리뷰어가 놓친 51개의 추가 문제를 식별
인간 리뷰 초과 성능: 87개 중 67개의 인간 식별 실패를 포착하고 동시에 인간이 감지하지 못한 51개의 methodological 문제 발견
효율성 증대: 인간 리뷰어의 평균 2.2시간 대비 더 빠른 평가 속도 달성

Figure 2. Overview of the MechEvalAgent framework. Re-

표준화된 연구 산출물: 인간 작성 논문에서 plan과 report를 추출하고, AI 생성 결과물에서는 연구 trace까지 포함하는 unified standard 정의
Coherence 평가: consistency와 instruction following 체크로 내부 일관성 검증 (9개 체크리스트 항목)
Reproducibility 평가: execution quality (코드 실행 가능성, 계산 정확성)와 replication quality (독립적 재현 가능성) 검증 (11개 체크리스트 항목)
Generalizability 평가: 새로운 모델, 새로운 데이터, 관련 작업에 대한 일반화 가능성 테스트 (3개 체크리스트 항목)
Multi-agent 아키텍처: 각 평가 차원별로 전문화된 에이전트가 관련 입력을 처리하도록 설계

mechanistic interpretability 분야의 30개 연구 산출물에만 평가를 수행하여 다른 AI 분야로의 일반화 가능성 미검증
execution-grounded evaluation을 위해 코드, 데이터, walkthrough 등 추가 산출물이 필수이나, 현실의 논문 제출 과정에 이를 강제하는 메커니즘 부재
AI 에이전트의 평가 능력이 인간 전문가에 의존적이며, 평가 기준의 주관성이 완전히 제거되지 않음
매우 새로운 방법론이나 예외적 경우에 대한 평가 신뢰도가 검증되지 않음
후속 연구: 다양한 scientific domain으로 프레임워크 확장, 학술 출판 시스템과의 통합 방안 모색, execution-grounded evaluation의 false positive/negative 비율 분석