MLRC-Bench: Can Language Agents Solve Machine Learning Research Challenges?

Motivation

Known: 기존 LLM 기반 연구 에이전트 평가는 두 가지 방향으로 제한됨
- 과학 발견의 전체 파이프라인 평가(AI Scientist): 주관적 판단(논문 평가)에 의존하고 신뢰성 있는 기준선 부재
- Kaggle 스타일 경쟁 평가: 객관적이지만 진정한 연구 혁신성(novelty) 부재
Gap: 제안된 연구 아이디어가 동시에 참신하면서도 실제로 효과적인지 평가할 수 있는 종합적 벤치마크 부재
Why: ML 학회 경쟁 문제는 미해결의 중요한 문제들을 다루며, 공개 리더보드를 통해 인간 전문가와 객관적 비교 가능
Approach: NeurIPS, ECCV, KDD Cup 등 ML 학회 경쟁으로부터 7개 작업을 엄선하여 저장소 수준(repository-level) 코드 구현을 요구하는 동적 벤치마크 구축

Achievement

MLRC-BENCH는 ML 학회 경쟁을 에이전트-무관(agent-agnostic) 프레임워크로 표준화하며, 계산 제약 하에서 저장소 수준 코드 실행과 객관적 메트릭 기반 평가를 제공한다.

성과 1: 최고 성능 에이전트(gemini-exp-1206/MLAB)도 기준선과 최상 인간 참가자 점수 간 격차의 9.3%만 축소
- 7개 작업 평균적으로 현저한 성능 개선 실패를 입증
성과 2: LLM 판사의 참신성 평가와 실제 성능 간 미정렬 규명
- 주관적 평가의 신뢰성 결여 명시적 증명
- 객관적 메트릭(정확성, 효율성)과 LLM 평가(혁신성, 간결성) 간 낮은 상관관계
성과 3: 동적 벤치마크 설계로 미래 ML 경쟁 지속 통합 가능하게 구축

How

벤치마크 설계

작업 환경 표준화: 각 작업별 상세 설명, 시작 코드(baseline 포함), 인간 전문가 아이디어 제공
저장소 수준 코드:
- methods/ 디렉토리만 수정 가능 (알고리즘 로직)
- 평가 스크립트는 읽기 전용 (공정성 보장)
- 다중 파일 수정 및 복잡한 의존성 처리 가능
계산 제약 명시: 작업별 최대 실행시간(0.5시간~3.5시간)과 GPU 메모리(16GB~48GB) 제한
- 효율성과 효과성의 균형 평가
개발/테스트 분할: 과적합 방지를 위한 명시적 데이터 분할

평가 방법론

객관적 메트릭: 정확도(Accuracy), ROUGE, mAP, Critical Success Index 등 작업 특화 성능 지표
주관적 평가: 혁신성, 간결성, 효율성, 명확성 등을 LLM 판사로 채점하되 상관성 분석 목적으로만 사용
비교 기준: 공식 경쟁 기준선과 상위 인간 참가자 솔루션과의 비교

Originality

기존 연구 대비 차별성:
- RE-Bench, MLGym과 달리 저장소 수준 코드 요구 (함수 수준 아님)
- AI Scientist와 달리 객관적 성능 메트릭 기반 평가 (주관적 논문 평가 배제)
- MLAgentBench/MLE-Bench와 달리 진정한 연구 혁신성 요구 (Kaggle 스타일 아님)
시의성: 공식 ML 학회 경쟁으로부터 직접 작업 선정으로 최신 연구 트렌드 반영
새로운 통찰: LLM 판사의 참신성 평가가 실제 효과성과 불일치함을 처음 체계적으로 규명

Limitation & Further Study

제한사항:
- 7개 작업만으로 샘플 크기 제한적 (향후 확장 필요)
- 에이전트 평가 대상이 주로 Gemini, Claude 등 소수 모델에 국한
- 오픈소스 소형 모델(7B~13B 파라미터)의 성능 미평가
- 계산 제약이 에이전트 성능에 미치는 영향 상세 분석 부족
후속 연구 방향:
- 소형 오픈소스 모델의 에이전트 능력 체계적 평가
- 다중 에이전트 협업 체계 벤치마킹 (문헌 검색, 아이디어 생성, 코딩 전문화)
- 에이전트 실패 케이스 심층 분석으로 개선 방안 도출
- 새로운 ML 경쟁 지속 통합으로 동적 벤치마크 성숙도 향상

Evaluation

Novelty: 4/5 Technical Soundness: 4.5/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

총평: 본 논문은 ML 연구 에이전트의 진정한 혁신 능력을 평가하기 위한 객관적이고 동적인 벤치마크를 제시하며, 기존 주관적 평가 방식의 문제점을 실증적으로 규명함으로써 이 분야에 의미 있는 기여를 한다. 다만 작업 수 확대와 다양한 모델군 포함으로 벤치마크 완성도를 높일 필요가 있다.