ResearchGym: Evaluating Language Model Agents on Real-World AI Research

Motivation

Known: 기존 벤치마크들은 연구 사이클의 단편적 부분만 평가함 (아이디어 생성 또는 구현 중 하나)
- 아이디어 벤치마크: 실행 없이 가설 생성만 평가
- ML 엔지니어링 벤치마크: Kaggle 경쟁 기반으로 창의성 여지 부족
- 재현 벤치마크: 오래된 작업으로 인한 오염(contamination) 위험
Gap: 실제 폐쇄 루프(closed-loop) 연구를 수행하는 능력 평가의 부재
- 기존 폐쇄 루프 벤치마크: LLM 판사 의존, 고비용 GPU 요구, 인간 기준점 부재
Why: 최근 많은 연구들이 자동화된 연구 시스템을 제안하지만 체계적인 비교 기준이 없어 능력이 과장되는 경향
Approach:
- 2025년 ICML/ICLR/ACL 구두/스팟라이트 논문 5편 선정
- 논문의 데이터셋, 평가 스크립트, 베이스라인은 유지하되 제안 방법만 제거
- 객관적 실행 기반 평가로 신뢰성 확보
- 단일 GPU에서 24시간 이내 실행 가능하도록 설계

그림 2: 1,387개 논문에서 자동 필터링과 인간 평가를 통해 5개 작업 선정

포괄적 벤치마크 구성:
- 5개 작업, 39개 부작업 (지속 학습, 강화학습, 토크나이제이션, 교차모달 검색, 시계열 설명)
- 객관적 평가 지표(원본 논문의 평가 스크립트 사용)
- 하한선(베이스라인)과 상한선(저자 솔루션) 제공으로 보정된 비교
GPT-5 에이전트의 신뢰성 격차 실증:
- 15회 평가(5개 작업 × 3시드) 중 베이스라인 개선: 1회(6.7%)만 성공
- 평균 부작업 완료율: 26.5%
- 성능이 ~9시간 후 고착(plateau)
- 하나의 성공 사례: ICML 2025 스팟라이트 작업에서 인간 솔루션 초과
다양한 에이전트 아키텍처 평가:
- Claude Code(Opus-4.5), Codex(GPT-5.2) 모두 유사한 격차 확인
- 최신 폐쇄 소스 에이전트 프레임워크의 한계 드러냄

그림 3: 벤치마크 구성 과정: LLM 기반 정보 추출 → 휴리스틱 필터링 → 인간 QA

태스크 설계:

벤치마크 구성 파이프라인:

1단계: LLM 기반 정보 추출 및 휴리스틱 필터링
- GROBID 기반 doc2json으로 PDF→JSON 변환
- GPT-5로 구조화된 카드(C) 생성
- 평가 목표 객관성, 코드 가용성, GPU 메모리 필터링
- 1,387개 → 90개 논문으로 축소
2단계: 인간 선별 및 태스크 패키징
- 실행 가능성 평가 (객관적 평가 여부, 알고리즘 창의성 여지, 시간 제약)
- 다양성 확보 (5개 도메인)
- 개발 세트 3개 작업으로 에이전트 스캐폴딩 조정

오염 인식 설계:

평가 메커니즘:

에이전트 아키텍처:

한계:

제한된 작업 규모: 5개 작업만 평가 (깊이 우선 설계이지만 일반화 제한)
확인된 장기 실패 모드들:
- 인내심 부족 (조기 포기)
- 시간/자원 관리 미흡
- 약한 가설에 대한 과신
- 병렬 실험 조율 어려움
- 컨텍스트 길이 제한 (hard limit)
- 이러한 실패 모드의 근본 원인 분석 부족
평가 범위: 신규 에이전트 아키텍처 검증 필요, 다른 도메인(생물학, 화학 등) 확대 필요
인간 기준점 부재: 인간 연구자와의 직접 비교 (같은 제약 하에서의 성능)