AIRS-Bench: a Suite of Tasks for Frontier AI Research Science Agents

Motivation

Known: LLM의 능력이 과학 연구 자동화에 잠재력을 가지고 있으며, 테스트 타임 컴퓨팅(test-time compute)의 증가와 스캐폴드(scaffold) 기법을 통해 더욱 강력한 에이전트 구축이 가능하다는 것이 알려져 있다.
Gap: 현존하는 AI 연구 에이전트 평가 벤치마크는 데이터 오염(data contamination), 환경 표준화 부재, 높은 계산 비용, 재현성 문제 등으로 인해 에이전트의 진정한 연구 능력을 정확히 측정하지 못하고 있다. 또한 베이스라인 코드 제공 여부, 과학적 방법론의 완전성(가설 생성, 구현, 실험, 분석), 평가 메트릭의 일관성 등이 벤치마크마다 상이하다.
Why: ML 발전이 벤치마크-중심 패러다임으로 이루어져온 만큼, AI 연구 에이전트 개발도 견고한 표준화 평가 체계를 필요로 한다. 현재의 평가 위기(evaluation crisis)를 극복하려면 데이터 오염이 없고, 환경이 표준화되며, 완전한 연구 사이클을 평가하는 통합 벤치마크가 필수적이다.
Approach:
1. 최첨단 ML 논문 20개에서 추출한 다양한 도메인의 작업으로 구성
2. 베이스라인 코드 미제공으로 에이전트의 독립적 문제 해결 능력 평가
3. {문제(problem), 데이터셋(dataset), 메트릭(metric)} 표준화 구조 정의
4. 순차(sequential) 및 병렬(parallel) 스캐폴드를 지원하는 통일된 평가 체계 구축
5. 여러 프론티어 모델(GPT-4o, o3-mini, CWM, Devstral 등)과 하네스(AIRA-dojo, MLGym)로 종합 평가

Achievement

그림 1: AIRS-Bench 작업 예시. 각 작업은 {문제, 데이터셋, 메트릭} 삼중쌍으로 명시되며, 에이전트는 전체 작업 명세를 받고 테스트 레이블 파일에 대한 예측을 생성하는 솔루션을 개발한다.

표준화된 벤치마크 구축:
- 20개의 NLP, 수학, 코드, 생화학, 시계열 예측 작업으로 구성된 균형 잡힌 벤치마크 개발
- 데이터 오염 방지를 위해 베이스라인 코드 미제공
- 아이디어 생성(H), 구현(I), 실험(E), 분석(A) 4단계 과학적 방법론 완전 포괄
종합적 성능 분석:
- 14개의 에이전트 평가를 통해 명확한 성능 차등화 확인
- 4개 작업에서만 인간 SOTA 초과, 16개 작업에서 미달
- 인간 SOTA를 초과한 경우에도 이론적 성능 상한(theoretical ceiling)에 미달
- 벤치마크가 포화되지 않았으며 상당한 개선 여지 존재
평가 방법론 정립:
- 유효 제출 비율(valid submission rate), 정규화 성능 점수(normalized performance score), Elo 등급제 도입
- 다양한 메트릭을 통한 다각적 성능 평가
- 시드와 작업 전반에 걸친 통계적으로 견고한 집계 방식
오픈소스 기여:
- AIRS-Bench 작업 정의 및 평가 코드 공개
- 자동화된 과학 연구 개발 가속화에 기여

How

작업 설계 및 검증:
- 17개의 최신 ML 논문에서 작업 추출
- 반자동 소싱, 생성, 검토, 검증 파이프라인 구축
- 인간 검토를 통한 품질 보장
에이전트 정의:
- 에이전트 = LLM + 스캐폴드
- LLM: 자체 호스팅 OSS 모델 또는 API 기반 모델
- 스캐폴드: 솔루션 공간의 체계적 탐색을 위한 조율 계층
- 순차 스캐폴드(ReAct): 선형 피드백 루프 구현
- 병렬 스캐폴드(MCTS): 트리 구조를 활용한 모집단 기반 탐색
평가 설계:
1. 모든 에이전트에서 비교 가능한 실행 환경 구성 (인프라 문제 고려)
2. 정규화 변환: 0.0 = 가장 약한 유효 솔루션, 1.0 = 인간 SOTA
3. 다중 시드를 통한 통계적 신뢰성 확보
4. 14개 에이전트 조합 평가:
  - 모델: CWM, GPT-4o, gpt-oss-20b, gpt-oss-120b, o3-mini, Devstral
  - 하네스: AIRA-dojo, MLGym
작업 분포:
- 7가지 범주: Code, Math, NLP, Time Series, Bioinformatics, Graph, Chemistry
- 각 범주가 실제 연구 문제의 실제적 도전을 대표하도록 구성

Originality

벤치마크 설계의 혁신성:
- 베이스라인 코드 미제공 방식으로 에이전트의 독립적 문제 해결 능력 신규 평가
- 과학적 방법론의 4단계를 모두 포괄하는 첫 종합 벤치마크
- 환경 표준화 및 데이터 오염 방지에 대한 체계적 접근
평가 방법론의 창신성:
- 정규화 기법을 통한 이질적 작업 간의 공정한 성능 비교
- 다중 메트릭(유효 제출율, 정규화 점수, Elo)을 통한 다층적 분석
- 테스트-타임 컴퓨팅의 영향을 분석하기 위한 순차 vs 병렬 스캐폴드 비교
스케일과 다양성:
- 20개 작업으로 기존 벤치마크 대비 충분한 규모 (비교: MLGym-Bench 13개, ML-Agent-Bench 13개)
- 7개 도메인에 걸친 광범위한 커버리지
- 14개 에이전트 조합의 광범위한 평가
실무적 가치:
- 오픈소스 공개로 커뮤니티의 자유로운 재사용 및 확장 가능
- 작업 표준 형식({문제, 데이터셋, 메트릭})을 통해 새로운 작업 추가의 민주화

Limitation & Further Study

벤치마크 포화도의 제한:
- 20개 작업이라는 크기 제약으로 인해 일부 연구 영역(예: 가설 생성, 문헌 검토)이 충분히 대표되지 않을 가능성
- 장기 작업(>12시간)의 계산 비용으로 인한 광범위한 하이퍼파라미터 탐색 제한
평가의 일관성 문제:
- 작업별로 이상적인 솔루션 수행 방식이 상이할 수 있어 일괄적 평가 메트릭의 해석에 주의 필요
- 환경 변수(하드웨어, 타이밍, 네트워크)의 영향 완전 제거 불가
에이전트 설계의 제약:
- 현재 정의(LLM + 스캐폴드)로 제한되어 있어, 더 복잡한 하이브리드 시스템이나 멀티에이전트 협력 모형 평가 부재
- 도구 사용(tool use) 능력의 균등한 평가 어려움
후속 연구 방향:
1. 장기 다중 라운드 협상 작업, 논문 작성 평가 등 추가 작업 개발
2. 에이전트가 발견한 혁신적 솔루션에 대한 정성적 분석 심화
3. 계산 효율성(낮은 GPU 리소스)을 갖춘 작업 추가
4. 실시간 온라인 학습(online learning) 작업 포함
5. 에이전트의 실패 사례에 대한 원인 분석 프레임워크 개발