ResearchGym: Evaluating Language Model Agents on Real-World AI Research

์ €์ž: Aniketh Garikaparthi, Manasi Patwardhan, Arman Cohan | ๋‚ ์งœ: 2026-02-16 | DOI: N/A 📄 PDF


Essence

Figure 1

๊ทธ๋ฆผ 1: ResearchGym์€ ์•„์ด๋””์–ด ์ œ์‹œ์™€ ์‹คํ—˜ ์ˆ˜ํ–‰์„ ๊ฒฐํ•ฉํ•˜์—ฌ LLM ์—์ด์ „ํŠธ๋ฅผ ๊ฐ๊ด€์  ์ ์ˆ˜๋กœ ํ‰๊ฐ€

๋ณธ ๋…ผ๋ฌธ์€ ์‹ค์ œ AI ์—ฐ๊ตฌ ๋…ผ๋ฌธ์˜ ์ €์žฅ์†Œ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์—”๋“œ-ํˆฌ-์—”๋“œ ์—ฐ๊ตฌ ๋ฃจํ”„๋ฅผ ํ‰๊ฐ€ํ•˜๋Š” ๋ฒค์น˜๋งˆํฌ ResearchGym์„ ์ œ์‹œํ•œ๋‹ค. GPT-5 ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ๊ฐ€ ์ธ์ƒ์ ์ธ ์„ฑ๋Šฅ์„ ๋ณด์ด๊ธฐ๋„ ํ•˜์ง€๋งŒ ์‹ ๋ขฐ์„ฑ์ด ๋งค์šฐ ๋‚ฎ๋‹ค๋Š” "๋Šฅ๋ ฅ-์‹ ๋ขฐ์„ฑ ๊ฒฉ์ฐจ(capability-reliability gap)"๋ฅผ ์‹ค์ฆ์ ์œผ๋กœ ์ž…์ฆํ•œ๋‹ค.

Motivation

Achievement

Figure 2

๊ทธ๋ฆผ 2: 1,387๊ฐœ ๋…ผ๋ฌธ์—์„œ ์ž๋™ ํ•„ํ„ฐ๋ง๊ณผ ์ธ๊ฐ„ ํ‰๊ฐ€๋ฅผ ํ†ตํ•ด 5๊ฐœ ์ž‘์—… ์„ ์ •

  1. ํฌ๊ด„์  ๋ฒค์น˜๋งˆํฌ ๊ตฌ์„ฑ:
    • 5๊ฐœ ์ž‘์—…, 39๊ฐœ ๋ถ€์ž‘์—… (์ง€์† ํ•™์Šต, ๊ฐ•ํ™”ํ•™์Šต, ํ† ํฌ๋‚˜์ด์ œ์ด์…˜, ๊ต์ฐจ๋ชจ๋‹ฌ ๊ฒ€์ƒ‰, ์‹œ๊ณ„์—ด ์„ค๋ช…)
    • ๊ฐ๊ด€์  ํ‰๊ฐ€ ์ง€ํ‘œ(์›๋ณธ ๋…ผ๋ฌธ์˜ ํ‰๊ฐ€ ์Šคํฌ๋ฆฝํŠธ ์‚ฌ์šฉ)
    • ํ•˜ํ•œ์„ (๋ฒ ์ด์Šค๋ผ์ธ)๊ณผ ์ƒํ•œ์„ (์ €์ž ์†”๋ฃจ์…˜) ์ œ๊ณต์œผ๋กœ ๋ณด์ •๋œ ๋น„๊ต
  2. GPT-5 ์—์ด์ „ํŠธ์˜ ์‹ ๋ขฐ์„ฑ ๊ฒฉ์ฐจ ์‹ค์ฆ:
    • 15ํšŒ ํ‰๊ฐ€(5๊ฐœ ์ž‘์—… ร— 3์‹œ๋“œ) ์ค‘ ๋ฒ ์ด์Šค๋ผ์ธ ๊ฐœ์„ : 1ํšŒ(6.7%)๋งŒ ์„ฑ๊ณต
    • ํ‰๊ท  ๋ถ€์ž‘์—… ์™„๋ฃŒ์œจ: 26.5%
    • ์„ฑ๋Šฅ์ด ~9์‹œ๊ฐ„ ํ›„ ๊ณ ์ฐฉ(plateau)
    • ํ•˜๋‚˜์˜ ์„ฑ๊ณต ์‚ฌ๋ก€: ICML 2025 ์ŠคํŒŸ๋ผ์ดํŠธ ์ž‘์—…์—์„œ ์ธ๊ฐ„ ์†”๋ฃจ์…˜ ์ดˆ๊ณผ
  3. ๋‹ค์–‘ํ•œ ์—์ด์ „ํŠธ ์•„ํ‚คํ…์ฒ˜ ํ‰๊ฐ€:
    • Claude Code(Opus-4.5), Codex(GPT-5.2) ๋ชจ๋‘ ์œ ์‚ฌํ•œ ๊ฒฉ์ฐจ ํ™•์ธ
    • ์ตœ์‹  ํ์‡„ ์†Œ์Šค ์—์ด์ „ํŠธ ํ”„๋ ˆ์ž„์›Œํฌ์˜ ํ•œ๊ณ„ ๋“œ๋Ÿฌ๋ƒ„

How

Figure 3

๊ทธ๋ฆผ 3: ๋ฒค์น˜๋งˆํฌ ๊ตฌ์„ฑ ๊ณผ์ •: LLM ๊ธฐ๋ฐ˜ ์ •๋ณด ์ถ”์ถœ โ†’ ํœด๋ฆฌ์Šคํ‹ฑ ํ•„ํ„ฐ๋ง โ†’ ์ธ๊ฐ„ QA

ํƒœ์Šคํฌ ์„ค๊ณ„:

๋ฒค์น˜๋งˆํฌ ๊ตฌ์„ฑ ํŒŒ์ดํ”„๋ผ์ธ:

์˜ค์—ผ ์ธ์‹ ์„ค๊ณ„:

ํ‰๊ฐ€ ๋ฉ”์ปค๋‹ˆ์ฆ˜:

์—์ด์ „ํŠธ ์•„ํ‚คํ…์ฒ˜:

Originality

Limitation & Further Study

ํ•œ๊ณ„:

ํ›„์† ์—ฐ๊ตฌ ๋ฐฉํ–ฅ:

Evaluation

์ดํ‰: ๋ณธ ๋…ผ๋ฌธ์€ AI ์—์ด์ „ํŠธ์˜ ์‹ค์ œ ์—ฐ๊ตฌ ์ˆ˜ํ–‰ ๋Šฅ๋ ฅ ํ‰๊ฐ€๋ฅผ ์œ„ํ•œ ์ฒซ ๋ฒˆ์งธ ์ฒด๊ณ„์  ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ์‹œํ•จ์œผ๋กœ์จ ํ•™๊ณ„์— ์ค‘์š”ํ•œ ๊ธฐ์—ฌ๋ฅผ ํ•œ๋‹ค. ํŠนํžˆ ๊ฐ๊ด€์  ์‹คํ–‰ ๊ธฐ๋ฐ˜ ํ‰๊ฐ€, ์˜ค์—ผ ์ธ์‹ ์„ค๊ณ„, ์ ‘๊ทผ์„ฑ ์žˆ๋Š” ์ธํ”„๋ผ ์ œ๊ณต์€ ์šฐ์ˆ˜ํ•˜๋‚˜, ์ œํ•œ๋œ ์ž‘์—… ๊ทœ๋ชจ์™€ ํ˜„์ƒ์  ์‹คํŒจ ๋ถ„์„ ์ˆ˜์ค€์€ ํ–ฅํ›„ ๋ณด์™„์ด ํ•„์š”ํ•˜๋‹ค. ์ตœ์‹  LLM์ด ๊ฐ€๋” SOTA ์„ฑ๋Šฅ์— ๋„๋‹ฌํ•˜์ง€๋งŒ ๋Œ€์ฒด๋กœ ์‹ ๋ขฐํ•  ์ˆ˜ ์—†๋‹ค๋Š” ๋ฐœ๊ฒฌ์€ ์—์ด์ „ํŠธ ๊ฐœ๋ฐœ ์ปค๋ฎค๋‹ˆํ‹ฐ์— ์ค‘๋Œ€ํ•œ ๊ฒฝ์ข…์„ ์šธ๋ฆฐ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Exp-bench๋Š” AI ์—ฐ๊ตฌ ์‹คํ—˜ ์ž๋™ํ™” ์ธก๋ฉด์—์„œ ResearchGym๊ณผ ๊ฐ™์€ ๋ชฉํ‘œ๋ฅผ ๊ฐ€์ง„ ๊ธฐ์ดˆ ์—ฐ๊ตฌ๋กœ ์—ฐ๊ฒฐ๋œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
MLGym์€ ๋‹ค์–‘ํ•œ ์—์ด์ „ํŠธ ํ•™์Šตยทํ‰๊ฐ€ ๋ฒค์น˜๋งˆํฌ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ๊ณตํ•˜์—ฌ, ResearchGym์˜ ์‹ค์ œ ์—ฐ๊ตฌ ํ™˜๊ฒฝ ์ ์šฉ์˜ ๊ธฐ๋ฐ˜์ด ๋œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
672๋Š” ์–ธ์–ด๋ชจ๋ธ ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ๊ฐ€ ์‹ค์ œ ๊ณผํ•™์  ์‹คํ—˜(์—ฌ๊ธฐ์„œ๋Š” ์—ฐ๊ตฌ ํ˜„์žฅ ๋ฌธ์ œ)์— ์–ด๋–ป๊ฒŒ ์ ์šฉ๋˜๋Š”์ง€ ๋ฒค์น˜๋งˆํ‚นํ•˜๋ฏ€๋กœ, 3253 ์—ฐ๊ตฌ์˜ ์ ์šฉ๋ฒ”์œ„ ํ™•์žฅ์— ํ†ต์ฐฐ์„ ์ค๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
GPT ๊ธฐ๋ฐ˜ ๋จธ์‹ ๋Ÿฌ๋‹ ํŒŒ์ดํ”„๋ผ์ธ ์ž๋™ํ™”์˜ ๊ด€๋ จ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์‹ค์ œ ๋ฐ์ดํ„ฐ์…‹์„ ํ™œ์šฉํ•œ LLM ๊ธฐ๋ฐ˜ ๋ฐ์ดํ„ฐ ๊ณผํ•™ ์—์ด์ „ํŠธ์˜ ์„ฑ๋Šฅ ํ‰๊ฐ€๋ฅผ ๋‹ค๋ฃจ๋Š” ๊ด€๋ จ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Towards LLM Agents for Earth Observation ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ์˜ ์‹ค์ œ ๊ณผํ•™ ์—ฐ๊ตฌ ์‘์šฉ(์ง€๊ตฌ๊ด€์ธก)์— ์ค‘์ ์„ ๋‘์–ด, ResearchGym์˜ ์—”๋“œํˆฌ์—”๋“œ AI ๋…ผ๋ฌธ ์—ฐ๊ตฌ์™€ ๋ถ„์•ผ๋ณ„ ์ ์šฉ์„ ๋น„๊ตํ•  ์ˆ˜ ์žˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
ResearchGym(672)๋Š” ์‹ค์ œ ํ™˜๊ฒฝ์—์„œ์˜ LLM ๊ธฐ๋ฐ˜ ์žฅ๊ธฐ ์˜์‚ฌ๊ฒฐ์ • ์‹œํ—˜ ๋ฒค์น˜๋งˆํฌ๋กœ์„œ, WebAgent-R1(871)๊ณผ ํ‰๊ฐ€ ๋ฐฉ์‹ ๋ฐ ์ ์šฉ ๋ฌธ์ œ๊ตฐ ์ธก๋ฉด์—์„œ ๋Œ€์ฒด์  ๋งฅ๋ฝ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
672(ResearchGym)๋Š” LLM ๊ธฐ๋ฐ˜ ๊ณผํ•™ ์‹คํ—˜ ์—์ด์ „ํŠธ์˜ ์‹ค์ œ์  ๋ฒค์น˜๋งˆํฌ ํ™˜๊ฒฝ์„ ์ œ์‹œํ•˜์—ฌ, 496์˜ ์ž๋™๋„๊ตฌ ์ƒ์„ฑ๊ณผ์ •์˜ ์„ฑ๋Šฅํ‰๊ฐ€ ๊ด€์ ์—์„œ ๋น„๊ต๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM ์—์ด์ „ํŠธ์˜ ๋ณต์žกํ•œ ์ •๋ณด ์ฒ˜๋ฆฌ ๋ฐ ํƒ์ƒ‰ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ๊ด€๋ จ ๋ฒค์น˜๋งˆํฌ ๋…ผ๋ฌธ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
AI ๊ธฐ๋ฐ˜ ๊ณผํ•™ ์—ฐ๊ตฌ ์ž๋™ํ™”์˜ ์ง„ํ–‰ ์ƒํ™ฉ๊ณผ ๊ณผ์ œ๋ฅผ ๋‹ค๋ฃจ๋Š” ์œ ์‚ฌํ•œ ์„œ๋ฒ ์ด ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM ๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ ๋ณด๊ณ ์„œ ํ’ˆ์งˆ ํ‰๊ฐ€ ๋ฐฉ๋ฒ•์„ ์ œ์•ˆํ•˜๋Š” ๊ด€๋ จ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM ๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ ์—์ด์ „ํŠธ ํ‰๊ฐ€๋ฅผ ์œ„ํ•œ ๋Œ€์•ˆ์  ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ์‹œํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
ResearchGym์€ ์‹ค์„ธ๊ณ„ AI ์—ฐ๊ตฌ ๋…ผ๋ฌธ ์ €์žฅ์†Œ๊นŒ์ง€ ํ™•์žฅํ•˜์—ฌ, MLGym์˜ ๋ฒค์น˜๋งˆํฌ ์ ‘๊ทผ์„ ์‹ค์ œ ์—ฐ๊ตฌํ™˜๊ฒฝ ํ‰๊ฐ€๋กœ ํ•œ ๋‹จ๊ณ„ ํ™•์žฅํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Systematic Framework of Application Methods ๋…ผ๋ฌธ์€ LLM ์ ์šฉ์˜ ์‹ ๋ขฐ์„ฑ ๋ฌธ์ œ์™€ ๋ฐฉ๋ฒ•๋ก ์  ํ˜ผ๋ˆ ํ•ด์†Œ๋ฅผ ์œ„ํ•œ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์‹œํ•ด, capability-reliability gap์˜ ์กฐ์ง์  ๋ถ„์„์„ ๋ณด์™„ํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
672๋ฒˆ ๋…ผ๋ฌธ(ResearchGym)์€ ์‹ค์ œ ํ™˜๊ฒฝ์—์„œ GNN ๋ฐ LLM ๊ธฐ๋ฐ˜ ๋ชจ๋ธ์„ ํ‰๊ฐ€ํ•˜๋Š” ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ๊ณตํ•ด, 3095์ฒ˜๋Ÿผ ์ƒˆ๋กœ์šด GNN ๊ตฌ์กฐ ์‹คํ—˜์  ํ‰๊ฐ€ ์‚ฌ๋ก€๋ฅผ ๋น„๊ตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Towards end-to-end automation of AI research ๋…ผ๋ฌธ์€ ์‹ค์ œ ์—ฐ๊ตฌ ์ž๋™ํ™” ์ „์ฒด์  ๊ด€์ ์—์„œ AI ์—์ด์ „ํŠธ ํ‰๊ฐ€ ๊ธฐ์ค€ ํ™•์žฅ์„ ๋…ผ์˜ํ•˜์—ฌ ResearchGym์˜ ๋ชฉ์ ๊ณผ ์—ฐ์žฅ์„ฑ์„ ๊ฐ€์ง„๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
ResearchGym์€ ์‹ค์ œ AI ์—ฐ๊ตฌ ๋…ผ๋ฌธ ์›Œํฌํ”Œ๋กœ์šฐ์—์„œ capability-reliability gap์„ ์‹ค์ฆ์ ์œผ๋กœ ๋“œ๋Ÿฌ๋‚ด์–ด, LLM ํ™œ์šฉ ํ”„๋ ˆ์ž„์›Œํฌ ์ ์šฉ์˜ ์‹ค์ œ ๋ฌธ์ œ๋ฅผ ๋ณด์—ฌ์ค€๋‹ค.
๋ฐ˜๋ก /๋น„ํŒ
Towards a Science of AI Agent Reliability ๋…ผ๋ฌธ์€ ์—์ด์ „ํŠธ ์„ฑ๋Šฅ์˜ ์‹ ๋ขฐ์„ฑ ๋ฌธ์ œ๋ฅผ ์ด๋ก ์ ์œผ๋กœ ๋‹ค๋ฃจ๋ฉฐ, ResearchGym์—์„œ ์ œ๊ธฐํ•œ '๋Šฅ๋ ฅ-์‹ ๋ขฐ์„ฑ ๊ฒฉ์ฐจ' ๊ฒฝํ—˜์  ์ฆ๊ฑฐ์™€ ๊ท ํ˜• ์žˆ๊ฒŒ ๋ณผ ์ˆ˜ ์žˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •