AIRS-Bench: a Suite of Tasks for Frontier AI Research Science Agents

์ €์ž: Alisia Lupidi, Bhavul Gauri, Thomas Simon Foster, Bassel Al Omari, Despoina Magka, Alberto Pepe, Alexis Audran-Reiss, Muna Aghamelu, Nicolas Baldwin, Lucia Cipolina-Kun, Jean-Christophe Gagnon-Audet, Chee Hau Leow, Sandra Lefdal, Hossam Mossalam, Abhinav Moudgil, Saba Nazir, Emanuel Tewolde, Isabel Urrego, Jordi Armengol Estape, Amar Budhiraja, Gaurav Chaurasia, Abhishek Charnalia, Derek Dunfield, Karen Hambardzumyan, Daniel Izcovich, Martin Josifoski, Ishita Mediratta, Kelvin Niu, Parth Pathak, Michael Shvartsman, Edan Toledo, Anton Protopopov, Roberta Raileanu, Alexander Miller, Tatiana Shavrina, Jakob Foerster, Yoram Bachrach | ๋‚ ์งœ: 2026 | DOI: 10.48550/ARXIV.2602.06855 📄 PDF


Essence

LLM ๊ธฐ๋ฐ˜ AI ์—ฐ๊ตฌ ์—์ด์ „ํŠธ์˜ ์ข…ํ•ฉ์  ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•ด, ์ตœ์‹  ๋จธ์‹ ๋Ÿฌ๋‹ ๋…ผ๋ฌธ์—์„œ ์ถ”์ถœํ•œ 20๊ฐœ์˜ ๋‹ค์–‘ํ•œ ์ž‘์—…์œผ๋กœ ๊ตฌ์„ฑ๋œ ํ‘œ์ค€ํ™”๋œ ๋ฒค์น˜๋งˆํฌ AIRS-Bench๋ฅผ ์ œ์‹œํ•œ๋‹ค. ๋ณธ ๋ฒค์น˜๋งˆํฌ๋Š” ์•„์ด๋””์–ด ์ƒ์„ฑ๋ถ€ํ„ฐ ์‹คํ—˜ ๋ถ„์„ ๋ฐ ๋ฐ˜๋ณต์  ๊ฐœ์„ ์— ์ด๋ฅด๋Š” ์™„์ „ํ•œ ์—ฐ๊ตฌ ์ƒ๋ช…์ฃผ๊ธฐ๋ฅผ ํ‰๊ฐ€ํ•˜๋ฉฐ, ํ˜„์žฌ ํ”„๋ก ํ‹ฐ์–ด LLM ๋ชจ๋ธ๋“ค์€ 4๊ฐœ ์ž‘์—…์—์„œ๋งŒ ์ธ๊ฐ„ ์ˆ˜์ค€์˜ ์ตœ๊ณ  ์„ฑ๋Šฅ(SOTA)์„ ์ดˆ๊ณผํ•˜๊ณ  ๋Œ€๋ถ€๋ถ„์˜ ์ž‘์—…์—์„œ ์—ฌ์ „ํžˆ ๊ฐœ์„  ์—ฌ์ง€๊ฐ€ ์žˆ์Œ์„ ๋ณด์—ฌ์ค€๋‹ค.

Motivation

Achievement

Figure 1

๊ทธ๋ฆผ 1: AIRS-Bench ์ž‘์—… ์˜ˆ์‹œ. ๊ฐ ์ž‘์—…์€ {๋ฌธ์ œ, ๋ฐ์ดํ„ฐ์…‹, ๋ฉ”ํŠธ๋ฆญ} ์‚ผ์ค‘์Œ์œผ๋กœ ๋ช…์‹œ๋˜๋ฉฐ, ์—์ด์ „ํŠธ๋Š” ์ „์ฒด ์ž‘์—… ๋ช…์„ธ๋ฅผ ๋ฐ›๊ณ  ํ…Œ์ŠคํŠธ ๋ ˆ์ด๋ธ” ํŒŒ์ผ์— ๋Œ€ํ•œ ์˜ˆ์ธก์„ ์ƒ์„ฑํ•˜๋Š” ์†”๋ฃจ์…˜์„ ๊ฐœ๋ฐœํ•œ๋‹ค.

  1. ํ‘œ์ค€ํ™”๋œ ๋ฒค์น˜๋งˆํฌ ๊ตฌ์ถ•:
    • 20๊ฐœ์˜ NLP, ์ˆ˜ํ•™, ์ฝ”๋“œ, ์ƒํ™”ํ•™, ์‹œ๊ณ„์—ด ์˜ˆ์ธก ์ž‘์—…์œผ๋กœ ๊ตฌ์„ฑ๋œ ๊ท ํ˜• ์žกํžŒ ๋ฒค์น˜๋งˆํฌ ๊ฐœ๋ฐœ
    • ๋ฐ์ดํ„ฐ ์˜ค์—ผ ๋ฐฉ์ง€๋ฅผ ์œ„ํ•ด ๋ฒ ์ด์Šค๋ผ์ธ ์ฝ”๋“œ ๋ฏธ์ œ๊ณต
    • ์•„์ด๋””์–ด ์ƒ์„ฑ(H), ๊ตฌํ˜„(I), ์‹คํ—˜(E), ๋ถ„์„(A) 4๋‹จ๊ณ„ ๊ณผํ•™์  ๋ฐฉ๋ฒ•๋ก  ์™„์ „ ํฌ๊ด„
  2. ์ข…ํ•ฉ์  ์„ฑ๋Šฅ ๋ถ„์„:
    • 14๊ฐœ์˜ ์—์ด์ „ํŠธ ํ‰๊ฐ€๋ฅผ ํ†ตํ•ด ๋ช…ํ™•ํ•œ ์„ฑ๋Šฅ ์ฐจ๋“ฑํ™” ํ™•์ธ
    • 4๊ฐœ ์ž‘์—…์—์„œ๋งŒ ์ธ๊ฐ„ SOTA ์ดˆ๊ณผ, 16๊ฐœ ์ž‘์—…์—์„œ ๋ฏธ๋‹ฌ
    • ์ธ๊ฐ„ SOTA๋ฅผ ์ดˆ๊ณผํ•œ ๊ฒฝ์šฐ์—๋„ ์ด๋ก ์  ์„ฑ๋Šฅ ์ƒํ•œ(theoretical ceiling)์— ๋ฏธ๋‹ฌ
    • ๋ฒค์น˜๋งˆํฌ๊ฐ€ ํฌํ™”๋˜์ง€ ์•Š์•˜์œผ๋ฉฐ ์ƒ๋‹นํ•œ ๊ฐœ์„  ์—ฌ์ง€ ์กด์žฌ
  3. ํ‰๊ฐ€ ๋ฐฉ๋ฒ•๋ก  ์ •๋ฆฝ:
    • ์œ ํšจ ์ œ์ถœ ๋น„์œจ(valid submission rate), ์ •๊ทœํ™” ์„ฑ๋Šฅ ์ ์ˆ˜(normalized performance score), Elo ๋“ฑ๊ธ‰์ œ ๋„์ž…
    • ๋‹ค์–‘ํ•œ ๋ฉ”ํŠธ๋ฆญ์„ ํ†ตํ•œ ๋‹ค๊ฐ์  ์„ฑ๋Šฅ ํ‰๊ฐ€
    • ์‹œ๋“œ์™€ ์ž‘์—… ์ „๋ฐ˜์— ๊ฑธ์นœ ํ†ต๊ณ„์ ์œผ๋กœ ๊ฒฌ๊ณ ํ•œ ์ง‘๊ณ„ ๋ฐฉ์‹
  4. ์˜คํ”ˆ์†Œ์Šค ๊ธฐ์—ฌ:
    • AIRS-Bench ์ž‘์—… ์ •์˜ ๋ฐ ํ‰๊ฐ€ ์ฝ”๋“œ ๊ณต๊ฐœ
    • ์ž๋™ํ™”๋œ ๊ณผํ•™ ์—ฐ๊ตฌ ๊ฐœ๋ฐœ ๊ฐ€์†ํ™”์— ๊ธฐ์—ฌ

How

Originality

Limitation & Further Study

Evaluation

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
724์˜ SciHorizon์€ AIRS-Bench(090)์™€ ๊ฐ™์ด ๋‹ค์–‘ํ•œ ๊ณผํ•™์  ์ž‘์—… ๋ฒค์น˜๋งˆํฌ ์„ค๊ณ„์˜ ํ† ๋Œ€๊ฐ€ ๋˜๊ณ , ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ์—์„œ ๊ธฐ์ค€, ์ฒ™๋„ ์„ค์ • ๋“ฑ์— ํฌ๊ฒŒ ๊ธฐ์—ฌํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM์„ ์†Œํ”„ํŠธ์›จ์–ด ๊ณตํ•™ ์ž‘์—…์— ์ ์šฉํ•˜๋Š” ๋ฐฉ๋ฒ•๋ก ์„ ๋‹ค๋ฃจ๋Š” ๊ด€๋ จ ์กฐ์‚ฌ ๋…ผ๋ฌธ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ปดํ“จํ„ฐ ๋น„์ „๊ณผ ์ •๋ฐ€ ๋กœ๋ด‡๊ณตํ•™์„ ๊ฒฐํ•ฉํ•œ ์‹คํ—˜ ์ž๋™ํ™” ์‹œ์Šคํ…œ์œผ๋กœ ์œ ์‚ฌํ•œ ๋ชฉํ‘œ๋ฅผ ์ถ”๊ตฌํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
716 ๋…ผ๋ฌธ์€ ์—์ด์ „ํŠธ์˜ ๊ณผํ•™์  ํˆด ์‚ฌ์šฉ ์—ญ๋Ÿ‰์„ ํ‰๊ฐ€ํ•˜๋Š” ๋ฒค์น˜๋งˆํฌ๋กœ, AIRS-Bench์™€ ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ ๊ณผํ•™ AI ํ‰๊ฐ€๋ฅผ ๋‹ค๋ฃจ์ง€๋งŒ ์ ‘๊ทผ ๋ฐฉ์‹์ด ๋‹ค๋ฆ…๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
3389๋Š” ์ธ๊ฐ„-์—์ด์ „ํŠธ ๊ณต์ง„ํ™”์  ํ‰๊ฐ€ ์ƒํƒœ๊ณ„๋ฅผ ๋…ผ์˜ํ•˜๋Š” ์ฐจ์„ธ๋Œ€ ๋ฒค์น˜๋งˆํ‚น ์ ‘๊ทผ์œผ๋กœ, 090์˜ ๋ฒค์น˜๋งˆํฌ์™€ ๋Œ€๋น„๋œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
AIRS-Bench๊ฐ€ ํ‰๊ฐ€ํ•˜๋Š” AI ์—ฐ๊ตฌ ์—์ด์ „ํŠธ์˜ ํŠน์ • ๋Šฅ๋ ฅ(์‹คํ—˜ ๋ถ„์„ ๋“ฑ)์„ ์‹ฌํ™” ์—ฐ๊ตฌํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
757๋ฒˆ์˜ LLM ๊ธฐ๋ฐ˜ ํ‘œ ๋ฐ์ดํ„ฐ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๊ฐ€์„ค ํƒ์ƒ‰์€ 090๋ฒˆ์˜ ๊ณผํ•™ ์—ฐ๊ตฌ ์—์ด์ „ํŠธ ํ‰๊ฐ€ ๋ฒค์น˜๋งˆํฌ๋กœ ํ™•์žฅ๋˜์–ด ์‹ค์ œ ์„ฑ๋Šฅ ๋น„๊ต๊นŒ์ง€ ๋…ผ์˜ํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
285 ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜ ์ž๋™์—ฐ๊ตฌ ์‹œ์Šคํ…œ์˜ ๋ฒค์น˜๋งˆํฌ์™€ ํ…Œ์ŠคํŠธ ๋ฐฉ๋ฒ•๋ก ์„ ๋‹ค๋ฃจ๋ฉฐ, AIRS-Bench์—์„œ ํ‰๊ฐ€ํ•˜๋Š” ์—ฐ๊ตฌ ์—์ด์ „ํŠธ์˜ ์„ฑ๋Šฅ์„ ๋”์šฑ ์‹ฌ์ธต์ ์œผ๋กœ ๋ถ„์„ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
090(AIRS-Bench)๋Š” LLM ๊ธฐ๋ฐ˜ AI ์—ฐ๊ตฌ์—์ด์ „ํŠธ์˜ ์ž‘์—… ์„ฑ๋Šฅ์„ ์žฌํ˜„์„ฑ ์žˆ๊ฒŒ ํ‰๊ฐ€ํ•˜๋Š” ์ข…ํ•ฉ ๋ฒค์น˜๋งˆํฌ๋กœ, 724์˜ ๊ณผํ•™ AI ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ(SciHorizon)๋ฅผ ๋”์šฑ ๊ตฌ์ฒด์ ์ด๊ณ  ์‹ค์งˆ์ ์œผ๋กœ ์‹คํ–‰ํ•˜๋Š” ์‚ฌ๋ก€์ž…๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
794์˜ AI Scientist v2 ๋…ผ๋ฌธ์€ 090์ฒ˜๋Ÿผ AI ์—ฐ๊ตฌ์—์ด์ „ํŠธ ๋ฒค์น˜๋งˆํ‚น์— ์‹ค์  ์ค‘์‹ฌ ํ‰๊ฐ€๋ฅผ ๋”ํ•˜๋ฉฐ, ์ž๋™ ์—ฐ๊ตฌ ์‹œ์Šคํ…œ ํ‰๊ฐ€์˜ ์‹ค์ œ ํ™•์žฅ ์‚ฌ๋ก€๋ฅผ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
AIRS-Bench์™€ ๊ฐ™์ด ์‹ค์ œ ๊ณผํ•™ ํƒœ์Šคํฌ์—์„œ AI ์ง€์› ๋„๊ตฌ์˜ ์„ฑ๋Šฅ๊ณผ ์ƒ์‚ฐ์„ฑ ํšจ๊ณผ๋ฅผ ํ‰๊ฐ€ํ•  ๋•Œ ์ฐธ๊ณ ํ•  ์ˆ˜ ์žˆ๋Š” ์‹ค์ œ ๋ฒค์น˜๋งˆํ‚น ์‚ฌ๋ก€์ž…๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
016 ๋…ผ๋ฌธ์€ AutoML ๋„๊ตฌ์˜ ๋Œ€๊ทœ๋ชจ ์‹คํ—˜์  ํ‰๊ฐ€๋ฅผ ํ†ตํ•ด, AIRS-Bench์˜ ์—ฐ๊ตฌ ์—์ด์ „ํŠธ๊ฐ€ ์‹ค์ œ ์ž๋™์—ฐ๊ตฌ ์‹œ์Šคํ…œ์— ์–ด๋–ป๊ฒŒ ๊ธฐ์—ฌํ•˜๊ณ  ์„ฑ๊ณผ๋ฅผ ๋‚ผ ์ˆ˜ ์žˆ๋Š”์ง€ ์‹ค์ฆ์ ์œผ๋กœ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •