Scienceboard: Evaluating multimodal autonomous agents in realistic scientific workflows

์ €์ž: Qiushi Sun, Zhoumianze Liu, Chang Ma, Zichen Ding, Fangzhi Xu ์™ธ ๋‹ค์ˆ˜ | ๋‚ ์งœ: 2025 | DOI: arXiv:2505.19897v2 📄 PDF


Essence

Figure 1

AlphaFold๋ฅผ ํ†ตํ•œ ๋‹จ๋ฐฑ์งˆ ๊ตฌ์กฐ ์˜ˆ์ธก๊ณผ Celestia์—์„œ ํ–‰์„ฑ ๊ถค๋„ ํ‘œ์‹œ ๋“ฑ ์‹ค์ œ ๊ณผํ•™ ์†Œํ”„ํŠธ์›จ์–ด์™€ ์ƒํ˜ธ์ž‘์šฉํ•˜๋Š” ์—์ด์ „ํŠธ

๋ณธ ๋…ผ๋ฌธ์€ ํ˜„์‹ค์ ์ธ ๊ณผํ•™ ์›Œํฌํ”Œ๋กœ์šฐ์—์„œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ž์œจ ์—์ด์ „ํŠธ๋ฅผ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•œ SCIENCEBOARD ํ™˜๊ฒฝ๊ณผ ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ์‹œํ•œ๋‹ค. ์ƒํ™”ํ•™, ์ฒœ๋ฌธํ•™, ์ง€์ •๋ณดํ•™ ๋“ฑ 6๊ฐœ ๊ณผํ•™ ๋„๋ฉ”์ธ์—์„œ 169๊ฐœ์˜ ๊ณ ํ’ˆ์งˆ ์ž‘์—…์„ ํ†ตํ•ด ์ตœ์‹  LLM/VLM ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ๋“ค์ด 15% ์ดํ•˜์˜ ์„ฑ๊ณต๋ฅ ์„ ๋ณด์ด๋ฉฐ, ํ˜„์žฌ ๊ธฐ์ˆ ์˜ ํ•œ๊ณ„๋ฅผ ๋ช…์‹œ์ ์œผ๋กœ ๋“œ๋Ÿฌ๋‚ธ๋‹ค.

Motivation

Achievement

Figure 2

SCIENCEBOARD์˜ ์ธํ”„๋ผ ๊ตฌ์กฐ: VM ๊ธฐ๋ฐ˜ ํ™˜๊ฒฝ, ๊ณผํ•™ ์†Œํ”„ํŠธ์›จ์–ด, GUI/CLI ์ธํ„ฐํŽ˜์ด์Šค, ํ‰๊ฐ€ ํŒŒ์ดํ”„๋ผ์ธ

  1. ์ข…ํ•ฉ ํ‰๊ฐ€ ํ™˜๊ฒฝ ๊ตฌ์ถ•:
    • 6๊ฐœ ๋„๋ฉ”์ธ(๋Œ€์ˆ˜, ์ƒํ™”ํ•™, ์ •๋ฆฌ ์ฆ๋ช…, GIS, ์ฒœ๋ฌธํ•™, ๊ณผํ•™ ๋ฌธ์„œ)์— ๊ฑธ์นœ ์‹ค์ œ ๊ณผํ•™ ์†Œํ”„ํŠธ์›จ์–ด ํ†ตํ•ฉ
    • GUI์™€ CLI ์ด์ค‘ ๋ชจ๋“œ ์ƒํ˜ธ์ž‘์šฉ ์ง€์›
    • ํ…์ŠคํŠธ ์ „์šฉ, ์‹œ๊ฐ ์ „์šฉ, ๊ฒฐํ•ฉ ๊ด€์ฐฐ(observation) ์„ค์ • ์ง€์›
    • ์ ‘๊ทผ์„ฑ ํŠธ๋ฆฌ(a11ytree) ๊ธฐ๋ฐ˜ ๊ตฌ์กฐํ™”๋œ ํ…์ŠคํŠธ ํ‘œํ˜„ ์ œ๊ณต
  2. ๊ณ ํ’ˆ์งˆ ๋ฒค์น˜๋งˆํฌ ๊ฐœ๋ฐœ:
    • ๋„๋ฉ”์ธ ์ „๋ฌธ๊ฐ€์— ์˜ํ•ด ์ˆ˜์ž‘์—…์œผ๋กœ ์„ค๊ณ„๋œ 169๊ฐœ ์ž‘์—…
    • ๊ณผํ•™์ž์˜ ์ผ์ƒ์  ๋ฃจํ‹ด์„ ์‹œ๋ฎฌ๋ ˆ์ด์…˜
    • ์‹œ๊ฐ์  ์ถ”๋ก , ๋„๊ตฌ ์กฐ์ž‘, ์ฝ”๋”ฉ, ์ˆ˜ํ•™, ๊ณต๊ฐ„ ์ดํ•ด, ๋„๋ฉ”์ธ ํŠนํ™” ์ง€์‹ ๋“ฑ ๋‹ค์–‘ํ•œ ๋Šฅ๋ ฅ ์š”๊ตฌ
  3. ์‹ ๋ขฐ์„ฑ ์žˆ๋Š” ํ‰๊ฐ€ ๋ฉ”์ปค๋‹ˆ์ฆ˜:
    • ๊ณผํ•™ ์†Œํ”„ํŠธ์›จ์–ด I/O ํ˜•์‹์˜ ๋ณต์žก์„ฑ ๋Œ€์‘์„ ์œ„ํ•œ ์žฌ๊ตฌ์„ฑ
    • VM ๋‚ด๋ถ€ ์ƒํƒœ ๊ฒ€์ƒ‰ ๊ธฐ๋ฐ˜ ์‹คํ–‰ ํ‰๊ฐ€(execution-based evaluation)
    • ๊ฐ ๋„๋ฉ”์ธ๋ณ„ ์ปค์Šคํ„ฐ๋งˆ์ด์ฆˆ๋œ ํ‰๊ฐ€ ํ•จ์ˆ˜ ์„ค๊ณ„
  4. ์ƒ์„ธํ•œ ์„ฑ๋Šฅ ๋ถ„์„:
    • ์ตœ์‹  LLM/VLM ์—์ด์ „ํŠธ๋“ค์˜ ํ‰๊ท  ์„ฑ๊ณต๋ฅ  0-15% ๋‹ฌ์„ฑ
    • ์ตœ์  ๋ถ€๋ถ„ ์นดํ…Œ๊ณ ๋ฆฌ์—์„œ๋„ 20% ์„ฑ๊ณต๋ฅ ์— ๊ทธ์นจ
    • ์—์ด์ „ํŠธ์˜ ํ•œ๊ณ„์  ๋ฐ ๊ฐœ์„  ๋ฐฉํ–ฅ์— ๋Œ€ํ•œ ์‹ฌ์ธต ๋ถ„์„ ์ œ์‹œ

How

Figure 3

์ž‘์—… ์ฃผ์„ ํŒŒ์ดํ”„๋ผ์ธ: ๋„๋ฉ”์ธ ์ „๋ฌธ๊ฐ€์— ์˜ํ•œ ์„ค๊ณ„ ๋ฐ ๊ฒ€์ฆ ํ”„๋กœ์„ธ์Šค

ํ™˜๊ฒฝ ์„ค๊ณ„ (Environment Design)

๊ด€์ฐฐ ๋ฐ ๋ฉ”๋ชจ๋ฆฌ

์†Œํ”„ํŠธ์›จ์–ด ํ†ตํ•ฉ ๋ฐ ์ ์‘

ํ‰๊ฐ€ ํŒŒ์ดํ”„๋ผ์ธ

์ •์ฑ… ๋ชจ๋ธ

Originality

Limitation & Further Study

ํ•œ๊ณ„

ํ›„์† ์—ฐ๊ตฌ

Evaluation

์ดํ‰: SCIENCEBOARD๋Š” ์ปดํ“จํ„ฐ-์‚ฌ์šฉ ์—์ด์ „ํŠธ๋ฅผ ํ˜„์‹ค์ ์ธ ๊ณผํ•™ ์›Œํฌํ”Œ๋กœ์šฐ์—์„œ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•œ ํš๊ธฐ์ ์ธ ํ™˜๊ฒฝ์ด์ž ๋ฒค์น˜๋งˆํฌ๋กœ, ํ˜„์žฌ ๊ธฐ์ˆ ์˜ ๋ช…ํ™•ํ•œ ํ•œ๊ณ„(15% ์„ฑ๊ณต๋ฅ )๋ฅผ ๋“œ๋Ÿฌ๋‚ด๋ฉด์„œ ๋™์‹œ์— AI ๊ธฐ๋ฐ˜ ๊ณผํ•™ ์ž๋™ํ™” ์—ฐ๊ตฌ์˜

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๋…ผ๋ฌธ peer review์˜ ์ž๋™ ํ‰๊ฐ€ยท์‹ ๋ขฐ์„ฑ ์ง€ํ‘œ ์„ค๊ณ„์ฒ˜๋Ÿผ, ๊ณผํ•™ ์—์ด์ „ํŠธ ํ‰๊ฐ€์—์„œ ๋ฒค์น˜๋งˆํฌ ์‹ ๋ขฐ์„ฑ๊ณผ ๊ฐ๊ด€์„ฑ ๋…ผ์˜๋ฅผ ๋ณด๊ฐ•ํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
SCIENCEBOARD์˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์—์ด์ „ํŠธ ํ‰๊ฐ€ ํ™˜๊ฒฝ์€ Aviary์˜ ๊ณผํ•™์–ธ์–ด์—์ด์ „ํŠธ ํ›ˆ๋ จ๊ณผ ๋ฒค์น˜๋งˆํฌ ๋ฐฉํ–ฅ์„ฑ์„ ์ด์–ด๋ฐ›์€ ์‹คํ—˜์  ํ”Œ๋žซํผ์ž…๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
363๋ฒˆ ๋…ผ๋ฌธ์€ ๊ฐ€์„ค ๋ฐœ๊ฒฌ ๋ฐ ๋ฐ์ดํ„ฐ ์›Œํฌํ”Œ๋กœ์šฐ ์ƒ์—์„œ์˜ ์—์ด์ „ํ‹ฑ Reasoning ํ‰๊ฐ€์— ๋Œ€ํ•ด ์ด๋ก ์  ๋ฐฐ๊ฒฝ๊ณผ ๋น„๊ต๊ทธ๋ฆผ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
์›๊ฒฉํƒ์‚ฌ ๋ฐ์ดํ„ฐ ํ†ตํ•ฉ ์ฒ˜๋ฆฌ๋ฅผ ์œ„ํ•œ ๊ธฐ์ดˆ ๋ชจ๋ธ ๋ฐฉ๋ฒ•๋ก ์„ ์ œ๊ณตํ•œ๋‹ค
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
SCP ๋…ผ๋ฌธ์˜ ๊ธ€๋กœ๋ฒŒ ์˜ค์ผ€์ŠคํŠธ๋ ˆ์ด์…˜ ํ‘œ์ค€์€ SCIENCEBOARD์˜ ํ˜„์‹ค์  ๊ณผํ•™ ์—์ด์ „ํŠธ ํ‰๊ฐ€ ํ™˜๊ฒฝ์ด ์ฐจ์„ธ๋Œ€ ๋„คํŠธ์›Œํฌ ์ƒ์—์„œ ์–ด๋–ป๊ฒŒ ๊ตฌํ˜„๋ ์ง€ ํ† ๋Œ€๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
3398์€ ์žฅ๊ธฐ ๊ณผํ•™์  ๊ณ„ํš๊ณผ ์—์ด์ „ํŠธ ํ‰๊ฐ€์— ์ง‘์ค‘ํ•œ ๋ฒค์น˜๋งˆํฌ๋กœ, ์›Œํฌํ”Œ๋กœ์šฐ ํ˜„์žฅ์„ฑ์„ ๊ฐ™์ด ๊ณ ๋ฏผํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๊ณ„์‚ฐ๊ณผํ•™ ์›Œํฌํ”Œ๋กœ์šฐ ์ž๋™ํ™”๋ฅผ ์œ„ํ•œ LLM ๊ธฐ๋ฐ˜ ์‹œ์Šคํ…œ์˜ ๊ด€๋ จ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ LLM์˜ ๊ณต๊ฐ„์  ๋˜๋Š” ์‹œ๊ฐ์  ์ถ”๋ก  ํ•œ๊ณ„๋ฅผ ๋ถ„์„ํ•˜๋Š” ๊ด€๋ จ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๊ธฐ๋ฐ˜ ์ ์‘๋ฉด์—ญ ์ˆ˜์šฉ์ฒด ๋ถ„์„ ๋ฐ ์—์ด์ „ํŠธ ํ‰๊ฐ€์—์„œ ๋ฐฉ๋ฒ•๊ณผ ํ‰๊ฐ€ ์ง€ํ‘œ๊ฐ€ ๋‹ค๋ฆ…๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
295๋ฒˆ ๋…ผ๋ฌธ์€ ๋™์  ๋ฉ€ํ‹ฐ์—์ด์ „ํŠธ ์˜ค์ผ€์ŠคํŠธ๋ ˆ์ด์…˜์„ ํ†ตํ•œ ๋ถ„์„ ์ž๋™ํ™”์˜ ํ‰๊ฐ€ ์ฒด๊ณ„๋กœ์„œ, ๋ฆฌ์–ผ ์›”๋“œ ์›Œํฌํ”Œ๋กœ์šฐ ํ‰๊ฐ€์™€ ์‹œ๋„ˆ์ง€๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
716์€ ๋‹ค์–‘ํ•œ ๊ณผํ•™ ๋ถ„์•ผ์—์„œ ์–ธ์–ด ์—์ด์ „ํŠธ ๋ฒค์น˜๋งˆํฌ๋ฅผ ํ™•์žฅํ•˜์—ฌ ์ œ๊ณตํ•˜๋Š” ๋…ผ๋ฌธ์ž…๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
SCIENCEBOARD๊ฐ€ ๋“œ๋Ÿฌ๋‚ธ ์—์ด์ „ํŠธ ์„ฑ๊ณต๋ฅ  ๋ฐ ํ•œ๊ณ„ ๋ถ„์„์€ SCP(738)๊ฐ€ ์ œ์‹œํ•œ ๊ธ€๋กœ๋ฒŒ ์ž์œจ ๊ณผํ•™์—์ด์ „ํŠธ ๋„คํŠธ์›Œํฌ์™€ ์‹ค์งˆ์  ๊ณผ์ œ ์—ฐ๊ณ„๋ฅผ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
SciAgentGym์€ ๊ณผํ•™ ์›Œํฌํ”Œ๋กœ์šฐ์—์„œ ๋ฉ€ํ‹ฐ์Šคํ… ๋„๊ตฌ ์‚ฌ์šฉ ํ‰๊ฐ€๋ฅผ ๋ชฉํ‘œ๋กœ ํ•˜์—ฌ, Scienceboard์˜ ๋ฒค์น˜๋งˆํฌ๋ฅผ ๊ตฌ์ฒด์  ์‚ฌ์šฉ ์‹œ๋‚˜๋ฆฌ์˜ค๋กœ ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
163์€ ์ƒ์˜ํ•™ ์—ฐ๊ตฌ๋ฅผ ๋Œ€์ƒ์œผ๋กœ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ž์œจ ์—์ด์ „ํŠธ์˜ ์‹ค์ œ์  ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •