Vending-Bench: A Benchmark for Long-Term Coherence of Autonomous Agents

์ €์ž: Axel Backlund, Lukas Petersson | ๋‚ ์งœ: 2025-02-20 | DOI: 10.48550/arXiv.2502.15840 📄 PDF


Essence

Figure 1

Vending-Bench ๋ฒค์น˜๋งˆํฌ ๊ฐœ์š”

๋ณธ ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ๊ฐ€ ์žฅ๊ธฐ๊ฐ„(>2์ฒœ๋งŒ ํ† ํฐ)์— ๊ฑธ์ณ ์ผ๊ด€๋œ ์„ฑ๋Šฅ์„ ์œ ์ง€ํ•˜๋Š” ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•ด ์žํŒ๊ธฐ ์šด์˜์ด๋ผ๋Š” ๋‹จ์ˆœํ•˜์ง€๋งŒ ์žฅ์‹œ๊ฐ„ ์ง€์†๋˜๋Š” ๋น„์ฆˆ๋‹ˆ์Šค ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ํ™˜๊ฒฝ์„ ์ œ์‹œํ•œ๋‹ค. ์‹คํ—˜ ๊ฒฐ๊ณผ Claude 3.5 Sonnet๊ณผ o3-mini๋Š” ๋Œ€๋ถ€๋ถ„์˜ ์‹คํ–‰์—์„œ ์ˆ˜์ต์„ ์ฐฝ์ถœํ•˜์ง€๋งŒ ๋ชจ๋“  ๋ชจ๋ธ์ด ๋†’์€ ๋ถ„์‚ฐ๋„(variance)๋ฅผ ๋ณด์ด๋ฉฐ, ๋ฐฐ์†ก ์ผ์ • ์˜คํ•ด์„, ์ฃผ๋ฌธ ๋ง๊ฐ, ๋˜๋Š” "๋ฉœํŠธ๋‹ค์šด" ๋ฃจํ”„ ๋“ฑ์œผ๋กœ ์ธํ•ด ์žฅ๊ธฐ์ ์œผ๋กœ ์„ฑ๋Šฅ์ด ์ €ํ•˜๋จ์„ ๋ฐœ๊ฒฌํ–ˆ๋‹ค.

Motivation

Achievement

Figure 3

์ฃผ์š” ๋ชจ๋ธ๋“ค์˜ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๊ธฐ๊ฐ„ ๋™์•ˆ์˜ ํ‰๊ท  ์ ์ˆ˜ ์ถ”์ด

  1. ์„ฑ๋Šฅ ์ˆœ์œ„ ๋ฐ ์ธ์ƒ์  ๊ฒฐ๊ณผ: Claude 3.5 Sonnet์ด ํ‰๊ท  ์ˆœ์ž์‚ฐ $2,217.93์œผ๋กœ ์ตœ๊ณ  ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•˜์—ฌ ์ธ๊ฐ„ ๊ธฐ์ค€์„ ($844.05)์„ ์•ฝ 2.6๋ฐฐ ์ƒํšŒ. o3-mini๋Š” ๋‘ ๋ฒˆ์งธ๋กœ $906.86์˜ ์ˆœ์ž์‚ฐ ๋‹ฌ์„ฑ.
  2. ๋†’์€ ๋ถ„์‚ฐ๋„ ๋ฐœ๊ฒฌ: ๋ชจ๋“  ๋ชจ๋ธ์ด ๋งค์šฐ ๋†’์€ ์„ฑ๋Šฅ ๋ถ„์‚ฐ์„ ๋‚˜ํƒ€๋ƒ„. ์˜ˆ๋ฅผ ๋“ค์–ด Claude 3.5 Sonnet์˜ ๊ฒฝ์šฐ ์ตœ๊ณ  ์„ฑ๋Šฅ ์‹คํ–‰์—์„œ๋Š” ์šฐ์ˆ˜ํ•˜์ง€๋งŒ, ์ตœ์•…์˜ ๊ฒฝ์šฐ $476.00์œผ๋กœ ๋–จ์–ด์ง€๋ฉฐ, ์ผ๋ถ€ ์‹คํ–‰์—์„œ๋Š” ๋‹จ ํ•˜๋‚˜์˜ ์ƒํ’ˆ๋„ ํŒ๋งคํ•˜์ง€ ๋ชปํ•จ.
  3. ์žฅ๊ธฐ ์„ฑ๋Šฅ ์ €ํ•˜: ๋ชจ๋“  ๋ชจ๋ธ์ด ํ‰๊ท ์ ์œผ๋กœ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ์ข…๋ฃŒ ์ „์— ํŒ๋งค ํ™œ๋™์ด ์ •์ฒด๋จ. Claude 3.5 Sonnet๋„ ์ „์ฒด ์‹œ๋ฎฌ๋ ˆ์ด์…˜์˜ 82.2%๊นŒ์ง€๋งŒ ํ™œ๋™์ ์ด๊ณ  ์ดํ›„ ํŒ๋งค๊ฐ€ ์ค‘๋‹จ๋จ.
  4. ์ปจํ…์ŠคํŠธ ์œˆ๋„์šฐ์™€์˜ ๋ฌด๊ด€์„ฑ: ์„ฑ๋Šฅ ์ €ํ•˜๊ฐ€ ์ปจํ…์ŠคํŠธ ์œˆ๋„์šฐ ํฌํ™” ์ง€์ ๊ณผ ๋ช…ํ™•ํ•œ ์ƒ๊ด€๊ด€๊ณ„๋ฅผ ๋ณด์ด์ง€ ์•Š์•„, ์‹คํŒจ๊ฐ€ ๋ฉ”๋ชจ๋ฆฌ ํ•œ๊ณ„๊ฐ€ ์•„๋‹Œ ๋‹ค๋ฅธ ์›์ธ์—์„œ ๋น„๋กฏ๋จ์„ ์‹œ์‚ฌ.

How

Figure 2

๊ณต๊ธ‰์ž ํ†ต์‹  ์„ค์ •

์—์ด์ „ํŠธ ๊ตฌํ˜„:

์ž‘์—… ํ™˜๊ฒฝ:

ํ™˜๊ฒฝ ์„ค์ •:

์ฑ„์  ๋ฐฉ์‹:

Originality

Limitation & Further Study

ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ:

Evaluation

Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

์ดํ‰: ๋ณธ ๋…ผ๋ฌธ์€ LLM ์—์ด์ „ํŠธ์˜ ์žฅ๊ธฐ ์ผ๊ด€์„ฑ์ด๋ผ๋Š” ์ค‘์š”ํ•˜์ง€๋งŒ ์†Œ์™ธ๋œ ๋ฌธ์ œ๋ฅผ ๋‹ค๋ฃจ๋Š” ์‹ค์งˆ์ ์ด๊ณ  ์ž˜ ์„ค๊ณ„๋œ ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ์‹œํ•˜๋ฉฐ, ํ˜„์žฌ ์ตœ๊ณ  ์„ฑ๋Šฅ ๋ชจ๋ธ๋“ค๋„ ์žฅ๊ธฐ๊ฐ„ ์•ˆ์ •์„ฑ์—์„œ ํ˜„์ €ํ•œ ๋ฌธ์ œ๋ฅผ ๋ณด์ธ๋‹ค๋Š” ๋ฐœ๊ฒฌ์€ AI ์—์ด์ „ํŠธ ๊ฐœ๋ฐœ๊ณผ ์•ˆ์ „ ํ‰๊ฐ€์— ์‹œ์‚ฌ์ ์„ ์ œ๊ณตํ•œ๋‹ค. ๋‹ค๋งŒ ์‹คํŒจ ์›์ธ ๋ถ„์„์˜ ์‹ฌํ™”, ์ธ๊ฐ„ ๊ธฐ์ค€์„ ์˜ ํ†ต๊ณ„์  ํ™•์ถฉ, ๋‹ค์ค‘ ๋„๋ฉ”์ธ ํ™•์žฅ์„ ํ†ตํ•ด ์—ฐ๊ตฌ๊ฐ€ ๋”์šฑ ๊ฐ•ํ™”๋  ์ˆ˜ ์žˆ์„ ๊ฒƒ์œผ๋กœ ํŒ๋‹จ๋œ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
์‚ฌํšŒ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ ํ–‰๋™ ๋ถ„์„ ์„œ๋ฒ ์ด๋กœ, ์žฅ๊ธฐ๊ฐ„ ์—์ด์ „ํŠธ ์ผ๊ด€์„ฑ ์—ฐ๊ตฌ ๋ฐฐ๊ฒฝ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
247๋ฒˆ ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜ ๋Œ€๊ทœ๋ชจ ์ง‘๋‹จ ์—์ด์ „ํŠธ์˜ ์‚ฌํšŒ์  ์‹œ๋ฎฌ๋ ˆ์ด์…˜๊ณผ ์ผ๊ด€์„ฑ ๋ฌธ์ œ๋ฅผ ์ด๋ก ์  ํ‹€์—์„œ ๋‹ค๋ฃน๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
AI ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ(์˜ˆ: Elicit)์˜ ์žฅ๊ธฐ์  ์ฝ”ํžˆ๋Ÿฐ์Šค ๋ฐ ์‹ค์งˆ์  ํšจ์šฉ์„ฑ ํ‰๊ฐ€๋ผ๋Š” ๋™์ผ ๋งฅ๋ฝ์—์„œ ์„ฑ๋Šฅ์˜ ์ง€ํ‘œ์™€ ํ•œ๊ณ„๋ฅผ ํ•จ๊ป˜ ๋…ผ์˜ํ•  ์ˆ˜ ์žˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
์žฅ๊ธฐ๊ฐ„ยท๋Œ€๊ทœ๋ชจ ๊ณ„ํš ๋ฐ ์‚ฌํšŒ์  ์ƒํ˜ธ์ž‘์šฉ์„ ์—์ด์ „ํŠธ ๋ฒค์น˜๋งˆํฌ๋กœ ์ œ์‹œํ•˜์—ฌ, ์žํŒ๊ธฐ-๋น„์ฆˆ๋‹ˆ์Šค ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ํ™˜๊ฒฝ๊ณผ ๋ชฉ์ ์ด ํก์‚ฌํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
AI ๊ธฐ๋ฐ˜ ์‹œ๋ฎฌ๋ ˆ์ด์…˜์˜ ์‹ค์ œ์  ์žฅ๊ธฐ ์ผ๊ด€์„ฑ๊ณผ ์„ฑ๋Šฅ์„ ์ธก์ •ํ•˜๋Š” ์ƒˆ๋กœ์šด ๋ฐฉ๋ฒ• ์ œ์‹œ๋กœ, ์žํŒ๊ธฐ ํ™˜๊ฒฝ ๋ฒค์น˜๋งˆํฌ์™€ ๋น„๊ตํ•  ๋งŒํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
OmniScientist ๋…ผ๋ฌธ์€ ์ธ๊ฐ„-AI ์‚ฌํšŒ์  ์ƒํ˜ธ์ž‘์šฉ ๋ฐ ์žฅ๊ธฐ๊ฐ„ ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ ์—์ด์ „ํŠธ ์ผ๊ด€์„ฑ๊ณผ ํ•™์Šต์„ ๋ชจ๋ธ๋งํ•˜์—ฌ Vending-Bench์˜ ์žฅ๊ธฐ ์—์ด์ „ํŠธ ์ผ๊ด€์„ฑ ๋ถ„์„๊ณผ ๊ด€๋ จ ๊นŠ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์žฅ๊ธฐ์  ์ผ๊ด€์„ฑ ํ‰๊ฐ€๋ฅผ ์œ„ํ•œ ์—์ด์ „ํŠธ ๋ฒค์น˜๋งˆํฌ๋ผ๋Š” ๋™์ผ ๋ฌธ์ œ์— ๋Œ€ํ•ด ์„œ๋กœ ๋‹ค๋ฅธ ํ™˜๊ฒฝ๊ณผ ๋ฐฉ์‹์„ ์ œ๊ณตํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋…๋ฆฝ์  ์—์ด์ „ํŠธ์˜ ์žฅ๊ธฐ์  ์ผ๊ด€์„ฑ๊ณผ ์‚ฌํšŒ์  ์‹œ๋ฎฌ๋ ˆ์ด์…˜์— ์ดˆ์ ์„ ๋งž์ถ˜ ๋ฒค์น˜๋งˆํฌ ๋…ผ๋ฌธ์ž…๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
์žฅ๊ธฐ์  ์—์ด์ „ํŠธ ํ–‰์œ„ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ํ™˜๊ฒฝ(์ž๋™ ํŒ๋งค๊ธฐ)์„ ํ†ตํ•ด ์‹ค์„ธ๊ณ„ ๋น„์ฆˆ๋‹ˆ์Šค ์ ์šฉ๊นŒ์ง€ ์ธ๊ฐ„-์—์ด์ „ํŠธ ์•„ํ‚คํ…์ฒ˜ ๋…ผ์˜๋ฅผ ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
641๋ฒˆ ๋…ผ๋ฌธ์€ LLM ์—์ด์ „ํŠธ์˜ ์‚ฌํšŒ์  ํ˜‘์—… ๊ณผ์ •์—์„œ ๋‚˜ํƒ€๋‚˜๋Š” ํ˜‘๋™ ํ–‰ํƒœ์™€ ์ผ๊ด€์„ฑ ๋ฌธ์ œ๋ฅผ ์‹คํ—˜์ ์œผ๋กœ ๋ถ„์„ํ•œ ์‘์šฉ ์—ฐ๊ตฌ์ž…๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
What ChatGPT and generative AI mean for science ๋…ผ๋ฌธ์€ ์žฅ๊ธฐ๊ฐ„ ์‚ฌ์šฉ ์‹œ LLM ๊ธฐ๋ฐ˜ ์‹œ์Šคํ…œ์˜ ์‚ฌํšŒ์  ๋ฐ ๊ธฐ์ˆ ์  ์˜ํ–ฅ๊ณผ ์ž ์žฌ์  ๋ฆฌ์Šคํฌ๋ฅผ ๋‹ค๋ค„, ์—์ด์ „ํŠธ ์ผ๊ด€์„ฑ ์ธก์ •(865)์ด ๊ณผํ•™ยท์‚ฐ์—… ํ˜„์žฅ์— ์‹ค์ œ๋กœ ์–ด๋–ค ์˜๋ฏธ๋ฅผ ๊ฐ–๋Š”์ง€ ์„ค๋ช…ํ•œ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
Vending-Bench ๋…ผ๋ฌธ์€ ์žฅ๊ธฐ ๊ณผ์ œ ์ˆ˜ํ–‰์˜ ์ผ๊ด€์„ฑ ํ‰๊ฐ€๋ฅผ ์œ„ํ•œ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์‹œํ•ด, AI/์ธ๊ฐ„ ํ˜‘์—… ๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ ์‹œ์Šคํ…œ์˜ ์‹คํ–‰ํšจ๊ณผ๋ฅผ ์ธก์ •ํ•˜๋Š”๋ฐ ํ™œ์šฉ๋ฉ๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •