X-WebAgentBench: A Multilingual Interactive Web Benchmark for Evaluating Global Agentic System

์ €์ž: Peng Wang, Ruihan Tao, Qiguang Chen, Mengkang Hu, Libo Qin | ๋‚ ์งœ: 2025 | DOI: arXiv:2505.15372v1 📄 PDF


Essence

Figure 1

์˜์–ด ํ™˜๊ฒฝ๊ณผ ๋‹ค๊ตญ์–ด ํ™˜๊ฒฝ์—์„œ GPT-4o์˜ ์„ฑ๋Šฅ ๋น„๊ต: ๋‹ค๊ตญ์–ด ํ™˜๊ฒฝ์—์„œ 20% ์ด์ƒ ์„ฑ๋Šฅ ์ €ํ•˜ ๋ฐœ์ƒ

๋ณธ ๋…ผ๋ฌธ์€ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ(LLM) ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ์˜ ๋‹ค๊ตญ์–ด ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•ด 14๊ฐœ ์–ธ์–ด, 2,800๊ฐœ์˜ ์ง€์‹œ๋ฌธ, 589,946๊ฐœ์˜ ์ƒํ’ˆ์„ ํฌํ•จํ•œ X-WebAgentBench ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ์‹œํ•œ๋‹ค. ๊ธฐ์กด ์—์ด์ „ํŠธ ๋ฒค์น˜๋งˆํฌ๋“ค์ด ์˜์–ด ์ค‘์‹ฌ์ด์—ˆ๋˜ ๋ฐ˜๋ฉด, ์ด ์—ฐ๊ตฌ๋Š” ๋‹ค๊ตญ์–ด ์ง€์‹œ๋ฌธ๊ณผ ๋‹ค๊ตญ์–ด ํ™˜๊ฒฝ์„ ๋™์‹œ์— ํฌํ•จํ•œ ์ตœ์ดˆ์˜ ์ข…ํ•ฉ์ ์ธ ๋‹ค๊ตญ์–ด ์—์ด์ „ํŠธ ํ‰๊ฐ€ ๋ฒค์น˜๋งˆํฌ๋ฅผ ๊ตฌ์ถ•ํ•˜์˜€๋‹ค.

Motivation

Achievement

Figure 2

X-WebAgentBench ๊ตฌ์ถ•์˜ 4๋‹จ๊ณ„: (a) ๋ฐ์ดํ„ฐ ์ค€๋น„, (b) ๋‹ค๊ตญ์–ด ์ง€์‹œ๋ฌธ ๊ตฌ์„ฑ, (c) ๋‹ค๊ตญ์–ด ํ™˜๊ฒฝ ๊ตฌ์„ฑ, (d) ํ’ˆ์งˆ ๊ฒ€์ฆ

Figure 3

X-WebAgentBench์˜ ์–ธ์–ด ๋ถ„ํฌ(15๊ฐœ ์–ธ์–ด, ์ฒญ์ƒ‰=์˜์–ด ์˜์—ญ, ๋…น์ƒ‰=๋‹ค๊ตญ์–ด ์˜์—ญ) ๋ฐ ์ƒํ’ˆ ์นดํ…Œ๊ณ ๋ฆฌ ๋ถ„ํฌ

  1. ๋ฒค์น˜๋งˆํฌ ๊ตฌ์ถ•: 14๊ฐœ ์–ธ์–ด์— ๊ฑธ์ณ 2,800๊ฐœ์˜ ๋‹ค๊ตญ์–ด ์ง€์‹œ๋ฌธ๊ณผ 589,946๊ฐœ์˜ ๋‹ค๊ตญ์–ด ์ƒํ’ˆ ๋ฐ์ดํ„ฐ๋ฅผ ํฌํ•จํ•œ ์ฒซ ๋ฒˆ์งธ ์ข…ํ•ฉ์  ๋‹ค๊ตญ์–ด ์—์ด์ „ํŠธ ๋ฒค์น˜๋งˆํฌ ๊ฐœ๋ฐœ
  2. ์„ฑ๋Šฅ ๋ถ„์„: ๋‹ค์–‘ํ•œ LLM๊ณผ ๊ต์ฐจ์–ธ์–ด ์ •๋ ฌ(cross-lingual alignment) ๋ฐฉ๋ฒ•์˜ ํšจ๊ณผ๋ฅผ ์ฒด๊ณ„์ ์œผ๋กœ ํ‰๊ฐ€ํ•˜์—ฌ, (a) ํฐ ๋ชจ๋ธ์˜ ๊ฒฝ์šฐ ๊ณ ๊ธ‰ ๊ต์ฐจ์–ธ์–ด ์ •๋ ฌ์ด ์„ฑ๋Šฅ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œํ‚ค๊ณ , (b) ์ž‘์€ ๋ชจ๋ธ์˜ ๊ฒฝ์šฐ ๋‹ค๊ตญ์–ด ํ™˜๊ฒฝ์„ ์˜์–ด๋กœ ๋ฒˆ์—ญํ•˜๋Š” ๊ฒƒ์ด ํšจ๊ณผ์ ์ด๋ฉฐ, (c) ๊ธฐ์กด ์—์ด์ „ํŠธ ๊ธฐ๋ฒ•๊ณผ ๊ต์ฐจ์–ธ์–ด ๊ธฐ๋ฒ•์˜ ๋‹จ์ˆœ ์กฐํ•ฉ์€ ๋ถˆ์ถฉ๋ถ„ํ•จ์„ ์ž…์ฆ
  3. ํ’ˆ์งˆ ๋ณด์ฆ: 50๊ฐœ ์ œํ’ˆ์— ๋Œ€ํ•œ ์‚ฌ์ „ ๊ฒ€์ฆ์„ ํ†ตํ•ด Google Translate(90% ์ด์ƒ)์™€ GPT-4 (74%)์˜ ๋ฒˆ์—ญ ์ •ํ™•๋„๋ฅผ ๋น„๊ตํ•˜๊ณ , ํ™˜๊ฒฝ ๋ฐ์ดํ„ฐ ๋ฒˆ์—ญ์—๋Š” GPT-4๋ฅผ ์„ ํƒํ•˜์—ฌ ๋ฌธ๋งฅ์  ๋‰˜์•™์Šค๋ฅผ ์ •ํ™•ํžˆ ํฌ์ฐฉ

How

Figure 2

2.1 ๋ฐ์ดํ„ฐ ์ค€๋น„ (Data Preparation)

2.2 ๋‹ค๊ตญ์–ด ์ง€์‹œ๋ฌธ ๊ตฌ์„ฑ (Multilingual Instruction Construction)

2.3 ๋‹ค๊ตญ์–ด ํ™˜๊ฒฝ ๊ตฌ์„ฑ (Multilingual Environment Construction)

2.4 ํ’ˆ์งˆ ๊ฒ€์ฆ (Quality Check)

Originality

Limitation & Further Study

Evaluation

Novelty: 4.5/5 Technical Soundness: 4/5 Significance: 4.5/5 Clarity: 4/5 Overall: 4.2/5

์ดํ‰: X-WebAgentBench๋Š” ๋‹ค๊ตญ์–ด ์—์ด์ „ํŠธ ์—ฐ๊ตฌ์˜ ์ค‘์š”ํ•œ ๊ณต๋ฐฑ์„ ์ฑ„์šด ์ฒซ ๋ฒˆ์งธ ์ข…ํ•ฉ์  ๋ฒค์น˜๋งˆํฌ๋กœ์„œ ํ•™์ˆ ์ ยท์‹ค๋ฌด์  ๊ฐ€์น˜๊ฐ€ ๋†’์œผ๋ฉฐ, ์ฒด๊ณ„์ ์ธ ํ’ˆ์งˆ ๊ด€๋ฆฌ ๋ฐฉ์‹์ด ๋‹๋ณด์ธ๋‹ค. ๋‹ค๋งŒ ์ „์ž์ƒ๊ฑฐ๋ž˜ ๋„๋ฉ”์ธ ์ค‘์‹ฌ, ์ƒ๋Œ€์ ์œผ๋กœ ์ž‘์€ ์ง€์‹œ๋ฌธ ๊ทœ๋ชจ, ์ž๋™ ๋ฒˆ์—ญ์˜ ๊ทผ๋ณธ์  ํ•œ๊ณ„ ๋“ฑ์œผ๋กœ ์ธํ•ด ์ถ”๊ฐ€ ํ™•์žฅ๊ณผ ๊ฐœ์„  ์—ฌ์ง€๊ฐ€ ์žˆ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
174 'BrowseComp' ๋…ผ๋ฌธ์€ ์‹ค์ œ ์›น ํ™˜๊ฒฝ์—์„œ LM ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ๋ฅผ ํ‰๊ฐ€ํ•˜๋Š” ๊ฐ„๋‹จํ•˜๋ฉด์„œ๋„ ๋„์ „์ ์ธ ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ๊ณตํ•ด X-WebAgentBench์˜ ์„ค๊ณ„ ๊ทผ๊ฐ„์ด ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Towards a Science of AI Agent Reliability ๋…ผ๋ฌธ์€ ๋‹ค๊ตญ์–ด LLM ์—์ด์ „ํŠธ์˜ ์‹ ๋ขฐ์„ฑ ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ์˜ ์ด๋ก ์  ๊ทผ๊ฑฐ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๊ตฌํ˜„ ์—์ด์ „ํŠธ์˜ ๋„๋ฉ”์ธ ์ „์ด ์ •์ฑ… ์„œ๋ฒ ์ด์™€ ๋‹ค๊ตญ์–ด ์›น ์—์ด์ „ํŠธ ํ‰๊ฐ€ ๋ฒค์น˜๋งˆํฌ๋Š” ์—์ด์ „ํŠธ์˜ ๋ฒ”์šฉ์„ฑ๊ณผ ํ™•์žฅ์„ฑ ์ธก๋ฉด์—์„œ ์ƒํ˜ธ๋ณด์™„์ ์ž…๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
AutoKaggle์˜ ๋ฉ€ํ‹ฐ์—์ด์ „ํŠธ ์ ์šฉ๊ณผ X-WebAgentBench์˜ ๋‹ค๊ตญ์–ด/๋‹ค์„ธ๊ณ„ ํ‰๊ฐ€๋กœ ์—์ด์ „ํŠธ ์ ์šฉ๋ฒ”์œ„ ํ™•์žฅ ๊ด€์ ์—์„œ ์ฐธ๊ณ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
101์€ LLM ๋Œ€๊ทœ๋ชจ ์—์ด์ „ํŠธ ํ‰๊ฐ€๋ฅผ ์˜์–ด ์ค‘์‹ฌ ๋Œ€๊ทœ๋ชจ ํƒœ์Šคํฌ๋กœ ์ง„ํ–‰ํ•˜๋ฉฐ, 888์˜ ๋‹ค๊ตญ์–ด/๋‹คํ™˜๊ฒฝ ๋ฒค์น˜๋งˆํฌ ๋ชฉ์ ๊ณผ ์œ ์‚ฌํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋‹ค๊ตญ์–ด ๋ฐ ํฌ๋กœ์Šค ๋„๋ฉ”์ธ ์ƒํ™ฉ์—์„œ AI ์—์ด์ „ํŠธ ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ๊ณตํ•˜์—ฌ, X-WebAgentBench์™€ ๋น„๊ต ์—ฐ๊ตฌ๊ฐ€ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
WebAgent-R1 ๋…ผ๋ฌธ์€ ๋‹ค์–ธ์–ด์  ์›น ์ƒํ˜ธ์ž‘์šฉ ํ‰๊ฐ€ ๋ฒค์น˜๋งˆํฌ๋กœ ์œ ์‚ฌ ๊ตฌ์กฐ๋ฅผ ๊ฐ€์ง€๋ฉด์„œ, ๋‹ค๋ฅธ ํ‰๊ฐ€ ํ™˜๊ฒฝ/๋ฐฉ์‹์— ์ค‘์ ์„ ๋‘ก๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋‹ค์–ธ์–ด์ , ๋Œ€ํ™”ํ˜• ์›น ์ •๋ณดํƒ์ƒ‰ ์—์ด์ „ํŠธ ๋ฒค์น˜๋งˆํฌ์™€ WebDancer์˜ ํ‰๊ฐ€ ์ฒด๊ณ„๋ฅผ ์ ‘๋ชฉํ•˜์—ฌ, ๋ณดํŽธ์  ์—์ด์ „ํŠธ ๊ฐœ๋ฐœ ์ „๋ฐ˜์— ํ†ต์ฐฐ์„ ์–ป๋Š”๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
872๋Š” ์›น ์ •๋ณดํƒ์ƒ‰ ์—์ด์ „ํŠธ์˜ ์ž์œจ์  ์ •๋ณด์ˆ˜์ง‘ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•˜๋ฉฐ 888์˜ ์›น ์—์ด์ „ํŠธ ํ‰๊ฐ€ ์—ฐ๊ตฌ๋ฅผ ํ™•์žฅํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
๋‹ค๊ตญ์–ด ์›น ์—์ด์ „ํŠธ ํ‰๊ฐ€๊ฐ€ ๋ฐ์ดํ„ฐ๊ณผํ•™ ๊ฒฝ์ง„๋Œ€ํšŒ ๋ฐ ์‹ค์ „์  ๋ฉ€ํ‹ฐ์—์ด์ „ํŠธ ํ”Œ๋ ›ํผ ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ์„ ๊ตฌ์ฒดํ™”ํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
๋‹ค๊ตญ์–ด ๋ฐ AI ์—ฐ๊ตฌ๋„๊ตฌ ์‹ค์‚ฌ์šฉ ์‚ฌ๋ก€ ๊ฐ€์ด๋“œ๋ฅผ ์ œ๊ณตํ•˜์—ฌ, ์‹ค์ œ ์—ฐ๊ตฌ ํ™˜๊ฒฝ์—์„œ ๋ฒค์น˜๋งˆํฌ ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •