WebWatcher: Breaking New Frontier of Vision-Language Deep Research Agent

์ €์ž: Xinyu Geng, Peng Xia, Zhen Zhang, Xinyu Wang, Qiuchen Wang | ๋‚ ์งœ: 2025 | DOI: 10.48550/arXiv.2508.05748 📄 PDF


Essence

Figure 2

VL ์ถ”๋ก  ์—์ด์ „ํŠธ์˜ ๋น„๊ต: WebWatcher๋Š” ์ˆœ์ˆ˜ ์‹œ๊ฐ ์ถ”๋ก ์ด๋‚˜ ๊ฒ€์ƒ‰ ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ๋ฅผ ๊ฐœ๋ณ„์ ์œผ๋กœ ์ด๊ธธ ์ˆ˜ ์—†๋Š” GAIA ์‚ฌ๋ก€๋ฅผ ํ•ด๊ฒฐํ•˜๋ฉฐ, ๋‹ค์ค‘ ๋„๊ตฌ ํ†ตํ•ฉ๊ณผ ์‹ฌ์ธต ์ถ”๋ก ์˜ ๊ฐ•์ ์„ ์ž…์ฆ

WebWatcher๋Š” ๋น„์ „-์–ธ์–ด(Vision-Language, VL) ํ†ตํ•ฉ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ๊ฐ–์ถ˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์‹ฌ์ธต ์—ฐ๊ตฌ ์—์ด์ „ํŠธ๋กœ, ํ•ฉ์„ฑ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๊ถค์ (synthetic multimodal trajectories)์„ ํ†ตํ•œ ํšจ์œจ์ ์ธ ํ•™์Šต, ๋‹ค์–‘ํ•œ ๋„๊ตฌ์˜ ํ™œ์šฉ, ๊ฐ•ํ™”ํ•™์Šต์„ ํ†ตํ•œ ์ผ๋ฐ˜ํ™”๋กœ ์›น ๊ฒ€์ƒ‰, ์ด๋ฏธ์ง€ ๋ถ„์„, ์›นํŽ˜์ด์ง€ ํƒ์ƒ‰ ๋“ฑ ๋ณต์žกํ•œ ์ •๋ณด ์ถ”๊ตฌ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•œ๋‹ค.

Motivation

Achievement

Figure 1

4๊ฐœ ๋ฒค์น˜๋งˆํฌ์—์„œ WebWatcher์˜ ์ „์ฒด ์„ฑ๋Šฅ ๋น„๊ต: Humanity's Last Exam-VL์—์„œ 13.6์ , BrowseComp-VL์—์„œ 27.0์ , LiveVQA์—์„œ 58.7์ , MMSearch์—์„œ 55.3์ ์œผ๋กœ GPT-4o, Gemini, Claude ๋“ฑ ํ์‡„ํ˜• ๋ชจ๋ธ๊ณผ ์˜คํ”ˆ์†Œ์Šค ์—์ด์ „ํŠธ๋“ค์„ ๋Šฅ๊ฐ€

  1. ๋ฒค์น˜๋งˆํฌ ์„ฑ๋Šฅ ์šฐ์›”์„ฑ: 4๊ฐœ์˜ ๊ณ ๋‚œ๋„ VQA ๋ฒค์น˜๋งˆํฌ(HLE-VL, BrowseComp-VL, LiveVQA, MMSearch)์—์„œ ์ผ๊ด€๋˜๊ฒŒ ๊ธฐ์กด ์˜คํ”ˆ์†Œ์Šค ์—์ด์ „ํŠธ์™€ ํ์‡„ํ˜• ์‹œ์Šคํ…œ(GPT-4o, Gemini, Claude)์„ ์ƒํšŒํ•˜๋Š” ์„ฑ๋Šฅ ๋‹ฌ์„ฑ(์˜ˆ: BrowseComp-VL์—์„œ 27.0์  vs GPT-4o 13.4์ )
  2. BrowseComp-VL ๋ฒค์น˜๋งˆํฌ ๊ตฌ์ถ•: BrowseComp์˜ ๋ณต์žก์„ฑ์„ ์‹œ๊ฐ ๋„๋ฉ”์ธ์œผ๋กœ ํ™•์žฅํ•œ 399๊ฐœ VQA ์Œ(Level 1: 199๊ฐœ, Level 2: 200๊ฐœ) ํฌํ•จ ๋ฒค์น˜๋งˆํฌ ์ œ์•ˆ์œผ๋กœ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์—์ด์ „ํŠธ ๋Šฅ๋ ฅ ํ‰๊ฐ€ ์ฒด๊ณ„ ํ™•๋ฆฝ
  3. ๋‹ค์ค‘ ๋„๊ตฌ ํ†ตํ•ฉ ์ „๋žต: ์›น ํ…์ŠคํŠธ/์ด๋ฏธ์ง€ ๊ฒ€์ƒ‰, ์›นํŽ˜์ด์ง€ ๋ฐฉ๋ฌธ, ์ฝ”๋“œ ์‹คํ–‰, OCR ๋“ฑ 5๊ฐ€์ง€ ๋„๊ตฌ๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ํ™œ์šฉํ•˜๋ฉฐ, Figure 2์˜ ์‚ฌ๋ก€์ฒ˜๋Ÿผ ์ˆœ์ˆ˜ ์‹œ๊ฐ ๋ถ„์„์ด๋‚˜ ๋‹จ์ˆœ ๊ฒ€์ƒ‰ ์—์ด์ „ํŠธ๊ฐ€ ํ•ด๊ฒฐ ๋ถˆ๊ฐ€๋Šฅํ•œ ๋ฌธ์ œ ํ•ด๊ฒฐ ์ž…์ฆ

How

Figure 4

๋ฐ์ดํ„ฐ ์ƒ์„ฑ ํŒŒ์ดํ”„๋ผ์ธ: Level 1๊ณผ Level 2์˜ 2๋‹จ๊ณ„ ํ”„๋ ˆ์ž„์›Œํฌ๋กœ ๊ตฌ์„ฑ๋˜๋ฉฐ, QA ์ƒ์„ฑ์—์„œ ์ด๋ฏธ์ง€ ๊ฒ€์ƒ‰, ๊ทธ๋ž˜ํ”„ ์ƒ์„ฑ, ๊ฒ€์ฆ์„ ๊ฑฐ์ณ ์ตœ์ข… VQA ์Œ ์ƒ์„ฑ

1. ๊ณ ํ’ˆ์งˆ ํ•™์Šต ๋ฐ์ดํ„ฐ ๊ตฌ์„ฑ

2. ์ถ”๋ก  ๊ถค์ (Reasoning Trajectory) ์ž๋™ ์ƒ์„ฑ

3. ๋ชจ๋ธ ํ•™์Šต ๋ฐ ์ตœ์ ํ™”

Originality

Limitation & Further Study

Evaluation

Novelty: 4.5/5 Technical Soundness: 4/5 Significance: 4.5/5 Clarity: 3.5/5 Overall: 4/5

์ดํ‰: WebWatcher๋Š” ํ…์ŠคํŠธ ์ค‘์‹ฌ web agent๋ฅผ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์˜์—ญ์œผ๋กœ ์„ฑ๊ณต์ ์œผ๋กœ ํ™•์žฅํ•œ ์˜๋ฏธ ์žˆ๋Š” ์—ฐ๊ตฌ๋กœ, ์ž๋™ํ™”๋œ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ ํŒŒ์ดํ”„๋ผ์ธ๊ณผ ๋‹ค์ค‘ ๋„๊ตฌ ํ†ตํ•ฉ์ด ํ•ต์‹ฌ ๊ฐ•์ ์ด๋ฉฐ, BrowseComp-VL

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Gemini์™€ ๊ฐ™์€ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ชจ๋ธ์ด VL ํ†ตํ•ฉ ์ถ”๋ก ๊ณผ ๊ฐ•ํ™”ํ•™์Šต ๊ธฐ๋ฐ˜ ๊ณผํ•™ํƒ์ƒ‰์— ๋ฏธ์น˜๋Š” ์˜ํ–ฅ์„ ์ด๋ก ์ ์œผ๋กœ ๋’ท๋ฐ›์นจํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
215๋ฒˆ ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜ ๊ณผํ•™๋ฌธํ—Œ ๋ถ„๋ฅ˜ยท๊ตฌ์กฐํ™” ์‹œ์Šคํ…œ์˜ ๊ธฐ์ดˆ ์—ฐ๊ตฌ๋กœ์„œ, ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ •๋ณด ์ถ”์ถœ๊ณผ ํ†ตํ•ฉ ํƒœ์Šคํฌ์˜ ๊ตฌํ˜„ ํ† ๋Œ€๋ฅผ ๋งˆ๋ จํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Gemini 1.5 ๋…ผ๋ฌธ์€ ์ดˆ๋Œ€๊ทœ๋ชจ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ชจ๋ธ์˜ ์›น-๋น„์ „ ์—ฐํ•ฉ ์ถ”๋ก  ์„ฑ๋Šฅ๊ณผ WebWatcher์˜ VL ์—์ด์ „ํŠธ ๊ตฌ์กฐ์— ์ง์ ‘์  ์ฐธ๊ณ ๊ฐ€ ๋œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
343์€ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ์˜ ์žฌ๋ฃŒ ๊ณผํ•™ ์ ์šฉ์„ ๋‹ค๋ฃจ๋ฉฐ, WebWatcher์˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ถ”๋ก  ๋Šฅ๋ ฅ์˜ ์‘์šฉ ๊ฐ€๋Šฅ์„ฑ์„ ๋„“ํž™๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
HuggingGPT๋Š” ChatGPT ๋“ฑ LLM์ด ๋‹ค์–‘ํ•œ ๋„๊ตฌ ๋ฐ ๋ถ„์‚ฐํ˜• ์—์ด์ „ํŠธ๋ฅผ ๋™์›ํ•˜๋Š” ๋ฐฉ์‹์„ ์ œ์‹œํ•˜๋ฉฐ, WebWatcher์˜ ์—์ด์ „ํŠธ ๊ตฌ์กฐ์™€ ๋น„๊ตํ•ด๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋…ผ๋ฌธ ์ž‘์„ฑ, ํŽธ์ง‘ ๊ณผ์ •์—์„œ LLM ๋ณด์กฐ ์‹œ์Šคํ…œ์˜ ์‹ค์ œ์  ์˜ํ–ฅ๊ณผ ํšจ์šฉ์„ฑ, ํ•œ๊ณ„์— ๋Œ€ํ•ด ๋” ๋‹ค์–‘ํ•œ ์ ‘๊ทผ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
873๋ฒˆ ๋…ผ๋ฌธ์€ ๋”ฅ๋ฆฌ์„œ์น˜ ํƒœ์Šคํฌ์—์„œ LLM ๊ธฐ๋ฐ˜ ์ถ”๋ก ยทํƒ์ƒ‰ ์—์ด์ „ํŠธ์˜ ์„ค๊ณ„ ๋ฐ ํ‰๊ฐ€๋ฅผ ๋‹ค๋ฃจ๋ฉฐ WebWatcher์˜ ๊ตฌ์กฐ์™€ ์œ ์‚ฌํ•˜์ง€๋งŒ ๊ตฌํ˜„ ์ ‘๊ทผ๋ฒ•์ด ๋‹ค๋ฆ…๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
ResearchCodeBench ๋…ผ๋ฌธ์€ ์›น ๊ธฐ๋ฐ˜ ์ •๋ณด ์ถ”์ถœ๊ณผ ์ฝ”๋“œ ์ƒ์„ฑ ๋“ฑ ๋ณต์žกํ•œ ์ •๋ณด ์ถ”๊ตฌ ์ž‘์—…์˜ LLM ์—์ด์ „ํŠธ ํ‰๊ฐ€๋กœ, WebWatcher์˜ ์‹ค์ œ ์ ์šฉ ํ™˜๊ฒฝ๊ณผ ์„ฑ๋Šฅ์„ ๋น„๊ตํ•  ์ˆ˜ ์žˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
874๋ฒˆ ๋…ผ๋ฌธ์€ Vision-Language ๊ธฐ๋ฐ˜ ๋…ผ๋ฌธ ์‹ฌํ™” ์š”์•ฝ์˜ ํ•œ๊ณ„๋ฅผ ๋‹ค๋ฃจ๋ฉฐ, 875๋ฒˆ์˜ AI ํˆด ์žฅ๋‹จ์  ํ‰๊ฐ€์™€ ๋Œ€์กฐ์ ์ด๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •