์ ์: Xinyu Geng, Peng Xia, Zhen Zhang, Xinyu Wang, Qiuchen Wang | ๋ ์ง: 2025 | DOI: 10.48550/arXiv.2508.05748 📄 PDF
VL ์ถ๋ก ์์ด์ ํธ์ ๋น๊ต: WebWatcher๋ ์์ ์๊ฐ ์ถ๋ก ์ด๋ ๊ฒ์ ๊ธฐ๋ฐ ์์ด์ ํธ๋ฅผ ๊ฐ๋ณ์ ์ผ๋ก ์ด๊ธธ ์ ์๋ GAIA ์ฌ๋ก๋ฅผ ํด๊ฒฐํ๋ฉฐ, ๋ค์ค ๋๊ตฌ ํตํฉ๊ณผ ์ฌ์ธต ์ถ๋ก ์ ๊ฐ์ ์ ์ ์ฆ
WebWatcher๋ ๋น์ -์ธ์ด(Vision-Language, VL) ํตํฉ ์ถ๋ก ๋ฅ๋ ฅ์ ๊ฐ์ถ ๋ฉํฐ๋ชจ๋ฌ ์ฌ์ธต ์ฐ๊ตฌ ์์ด์ ํธ๋ก, ํฉ์ฑ ๋ฉํฐ๋ชจ๋ฌ ๊ถค์ (synthetic multimodal trajectories)์ ํตํ ํจ์จ์ ์ธ ํ์ต, ๋ค์ํ ๋๊ตฌ์ ํ์ฉ, ๊ฐํํ์ต์ ํตํ ์ผ๋ฐํ๋ก ์น ๊ฒ์, ์ด๋ฏธ์ง ๋ถ์, ์นํ์ด์ง ํ์ ๋ฑ ๋ณต์กํ ์ ๋ณด ์ถ๊ตฌ ์์ ์ ์ํํ๋ค.
4๊ฐ ๋ฒค์น๋งํฌ์์ WebWatcher์ ์ ์ฒด ์ฑ๋ฅ ๋น๊ต: Humanity's Last Exam-VL์์ 13.6์ , BrowseComp-VL์์ 27.0์ , LiveVQA์์ 58.7์ , MMSearch์์ 55.3์ ์ผ๋ก GPT-4o, Gemini, Claude ๋ฑ ํ์ํ ๋ชจ๋ธ๊ณผ ์คํ์์ค ์์ด์ ํธ๋ค์ ๋ฅ๊ฐ
๋ฐ์ดํฐ ์์ฑ ํ์ดํ๋ผ์ธ: Level 1๊ณผ Level 2์ 2๋จ๊ณ ํ๋ ์์ํฌ๋ก ๊ตฌ์ฑ๋๋ฉฐ, QA ์์ฑ์์ ์ด๋ฏธ์ง ๊ฒ์, ๊ทธ๋ํ ์์ฑ, ๊ฒ์ฆ์ ๊ฑฐ์ณ ์ต์ข VQA ์ ์์ฑ
์ดํ: WebWatcher๋ ํ ์คํธ ์ค์ฌ web agent๋ฅผ ๋ฉํฐ๋ชจ๋ฌ ์์ญ์ผ๋ก ์ฑ๊ณต์ ์ผ๋ก ํ์ฅํ ์๋ฏธ ์๋ ์ฐ๊ตฌ๋ก, ์๋ํ๋ ๋ฐ์ดํฐ ์์ฑ ํ์ดํ๋ผ์ธ๊ณผ ๋ค์ค ๋๊ตฌ ํตํฉ์ด ํต์ฌ ๊ฐ์ ์ด๋ฉฐ, BrowseComp-VL