BrowseComp: A simple yet challenging benchmark for browsing agents

์ €์ž: J. Wei, Zhiqing Sun, Spencer Papay, Steve McKinney, Jeffrey S. Han, Isa Fulford, Hyung Won Chung, Alex Tachard Passos, William Fedus, Amelia Glaese | ๋‚ ์งœ: 2025 | DOI: N/A 📄 PDF


Essence

์›น ์—์ด์ „ํŠธ์˜ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•ด 1,266๊ฐœ์˜ ์–ด๋ ค์šด ์งˆ๋ฌธ์œผ๋กœ ๊ตฌ์„ฑ๋œ BrowseComp ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ์‹œํ•œ๋‹ค. ์ด ๋ฒค์น˜๋งˆํฌ๋Š” ๊นŠ์ด ์žˆ๋Š” ์›น ํƒ์ƒ‰๊ณผ ์ฐฝ์˜์ ์ธ ๊ฒ€์ƒ‰ ๋Šฅ๋ ฅ์„ ์š”๊ตฌํ•˜๋ฉด์„œ๋„ ๋‹ต๋ณ€์ด ์งง๊ณ  ๊ฒ€์ฆ์ด ์šฉ์ดํ•œ ํŠน์ง•์„ ๊ฐ–๋Š”๋‹ค.

Motivation

Achievement

Figure 2

Figure 2: BrowseComp์˜ ์ฃผ์ œ ๋ถ„ํฌ. TV/์˜ํ™”(16.2%), ๊ณผํ•™๊ธฐ์ˆ (13.7%), ๋ฏธ์ˆ (10.0%) ๋“ฑ ๋‹ค์–‘ํ•œ ์˜์—ญ ์ปค๋ฒ„

  1. ๋ฒค์น˜๋งˆํฌ ํ’ˆ์งˆ ๊ฒ€์ฆ: ์ธ๊ฐ„ ํŠธ๋ ˆ์ด๋„ˆ๊ฐ€ 1,255๊ฐœ ๋ฌธ์ œ ์ค‘ 367๊ฐœ(29.2%)๋งŒ 2์‹œ๊ฐ„ ๋‚ด ํ•ด๊ฒฐ ๊ฐ€๋Šฅํ•˜๋ฉฐ, ์ด ์ค‘ 86.4%๊ฐ€ ์ฐธ์กฐ ๋‹ต๋ณ€๊ณผ ์ผ์น˜โ€”๋ฒค์น˜๋งˆํฌ์˜ ๋†’์€ ๋‚œ์ด๋„ ์ž…์ฆ
  2. ํฌ๊ด„์  ํ‰๊ฐ€ ์ปค๋ฒ„๋ฆฌ์ง€: 10๊ฐœ ์นดํ…Œ๊ณ ๋ฆฌ(TV/์˜ํ™”, ๊ณผํ•™๊ธฐ์ˆ , ๋ฏธ์ˆ , ์—ญ์‚ฌ, ์Šคํฌ์ธ , ์Œ์•… ๋“ฑ) 1,266๊ฐœ ๋ฌธ์ œ๋กœ ๋‹ค์–‘ํ•œ ๋„๋ฉ”์ธ์˜ ์ง€์‹ ๊ฒ€์ƒ‰ ๋Šฅ๋ ฅ ์ธก์ •
  3. ์Šค์ผ€์ผ ๊ฐ€๋Šฅํ•œ ์„ฑ๋Šฅ ๊ณก์„ : OpenAI Deep Research๊ฐ€ ํ…Œ์ŠคํŠธ ์‹œ ๊ณ„์‚ฐ๋Ÿ‰ ์ฆ๊ฐ€์— ๋”ฐ๋ผ ๋ถ€๋“œ๋Ÿฌ์šด ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๋ณด์—ฌ ๋ชจ๋ธ ๊ฐœ์„ ์„ ์ •๋Ÿ‰ํ™”ํ•  ์ˆ˜ ์žˆ๋Š” ๊ฐ๋„ ์žˆ๋Š” ๋ฒค์น˜๋งˆํฌ์ž„์„ ์ž…์ฆ

How

Figure 3

Figure 3: ์ธ๊ฐ„์ด ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•œ ์‹œ๊ฐ„ ๋ถ„ํฌ(์ขŒ)์™€ ํฌ๊ธฐํ•œ ์‹œ๊ฐ„ ๋ถ„ํฌ(์šฐ). ํ•ด๊ฒฐ๋œ ๋ฌธ์ œ๋Š” 1์‹œ๊ฐ„๋ถ€ํ„ฐ 3์‹œ๊ฐ„๊นŒ์ง€ ๋ถ„์‚ฐ, ํฌ๊ธฐ๋œ ๊ฒฝ์šฐ ๋Œ€๋ถ€๋ถ„ 2์‹œ๊ฐ„ ๊ทผ์ฒ˜

๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ๋ฐ ๊ฒ€์ฆ ๋ฐฉ๋ฒ•๋ก :

Originality

Limitation & Further Study

Evaluation

์ดํ‰: BrowseComp๋Š” ๊ธ‰์„ฑ์žฅํ•˜๋Š” ์›น ์—์ด์ „ํŠธ ๋ถ„์•ผ์— ๋ช…ํ™•ํ•œ ํ‘œ์ค€์„ ์ œ๊ณตํ•˜๋Š” ์‹ค์šฉ์ ์ด๊ณ  ์ž˜ ์„ค๊ณ„๋œ ๋ฒค์น˜๋งˆํฌ์ด์ง€๋งŒ, ์‹ค์ œ ์‚ฌ์šฉ์ž ์š”๊ตฌ(๊ธด ๋‹ต๋ณ€, ๋ชจํ˜ธ์„ฑ ํ•ด๊ฒฐ)๋ฅผ ํฌํ•จํ•œ ํ™•์žฅ์ด ํ–ฅํ›„ ํ•„์š”ํ•˜๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
์ž๋™ ์ •๋ณด ํƒ์ƒ‰ ์—์ด์ „ํŠธ์˜ ์„ค๊ณ„์™€ ํ›ˆ๋ จ์— ์ดˆ์ ์„ ๋‘” ๋…ผ๋ฌธ์œผ๋กœ, BrowseComp์˜ ํƒ์ƒ‰ ์—์ด์ „ํŠธ ๋ฒค์น˜๋งˆํฌ์™€ ๋™ํ˜• ๊ตฌ์กฐ๋ฅผ ๊ฐ€์ง„๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
174 'BrowseComp' ๋…ผ๋ฌธ์€ ์‹ค์ œ ์›น ํ™˜๊ฒฝ์—์„œ LM ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ๋ฅผ ํ‰๊ฐ€ํ•˜๋Š” ๊ฐ„๋‹จํ•˜๋ฉด์„œ๋„ ๋„์ „์ ์ธ ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ๊ณตํ•ด X-WebAgentBench์˜ ์„ค๊ณ„ ๊ทผ๊ฐ„์ด ๋ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋ณต์žกํ•œ ์ •๋ณด ์ˆ˜์ง‘ ๋ฐ ํƒ์ƒ‰ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋Š” AI ์—์ด์ „ํŠธ ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ์‹œํ•˜๋Š” ์œ ์‚ฌํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์›น ๋ธŒ๋ผ์šฐ์ง• ์—์ด์ „ํŠธ์˜ ๋Šฅ๋ ฅ๊ณผ ํ•œ๊ณ„๋ฅผ ํ‰๊ฐ€ํ•˜๋Š” ๋ฒค์น˜๋งˆํฌ๋ฅผ ์—ฐ๊ตฌํ•˜๋Š” ๊ด€๋ จ ๋…ผ๋ฌธ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ฐฝ์˜์  ๊ฒ€์ƒ‰ ์ „๋žต๊ณผ ๋‹ค๋‹จ๊ณ„ ์ •๋ณด ์ˆ˜์ง‘์„ ์š”๊ตฌํ•˜๋Š” AI ์—์ด์ „ํŠธ ํ‰๊ฐ€ ๋ฐฉ๋ฒ•์„ ๋‹ค๋ฃจ๋Š” ๊ด€๋ จ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM ์—์ด์ „ํŠธ์˜ ๋ณต์žกํ•œ ์ •๋ณด ์ฒ˜๋ฆฌ ๋ฐ ํƒ์ƒ‰ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ๊ด€๋ จ ๋ฒค์น˜๋งˆํฌ ๋…ผ๋ฌธ์ด๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
LLM ๊ธฐ๋ฐ˜ ํƒ์ƒ‰ ํ”„๋ ˆ์ž„์›Œํฌ 'Knowledge Navigator'์—์„œ ๋ณต์žก ์ •๋ณด ํƒ์ƒ‰ ๋ฐ ๊ฒ€์ฆ ๋Šฅ๋ ฅ ์‹ ์žฅ ๋ฐฉ๋ฒ•๋ก ๊นŒ์ง€ ์—ฐ๊ฒฐํ•ด๋ณผ ์ˆ˜ ์žˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
์›น ์—์ด์ „ํŠธ์˜ ์‹ฌ์ธต์  ํƒ์ƒ‰/์ถ”๋ก  ํ‰๊ฐ€๋ฅผ ์œ„ํ•ด 'WebThinker'๋ผ๋Š” ๊ฐ•ํ™”๋œ ๋ฒค์น˜๋งˆํฌ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ๊ณตํ•œ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
์‹ค์ œ ์ž„์ƒ ์˜์‚ฌ๊ฒฐ์ • ์ž‘์—…์„ ๋Œ€์ƒ์œผ๋กœ LLM์˜ ์ œ๋กœ์ƒท ํ˜‘๋ ฅ ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ์„ ์‹ค์ฆํ•œ ์—ฐ๊ตฌ์ž…๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
์›น ์—์ด์ „ํŠธ์˜ ํƒ์ƒ‰ ๋ฐ ์ •๋ณด ์ถ”์ถœ ๋Šฅ๋ ฅ์„ ์‹ค์ œ ์ƒ๋ช…๊ณผํ•™์  ๋ฐ์ดํ„ฐ ๋ถ„์„ ๋ฌธ์ œ์— ์ ์šฉํ•  ๋•Œ์˜ ํšจ๊ณผ๋ฅผ ๋ณด์—ฌ์ค€๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •