Essence
์์ด ํ๊ฒฝ๊ณผ ๋ค๊ตญ์ด ํ๊ฒฝ์์ GPT-4o์ ์ฑ๋ฅ ๋น๊ต: ๋ค๊ตญ์ด ํ๊ฒฝ์์ 20% ์ด์ ์ฑ๋ฅ ์ ํ ๋ฐ์
๋ณธ ๋
ผ๋ฌธ์ ๋๊ท๋ชจ ์ธ์ด๋ชจ๋ธ(LLM) ๊ธฐ๋ฐ ์์ด์ ํธ์ ๋ค๊ตญ์ด ์ฑ๋ฅ์ ํ๊ฐํ๊ธฐ ์ํด 14๊ฐ ์ธ์ด, 2,800๊ฐ์ ์ง์๋ฌธ, 589,946๊ฐ์ ์ํ์ ํฌํจํ X-WebAgentBench ๋ฒค์น๋งํฌ๋ฅผ ์ ์ํ๋ค. ๊ธฐ์กด ์์ด์ ํธ ๋ฒค์น๋งํฌ๋ค์ด ์์ด ์ค์ฌ์ด์๋ ๋ฐ๋ฉด, ์ด ์ฐ๊ตฌ๋ ๋ค๊ตญ์ด ์ง์๋ฌธ๊ณผ ๋ค๊ตญ์ด ํ๊ฒฝ์ ๋์์ ํฌํจํ ์ต์ด์ ์ข
ํฉ์ ์ธ ๋ค๊ตญ์ด ์์ด์ ํธ ํ๊ฐ ๋ฒค์น๋งํฌ๋ฅผ ๊ตฌ์ถํ์๋ค.
Achievement
X-WebAgentBench ๊ตฌ์ถ์ 4๋จ๊ณ: (a) ๋ฐ์ดํฐ ์ค๋น, (b) ๋ค๊ตญ์ด ์ง์๋ฌธ ๊ตฌ์ฑ, (c) ๋ค๊ตญ์ด ํ๊ฒฝ ๊ตฌ์ฑ, (d) ํ์ง ๊ฒ์ฆ
X-WebAgentBench์ ์ธ์ด ๋ถํฌ(15๊ฐ ์ธ์ด, ์ฒญ์=์์ด ์์ญ, ๋
น์=๋ค๊ตญ์ด ์์ญ) ๋ฐ ์ํ ์นดํ
๊ณ ๋ฆฌ ๋ถํฌ
- ๋ฒค์น๋งํฌ ๊ตฌ์ถ: 14๊ฐ ์ธ์ด์ ๊ฑธ์ณ 2,800๊ฐ์ ๋ค๊ตญ์ด ์ง์๋ฌธ๊ณผ 589,946๊ฐ์ ๋ค๊ตญ์ด ์ํ ๋ฐ์ดํฐ๋ฅผ ํฌํจํ ์ฒซ ๋ฒ์งธ ์ข
ํฉ์ ๋ค๊ตญ์ด ์์ด์ ํธ ๋ฒค์น๋งํฌ ๊ฐ๋ฐ
- ์ฑ๋ฅ ๋ถ์: ๋ค์ํ LLM๊ณผ ๊ต์ฐจ์ธ์ด ์ ๋ ฌ(cross-lingual alignment) ๋ฐฉ๋ฒ์ ํจ๊ณผ๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ํ๊ฐํ์ฌ, (a) ํฐ ๋ชจ๋ธ์ ๊ฒฝ์ฐ ๊ณ ๊ธ ๊ต์ฐจ์ธ์ด ์ ๋ ฌ์ด ์ฑ๋ฅ์ ํฌ๊ฒ ํฅ์์ํค๊ณ , (b) ์์ ๋ชจ๋ธ์ ๊ฒฝ์ฐ ๋ค๊ตญ์ด ํ๊ฒฝ์ ์์ด๋ก ๋ฒ์ญํ๋ ๊ฒ์ด ํจ๊ณผ์ ์ด๋ฉฐ, (c) ๊ธฐ์กด ์์ด์ ํธ ๊ธฐ๋ฒ๊ณผ ๊ต์ฐจ์ธ์ด ๊ธฐ๋ฒ์ ๋จ์ ์กฐํฉ์ ๋ถ์ถฉ๋ถํจ์ ์
์ฆ
- ํ์ง ๋ณด์ฆ: 50๊ฐ ์ ํ์ ๋ํ ์ฌ์ ๊ฒ์ฆ์ ํตํด Google Translate(90% ์ด์)์ GPT-4 (74%)์ ๋ฒ์ญ ์ ํ๋๋ฅผ ๋น๊ตํ๊ณ , ํ๊ฒฝ ๋ฐ์ดํฐ ๋ฒ์ญ์๋ GPT-4๋ฅผ ์ ํํ์ฌ ๋ฌธ๋งฅ์ ๋์์ค๋ฅผ ์ ํํ ํฌ์ฐฉ
Evaluation
Novelty: 4.5/5 Technical Soundness: 4/5 Significance: 4.5/5 Clarity: 4/5 Overall: 4.2/5
์ดํ: X-WebAgentBench๋ ๋ค๊ตญ์ด ์์ด์ ํธ ์ฐ๊ตฌ์ ์ค์ํ ๊ณต๋ฐฑ์ ์ฑ์ด ์ฒซ ๋ฒ์งธ ์ข
ํฉ์ ๋ฒค์น๋งํฌ๋ก์ ํ์ ์ ยท์ค๋ฌด์ ๊ฐ์น๊ฐ ๋์ผ๋ฉฐ, ์ฒด๊ณ์ ์ธ ํ์ง ๊ด๋ฆฌ ๋ฐฉ์์ด ๋๋ณด์ธ๋ค. ๋ค๋ง ์ ์์๊ฑฐ๋ ๋๋ฉ์ธ ์ค์ฌ, ์๋์ ์ผ๋ก ์์ ์ง์๋ฌธ ๊ท๋ชจ, ์๋ ๋ฒ์ญ์ ๊ทผ๋ณธ์ ํ๊ณ ๋ฑ์ผ๋ก ์ธํด ์ถ๊ฐ ํ์ฅ๊ณผ ๊ฐ์ ์ฌ์ง๊ฐ ์๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
174 'BrowseComp' ๋
ผ๋ฌธ์ ์ค์ ์น ํ๊ฒฝ์์ LM ๊ธฐ๋ฐ ์์ด์ ํธ๋ฅผ ํ๊ฐํ๋ ๊ฐ๋จํ๋ฉด์๋ ๋์ ์ ์ธ ๋ฒค์น๋งํฌ๋ฅผ ์ ๊ณตํด X-WebAgentBench์ ์ค๊ณ ๊ทผ๊ฐ์ด ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Towards a Science of AI Agent Reliability ๋
ผ๋ฌธ์ ๋ค๊ตญ์ด LLM ์์ด์ ํธ์ ์ ๋ขฐ์ฑ ํ๊ฐ ํ๋ ์์ํฌ์ ์ด๋ก ์ ๊ทผ๊ฑฐ๋ฅผ ์ ๊ณตํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๊ตฌํ ์์ด์ ํธ์ ๋๋ฉ์ธ ์ ์ด ์ ์ฑ
์๋ฒ ์ด์ ๋ค๊ตญ์ด ์น ์์ด์ ํธ ํ๊ฐ ๋ฒค์น๋งํฌ๋ ์์ด์ ํธ์ ๋ฒ์ฉ์ฑ๊ณผ ํ์ฅ์ฑ ์ธก๋ฉด์์ ์ํธ๋ณด์์ ์
๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
AutoKaggle์ ๋ฉํฐ์์ด์ ํธ ์ ์ฉ๊ณผ X-WebAgentBench์ ๋ค๊ตญ์ด/๋ค์ธ๊ณ ํ๊ฐ๋ก ์์ด์ ํธ ์ ์ฉ๋ฒ์ ํ์ฅ ๊ด์ ์์ ์ฐธ๊ณ ํ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
101์ LLM ๋๊ท๋ชจ ์์ด์ ํธ ํ๊ฐ๋ฅผ ์์ด ์ค์ฌ ๋๊ท๋ชจ ํ์คํฌ๋ก ์งํํ๋ฉฐ, 888์ ๋ค๊ตญ์ด/๋คํ๊ฒฝ ๋ฒค์น๋งํฌ ๋ชฉ์ ๊ณผ ์ ์ฌํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋ค๊ตญ์ด ๋ฐ ํฌ๋ก์ค ๋๋ฉ์ธ ์ํฉ์์ AI ์์ด์ ํธ ๋ฒค์น๋งํฌ๋ฅผ ์ ๊ณตํ์ฌ, X-WebAgentBench์ ๋น๊ต ์ฐ๊ตฌ๊ฐ ๊ฐ๋ฅํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
WebAgent-R1 ๋
ผ๋ฌธ์ ๋ค์ธ์ด์ ์น ์ํธ์์ฉ ํ๊ฐ ๋ฒค์น๋งํฌ๋ก ์ ์ฌ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง๋ฉด์, ๋ค๋ฅธ ํ๊ฐ ํ๊ฒฝ/๋ฐฉ์์ ์ค์ ์ ๋ก๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋ค์ธ์ด์ , ๋ํํ ์น ์ ๋ณดํ์ ์์ด์ ํธ ๋ฒค์น๋งํฌ์ WebDancer์ ํ๊ฐ ์ฒด๊ณ๋ฅผ ์ ๋ชฉํ์ฌ, ๋ณดํธ์ ์์ด์ ํธ ๊ฐ๋ฐ ์ ๋ฐ์ ํต์ฐฐ์ ์ป๋๋ค.
ํ์ ์ฐ๊ตฌ
872๋ ์น ์ ๋ณดํ์ ์์ด์ ํธ์ ์์จ์ ์ ๋ณด์์ง ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ฉฐ 888์ ์น ์์ด์ ํธ ํ๊ฐ ์ฐ๊ตฌ๋ฅผ ํ์ฅํ ์ ์์ต๋๋ค.
์์ฉ ์ฌ๋ก
๋ค๊ตญ์ด ์น ์์ด์ ํธ ํ๊ฐ๊ฐ ๋ฐ์ดํฐ๊ณผํ ๊ฒฝ์ง๋ํ ๋ฐ ์ค์ ์ ๋ฉํฐ์์ด์ ํธ ํ๋ ํผ ์ ์ฉ ๊ฐ๋ฅ์ฑ์ ๊ตฌ์ฒดํํฉ๋๋ค.
์์ฉ ์ฌ๋ก
๋ค๊ตญ์ด ๋ฐ AI ์ฐ๊ตฌ๋๊ตฌ ์ค์ฌ์ฉ ์ฌ๋ก ๊ฐ์ด๋๋ฅผ ์ ๊ณตํ์ฌ, ์ค์ ์ฐ๊ตฌ ํ๊ฒฝ์์ ๋ฒค์น๋งํฌ ์ ์ฉ ๊ฐ๋ฅ์ฑ์ ์์ฌํฉ๋๋ค.