์ ์: Mingxuan Du, Benfeng Xu, Chiwei Zhu, Xiaorui Wang, Zhendong Mao | ๋ ์ง: 2025 | DOI: ๋ฏธ์ ๊ณต 📄 PDF
๊ทธ๋ฆผ 1: DeepResearch Bench์์์ ์์ด์ ํธ ์ฑ๋ฅ ๊ฐ์. ์ข์ธก: ํ๊ฐ ์ฐจ์๋ณ ์์ฑ๋ ๋ณด๊ณ ์ ํ์ง ์ ์, ์ฐ์ธก: ์์ด์ ํธ ์ธ์ฉ ์ ํ๋ ๋ฐ ํ๊ท ํจ๊ณผ์ ์ธ์ฉ ์
๋ณธ ๋ ผ๋ฌธ์ ๋๊ท๋ชจ ์ธ์ด๋ชจ๋ธ ๊ธฐ๋ฐ ๊น์ด ์๋ ์ฐ๊ตฌ ์์ด์ ํธ(Deep Research Agents, DRAs)๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ํ๊ฐํ๊ธฐ ์ํ ์ต์ด์ ์ข ํฉ ๋ฒค์น๋งํฌ DeepResearch Bench๋ฅผ ์ ์ํ๋ค. 22๊ฐ ๋ถ์ผ์ ๋ฐ์ฌ ์์ค ์ฐ๊ตฌ ๊ณผ์ 100๊ฐ์ ๋ ๊ฐ์ง ํ์ ์ ์ธ ํ๊ฐ ๋ฐฉ๋ฒ๋ก (RACE, FACT)์ ํตํด DRA์ ๋ณด๊ณ ์ ์์ฑ ํ์ง๊ณผ ์ ๋ณด ๊ฒ์ ๋ฅ๋ ฅ์ ์ ๋์ ์ผ๋ก ํ๊ฐํ๋ค.
๊ทธ๋ฆผ 2: DeepResearch Bench ๊ฐ์. (a) ๋ถํฌ ๋ถ์ ๋ฐ ๋ฐ์ดํฐ ์์ง ํ์ดํ๋ผ์ธ, (b) RACE ํ๋ ์์ํฌ ๊ฐ์, (c) FACT ํ๋ ์์ํฌ ๊ฐ์
๊ทธ๋ฆผ 3: 44,019๊ฐ ํํฐ๋ง๋ ๊น์ด ์๋ ์ฐ๊ตฌ ๊ณผ์ ์ ์ฃผ์ ๋ถํฌ
์ดํ: ๋ณธ ๋ ผ๋ฌธ์ ๋น ๋ฅด๊ฒ ๋ฐ์ ํ๋ LLM ๊ธฐ๋ฐ ์์ด์ ํธ ๋ถ์ผ์์ Deep Research Agents๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ํ๊ฐํ๊ธฐ ์ํ ์ฒซ ๋ฒ์งธ ์ข ํฉ ๋ฒค์น๋งํฌ๋ฅผ ์ ์ํ๋ฉฐ, ์ค์ ์ฌ์ฉ์ ๋ฐ์ดํฐ ๊ธฐ๋ฐ ์ค๊ณ์ ์ธ๊ฐ ํ๋จ๊ณผ ์ผ์นํ๋ ํ๊ฐ ํ๋ ์์ํฌ๋ฅผ ํตํด ๋์ ์ค์ฉ์ฑ๊ณผ ์ ๋ขฐ์ฑ์ ํ๋ณดํ๋ค. ๋ค๋ง ํ๊ฐ ๋ฐฉ๋ฒ๋ก ์ ์ผ๋ถ๊ฐ ๊ธฐ์กด ๊ธฐ๋ฒ์ ์์กดํ๊ณ , ๋ ๊ด๋ฒ์ํ ์ธ์ด ๋ฐ ๋๋ฉ์ธ ํ์ฅ์ด ํ์ํ ์ ์ด ๋ณด์๋์ด์ผ ํ๋ค.