์ ์: Ziru Chen, Shijie Chen, Yuting Ning, Qianheng Zhang, Boshi Wang, Botao Yu, Yifei Li, Zeyi Liao, Chen Wei, Zitong Lu, Vishal Dey, Mingyi Xue, Frazier N. Baker, Benjamin Burns, Daniel Adu-Ampratwum, Xuhui Huang, Xia Ning, Song Gao, Yu Su, Huan Sun | ๋ ์ง: 2025-03-31 | DOI: 10.48550/arXiv.2410.05080 | ์ถํ์ฒ: ICLR 2025 📄 PDF
Essence
๋ณธ ๋
ผ๋ฌธ์ ๋๊ท๋ชจ์ธ์ด๋ชจ๋ธ(LLM) ๊ธฐ๋ฐ ์ธ์ด์์ด์ ํธ(Language Agents)์ ๋ฐ์ดํฐ ๊ธฐ๋ฐ ๊ณผํ ๋ฐ๊ฒฌ ์ํ๋ฅ๋ ฅ์ ์๋ฐํ๊ฒ ํ๊ฐํ๊ธฐ ์ํ ๋ฒค์น๋งํฌ ScienceAgentBench๋ฅผ ์ ์ํ๋ค. ์ต๊ทผ LLM์ด ๊ณผํ ์ฐ๊ตฌ ์๋ํ๋ฅผ ์์ ํ ์๋ํํ ์ ์๋ค๋ ์ฃผ์ฅ๋ค์ ๋ํด, ๊ฐ๋ณ ๊ณผํ์ ์์
๋จ์์์์ ์ฒด๊ณ์ ํ๊ฐ์ ์ค์์ฑ์ ๊ฐ์กฐํ๊ณ ํ์ฌ ์์ด์ ํธ์ ์ค์ ์ญ๋์ ํ๊ณ๋ฅผ ๋ช
ํํ ํ๋ค.
Evaluation
Novelty: 4.5/5 Technical Soundness: 4.3/5 Significance: 4.6/5 Clarity: 4.2/5 Overall: 4.4/5
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ LLM ๊ธฐ๋ฐ ๊ณผํ ์์ด์ ํธ์ ์ฑ๋ฅ์ ์๋ฐํ๊ฒ ํ๊ฐํ ์ ์๋ ๊ณ ํ์ง ๋ฒค์น๋งํฌ๋ฅผ ์ ์ํจ์ผ๋ก์จ, ๊ณผ์ฅ๋ ์ฃผ์ฅ๋ค์ ๋ํ ๊ฐ๊ด์ ๊ทผ๊ฑฐ๋ฅผ ์ ๊ณตํ๋ค. ํนํ ํผ์ด๋ฆฌ๋ทฐ ๋
ผ๋ฌธ ๊ธฐ๋ฐ ์์
์ถ์ถ๊ณผ ๋ถ์ผ๋ณ ์ ๋ฌธ๊ฐ ๊ฒ์ฆ์ ํตํด ๊ณผํ์ ์ง์ ์ฑ์ ํ๋ณดํ ์ ์ด ํต์ฌ ๊ธฐ์ฌ์ด๋ฉฐ, ์ค์ ๊ณผํ์๋ค์ ์์ฐ์ฑ ํฅ์์ ๋ชฉํ๋ก ํ ํ์ค์ ๋ฌธ์ ์ค์ ์ด ๋๋ณด์ธ๋ค. ๋ค๋ง ํ์ฌ ์์ด์ ํธ์ 32-42% ์ฑ๋ฅ์ผ๋ก๋ ์ค๋ฌด ํ์ฉ์ ์์ง ์ ์ฝ์ด ์์ผ๋ฉฐ, ์ด๋ฅผ ๊ฐ์ ํ๊ธฐ ์ํ ์ฅ๊ธฐ ์ฐ๊ตฌ ๋ฐฉํฅ์ ์ ์ํ๋ ๋ฐ ๋
ผ๋ฌธ์ ๊ฐ์น๊ฐ ์๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
๊ณผํ ์คํ ์๋ํ๋ฅผ ์ํ LLM ์์ด์ ํธ์ ๊ธฐ๋ฐ ๊ฐ๋
์ ์ ๊ณตํ๋ ์ฐ๊ตฌ์ด๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๊ณผํ์ ์ธ์ด์์ด์ ํธ์ ํ๊ฐยท๋ฒค์น๋งํน์ ์ํ ํ๋ ์์ํฌ๋ก ๋ณต์กํ ์ํฌํ๋ก์ฐ ํด๊ฒฐ ๋ฅ๋ ฅ ๊ฒ์ฆ์ ์ด๋ก ์ ๊ธฐ๋ฐ์ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
LLM ๊ธฐ๋ฐ ๊ณผํ ์๋ํ ์์ด์ ํธ์ ์ด๋ก ์ ๊ธฐ๋ฐ์ ์ ๊ณตํ๋ ์ฐ๊ตฌ์ด๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
ํํ ๋๋ฉ์ธ์์ LLM ์ฑ๋ฅ ํฅ์์ ์ํ ๋ฐฉ๋ฒ๋ก ์ ๊ธฐ๋ฐ์ ์ ๊ณตํ๋ ์ฐ๊ตฌ์ด๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๊ณผํ์ ๋ฐ๊ฒฌ์ ์ํ LLM ์์ด์ ํธ์ ๊ธฐ๋ฐ ๋ฐฉ๋ฒ๋ก ์ ์ ๊ณตํ๋ ์ฐ๊ตฌ์ด๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
716 ๋
ผ๋ฌธ์ ์๋ ๊ณผํ ์ฐ๊ตฌ ์์ด์ ํธ์ ์ํ๋ฅ๋ ฅ ํ๊ฐ์ ์ด์ ์ ๋ง์ถ์ด, 248์ ์คํ ์๋ํ ์์ด์ ํธ์ ํ๊ฐ ๋ฐ ๊ฒ์ฆ ๋ชฉ์ ๊ณผ ๊ธด๋ฐํ ์ฐ๊ฒฐ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
353์ ๋ํ ์ธ์ด๋ชจ๋ธ ๊ธฐ๋ฐ ๊ณผํ ์๋ํ(์์ด์ ํธ) ๊ด๋ จ ์ต์ ๋ํฅ๊ณผ ํ๊ฐ ๊ธฐ์ค์ ๋ค๋ฃจ์ด, 716 ๋
ผ๋ฌธ์ ์ ์ฒด์ ๋งฅ๋ฝ ์ดํด๋ฅผ ๋๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
716์ LLM๊ณผ ์ธ๋ถ ๋๊ตฌ ํตํฉ์ ์ด๋ก ์ ยท๋ฐฉ๋ฒ๋ก ์ ๊ธฐ๋ฐ์ ์ ๊ณตํ์ฌ ToolUniverse ์ค๊ณ์ ๊ธฐ์ด๊ฐ ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
LLM ๊ธฐ๋ฐ ๊ณผํ ๋ฐ๊ฒฌ ์์ด์ ํธ์ ์ด๋ก ์ ยท๋ฐฉ๋ฒ๋ก ์ ๊ธฐ๋ฐ์ ์ ๊ณตํ๋ ์ฐ๊ตฌ์ด๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
822 ๋
ผ๋ฌธ์ AI ๊ณผํ ์์ด์ ํธ์ ์ ๋ขฐ์ฑ ํ๊ฐ ํ๋ ์์ํฌ๋ฅผ ์ด๋ก ์ ์ผ๋ก ๋
ผ์ํ์ฌ, 716์ ๋ฒค์น๋งํฌ ๋ชฉ์ ์ ์ค์ํ ๊ธฐ๋ฐ์ ์ ๊ณตํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๊ณผํ ์๋ํ๋ฅผ ์ํ LLM ์์ด์ ํธ์ ๊ธฐ๋ฐ ๊ฐ๋
์ ์ ๊ณตํ๋ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
716๊ณผ ๋ง์ฐฌ๊ฐ์ง๋ก 170์ ๊ณผํ ๋ฐ๊ฒฌ ๊ณผ์ ์ ๋ํ LLM ๊ธฐ๋ฐ ์์ด์ ํธ ํ๊ฐ๋ฅผ ๋ชฉํ๋ก ํ์ง๋ง ์๋ก ๋ค๋ฅธ ๋ฒค์น๋งํฌ์ ํ๊ฐ ์งํ๋ฅผ ์ ์ํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
ScienceAgentBench๋ LLM ๊ธฐ๋ฐ ์์ด์ ํธ์ ๊ณผํ ๋ฌธ์ ํด๊ฒฐ๋ ฅ(๋ค์ ๋จ๊ณ ์ถ๋ก ํฌํจ)์ ์ง์คํ์ฌ, ๊ณ์ธต์ ํ๊ฐ ํ๋ ์์ํฌ์ ํ์ฅ์ ๋ถ์ ํ์ ์ค๋ค.
๋ค๋ฅธ ์ ๊ทผ
๊ณผํ ๋๊ตฌ ์ฌ์ฉ ์์ด์ ํธ์ ๋ฒค์น๋งํฌ ๋ฐ ์ฑ๋ฅ ํ๊ฐ๋ฅผ ์ฐ๊ตฌํ๋ ๊ด๋ จ ๋
ผ๋ฌธ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
์๋ฃ ๋ฐ์ดํฐ ๋ถ์ ๋๋ ์์ ์์ฌ๊ฒฐ์ ์ง์์ ์ํ LLM ์์ด์ ํธ๋ฅผ ๋ค๋ฃจ๋ ์ ์ฌํ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ์ ๋ฐ์ดํฐ ๊ณผํ ์์
์ํ ๋ฅ๋ ฅ์ ๋ค๋ฅธ ๋ฒค์น๋งํฌ๋ก ํ๊ฐํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
ํํ ๋ฐ ์ฌ๋ฃ ์ค๊ณ์ AI๋ฅผ ์ ์ฉํ ์ ์ฌํ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
820๋ฒ ๋
ผ๋ฌธ์ LLM ๊ธฐ๋ฐ ๊ณผํ์ ๊ฐ์ค ์์ฑ์ ์ ๋ขฐ์ฑ ํ๊ฐ์ ์ด์ ์ ๋ง์ถ์ด, ์ธ์ด ์์ด์ ํธ์ ๊ณผํ์ ์ค๋ฌด ๋ฅ๋ ฅ์ ๋ํ ๋ค์ํ ํ๊ฐ ๋ฐฉ์์ ์๋ก ๋น๊ตํ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
ScienceAgentBench๋ LLM ๊ธฐ๋ฐ ๊ณผํ ์์ด์ ํธ์ ํ๊ฐ๋ฅผ ๋ชฉํ๋ก ํ์ฌ ๋ค์ํ ์งํ์ ํ๋กฌํํธ ์ฒด๊ณํ์์ ๋น๊ต ์ฐ๊ตฌ๊ฐ ๊ฐ๋ฅํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
ScienceAgentBench๋ LLM ๊ธฐ๋ฐ ๊ณผํ ์์ด์ ํธ์ ํ๊ฐ ๊ธฐ์ค์ ์ ๊ณตํ๋ฏ๋ก EAIRA์ ๋น๊ตํ์ฌ ๋ค์ํ ๊ณผํ์ ์๋ํ ํ๊ฐ ํ๋ ์์ํฌ๋ฅผ ํ์ํ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
AI4Science ๋ถ์ผ๋ณ LLM ํ๊ฐ๋ฅผ ์ํ ๋ฒค์น๋งํฌ ์ ์์ด๋ผ๋ ๋์ผ ์ฃผ์ ๋ก Rigorous Assessment ํ๋ ์์ํฌ๋ฅผ ๋น๊ตํ ์ ์๋ค.
๋ค๋ฅธ ์ ๊ทผ
์๋ฌผ์ ๋ณดํ ๋๋ ๊ฒ๋
ธ๋ฏน ๋ฐ์ดํฐ ๋ถ๋ฅ์ AI๋ฅผ ์ ์ฉํ๋ ์ ์ฌํ ์ ๊ทผ๋ฒ์ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
716 ๋
ผ๋ฌธ์ ์์ด์ ํธ์ ๊ณผํ์ ํด ์ฌ์ฉ ์ญ๋์ ํ๊ฐํ๋ ๋ฒค์น๋งํฌ๋ก, AIRS-Bench์ ๋ง์ฐฌ๊ฐ์ง๋ก ๊ณผํ AI ํ๊ฐ๋ฅผ ๋ค๋ฃจ์ง๋ง ์ ๊ทผ ๋ฐฉ์์ด ๋ค๋ฆ
๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM ๊ธฐ๋ฐ AI ์์ด์ ํธ ์ด์ ํ๊ฒฝ์ ๋์์ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
๊ณผํ ๋
ผ๋ฌธ ์ฌํ์ฑ ๋ฌธ์ ๋ฅผ ๋ค๋ฅธ AI ๊ธฐ๋ฐ ์ ๊ทผ๋ฒ์ผ๋ก ํด๊ฒฐํ๋ ค๋ ์ ์ฌ ์ฐ๊ตฌ์ด๋ค.
ํ์ ์ฐ๊ตฌ
์ธ์ด๋ชจ๋ธ์ ์์ง๋์ด๋งยท๊ตฌ์ฒด ์ฝ๋ ๊ตฌํ ๋ฅ๋ ฅ์ ๋ํ ๋ฒค์น๋งํฌ๋ก, ๊ตฌ์กฐ ์ค๊ณ์์ LLM ์์ฉ์ ์ค์ ์ฑ๋ฅ ๊ฒํ ์๋ฃ์ด๋ค.
ํ์ ์ฐ๊ตฌ
248๋ฒ ๋
ผ๋ฌธ์ LLM ์์ด์ ํธ๋ฅผ ์ด์ฉํด ์๋ํ ์คํ ์ํ์ ํ๊ฐํ๋ ์ฒด๊ณ์ ๋ฒค์น๋งํฌ๋ฅผ ์ ์ํ์ฌ, 716๋ฒ ScienceAgentBench๊ฐ ์งํฅํ๋ ์ธ์ด ์์ด์ ํธ์ ์ค์ ์ญ๋ ํ๊ฐ ๋ฐฉํฅ์ ์ค์ง์ ์ฌ๋ก๋ฅผ ์ ๊ณตํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
716์ ๋ค์ํ ๊ณผํ ๋ถ์ผ์์ ์ธ์ด ์์ด์ ํธ ๋ฒค์น๋งํฌ๋ฅผ ํ์ฅํ์ฌ ์ ๊ณตํ๋ ๋
ผ๋ฌธ์
๋๋ค.
ํ์ ์ฐ๊ตฌ
840 ๋
ผ๋ฌธ์ 716์ LLM ๊ธฐ๋ฐ ๊ณผํ ์๋ํ ํ๊ฐ ์ฐ๊ตฌ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก LLM์ด ๊ณผํ ๋ถ์ผ์ ๋ฏธ์น๋ ์ํฅ์ ๋ํด ์ข
ํฉ์ ์ผ๋ก ๋
ผ์ํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
716 ๋
ผ๋ฌธ์ 704์ ๋ฉํฐ์คํ
๋๊ตฌ ํ์ฉ ๋ฒค์น๋งํฌ๋ฅผ ๋ฐ์ดํฐ ๊ธฐ๋ฐ ๊ณผํ ์์ด์ ํธ์ ์ค์ ๋ฐ๊ฒฌ ๋ฅ๋ ฅ ํ๊ฐ๋ก ํ์ฅํ๋ค.
์์ฉ ์ฌ๋ก
SciAgents ๋
ผ๋ฌธ์ ์๋ฌผ ๊ธฐ๋ฐ ๊ณผํ ๋ฐ๊ฒฌ ์๋ํ๋ฅผ ์ค์ ๋ก ๊ตฌํํ๊ณ ํ๊ฐํ์ฌ ScienceAgentBench ๋ฒค์น๋งํฌ์ ์ค์ง์ ํ์ฉ ์์๋ฅผ ๋ณด์ฌ์ค๋ค.
์์ฉ ์ฌ๋ก
381 ๋
ผ๋ฌธ์ ์์คํ
์๋ฌผํ ์ฐ๊ตฌ ์๋ํ๋ฅผ ์ฑ๊ณต์ ์ผ๋ก ์ ์ฉํจ์ผ๋ก์จ, LLM ๊ธฐ๋ฐ ์ธ์ด ์์ด์ ํธ์ ์ค์ ์ ์ฐ๊ตฌ ์๋ํ ๋ฐ hypothesis testing ์ฌ๋ก๋ก์จ ๋ฒค์น๋งํนํ ์ ์์ต๋๋ค.