์ ์: Yujie Liu, Zonglin Yang, Tong Xie, Jinjie Ni, Ben Gao, Yuqiang Li, Shixiang Tang, Wanli Ouyang, Erik Cambria, Dongzhan Zhou | ๋ ์ง: 2025 | DOI: arXiv:2503.21248v2 📄 PDF
Essence
๋ณธ ๋
ผ๋ฌธ์ ๊ณผํ์ ๋ฐ๊ฒฌ ๊ณผ์ ์์ LLM์ ์ญ๋์ ํ๊ฐํ๊ธฐ ์ํ ์ฒซ ๋ฒ์งธ ๋๊ท๋ชจ ๋ฒค์น๋งํฌ ResearchBench๋ฅผ ์ ์ํ๋ค. ์๊ฐ ๊ฒ์(inspiration retrieval), ๊ฐ์ค ๊ตฌ์ฑ(hypothesis composition), ๊ฐ์ค ์์ ๊ฒฐ์ (hypothesis ranking)์ ์ธ ๊ฐ์ง ํ์ ์์
์ผ๋ก ๊ณผํ ๋ฐ๊ฒฌ ๊ณผ์ ์ ๋ถํดํ๊ณ , 12๊ฐ ๋ถ์ผ์ 1,386ํธ ๋
ผ๋ฌธ(2024๋
๋ฐํ)์ผ๋ก๋ถํฐ ์๋ ์ถ์ถ ํ๋ ์์ํฌ๋ฅผ ํตํด ๋ฒค์น๋งํฌ๋ฅผ ๊ตฌ์ถํ๋ค.
Evaluation
Novelty: 4.5/5 Technical Soundness: 4/5 Significance: 4.5/5 Clarity: 4/5 Overall: 4.2/5
์ดํ: ResearchBench๋ ๊ณผํ ๋ฐ๊ฒฌ์์ LLM์ ์ญ๋์ ํ๊ฐํ๋ ์ฒซ ๋ฒ์งธ ์ฒด๊ณ์ ์ด๊ณ ๋๊ท๋ชจ์ ๋ฒค์น๋งํฌ๋ก์, ์๊ฐ ๊ฒ์์ OOD ๋ฅ๋ ฅ ๋ฐ๊ฒฌ๊ณผ ์๋ ์ถ์ถ ํ๋ ์์ํฌ์ ์ค๊ณ์์ ์๋นํ ์์ฐฝ์ฑ์ ๋ณด์ ํ๊ณ ์๋ค. ๋ค๋ง, ์ถ์ถ ์ ํ๋์ ํ๊ณ, "์๊ฐ"์ ์ฒ ํ์ ์ ์ ๋ถ์ฌ, ์์ฑ ๊ฐ์ค์ ๊ณผํ์ ํ๋น์ฑ ๊ฒ์ฆ ๋ถ์ฌ ๋ฑ์ด ๋ฏธํด๊ฒฐ ๊ณผ์ ๋ก ๋จ์ ์์ผ๋ฉฐ, ์ด๋ค์ด ํด์๋ ๊ฒฝ์ฐ ๊ณผํ ๋ฐ๊ฒฌ ์๋ํ ์ฐ๊ตฌ์ ์ค์ํ ๊ธฐ๋ฐ์ด ๋ ์ ์์ ๊ฒ์ผ๋ก ํ๋จ๋๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
669์์ ์ ์๋ LLM ๊ธฐ๋ฐ ๊ณผํ์ ์๊ฐ/๊ฐ์ค์์ฑ-์์ํ ํ๋ก์ธ์ค๋ 419์ LLM ๊ธฐ๋ฐ ๊ฐ์ค ์์ฑ ์๋ฆฌ์ ์ง์ ์ฐ๊ฒฐ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
ResearchBench์ ์๊ฐ/๊ฐ์ค ๋ฒค์น๋งํน ์์
์ NSF-SCIFY์ ๊ฑฐ๋ ๊ณผํ์ ์ฃผ์ฅ ๋ฐ์ดํฐ์
์ ๊ธฐ๋ฐ ์์ค๋ก ํ์ฉํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๊ฐ์ค ๋ฐ๊ฒฌยทํ๊ฐ์ ์ด์ ์ ๋ ์ฒด๊ณ์ ๋ฒค์น๋งํฌ๋ก์, ResearchBench์ ์ค๊ณ ๋
ผ๋ฆฌ์ ๋ณด์ ์ฐ๊ตฌ ๋ฐฉํฅ์ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
ResearchBench์ ์๊ฐ ๊ฒ์ยท๊ฐ์ค ์์ ๊ฒฐ์ ์์
์ ์ด์ ์ Methodology inspiration retrieval ์ฐ๊ตฌ ๋งฅ๋ฝ์์ ํ์ํ ์ ๊ทผ๋ฒ์
๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
LLM์ ๊ณผํ์ ๋ฐ๊ฒฌ, ์ธ์ฉ ๋ฐ ํธํฅ ์ธก์ ์ ๋ํ ์ฒด๊ณ์ ๋ฒค์น๋งํน์ผ๋ก ์ธ์ฉ ๋์ญํ ๋ถ์๊ณผ์ ์ ์ ์ ์ ๊ณตํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
SciMON ๋
ผ๋ฌธ์ ํ์ ์ฑ๊ณผ ์ฐธ์ ์ฑ์ ์ต์ ํํ๋ ์๊ฐ-๊ธฐ๋ฐ ๊ณผํ์ ์์ด๋์ด ํ๊ฐ ์ฒด๊ณ๋ฅผ ์ ์ํ์ฌ ์๊ฐ ๊ฒ์, ๊ฐ์ค rank ๋ฐฉ์์ ๋ค๋ฅธ ์ ์ฉ๋ก๋ฅผ ๋ณด์ฌ์ค๋ค.
๋ค๋ฅธ ์ ๊ทผ
์๋ ์ฐ๊ตฌ ํ๋กํ ํ์ดํ ๋ฐ ์ค์ฉ์ ํ๋ฃจํ ๊ฐ์ค ํ๊ฐ ์ฌ๋ก๋ก, ์ฐ๊ตฌ๋ฒค์น๋งํฌ๊ฐ ๋ค๋ฃจ์ง ์์ ์คํ ์ธก๋ฉด์ ๋น๊ต ํ๊ฐํ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
ResearchBench ๋
ผ๋ฌธ์ ๋ค์ํ ๊ณผํ ํ๊ตฌ ๋ฌธ์ ์ ๋ํ LLM ์์ด์ ํธ ๋ฒค์น๋งํฌ๋ฅผ ์ ๊ณตํด DeepResearch Bench์ ํ๊ฐ ์งํ ๋ฐ ์คํ๊ณผ ๋น๊ต ๋ถ์์ ์ข์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๊ณผํ ๋ฌธํ ๊ธฐ๋ฐ ์ ๋ณด ํฉ์ฑ ๋ฐ ๋ณด๊ณ ์ ์์ฑ์ ๋ค๋ฃจ๋ ์ ์ฌํ ์์คํ
์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
๊ณผํ์ ๋ฐ๊ฒฌ ๋ฐ ์์ฝ ๊ณผ์ ์์ LLM์ ์ถ๋ก ํธํฅ, ์ผ๋ฐํ, ํ๊ฐ ๋ฌธ์ ๋ฅผ ๊ฐ๊ฐ ๋ค๋ฅธ ๊ด์ ์ผ๋ก ๋ถ์ํ๋ฉฐ ์ํธ๋ณด์์ ์๊ฐ์ ์ ๊ณตํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
์์จ ์ฐ๊ตฌ ์์ด์ ํธ๋ค์ ํ์
๋๋ ๋์ ์ ์ง์ ๊ณต์ ๋ฅผ ๋ค๋ฃจ๋ ์ ์ฌํ ํ๋ ์์ํฌ ์ฐ๊ตฌ์ด๋ค.
ํ์ ์ฐ๊ตฌ
558์ ์คํ ๊ฐ์ด๋ ๊ฐ์ค์์ ๊ณผ์ ๊ณต์ ์ 669์ ์ฐฝ์์ /์๊ฐ ๊ธฐ๋ฐ LLM ๊ฐ์ค ์์ฑยทํ๊ฐ ๋ฒค์น๋งํฌ(ResearchBench)๋ก ํ์ฅ๋๋ฉฐ, ์ค์ ๋ฒค์น๋งํฌ ๋น๊ต๊ฐ ๊ฐ๋ฅํฉ๋๋ค.