์ ์: Tianyu Hua, Harper Hua, Violet Xiang, Benjamin Klieger, Sang T. Truong, Weixin Liang, Fan-Yun Sun, Nick Haber (Stanford University) | ๋ ์ง: 2025 | DOI: arXiv:2506.02314v1 📄 PDF
Essence
ResearchCodeBench ์์
์ค์ ๊ฐ์. LLM์ ์ฐ๊ตฌ ๋
ผ๋ฌธ, TODO ๋ง์ปค๊ฐ ํฌํจ๋ ๋ชฉํ ์ฝ๋ ์ค๋ํซ, ๋์ผ ํ๋ก์ ํธ์ ์ฃผ๋ณ ์ปจํ
์คํธ ์ฝ๋์ ์ ๊ทผํ์ฌ ๋๋ฝ๋ ์ฝ๋๋ฅผ ์์ฑํ๋ค.
์ต์ ๊ธฐ๊ณํ์ต ์ฐ๊ตฌ ๋
ผ๋ฌธ์์ ์ ์๋ ์๋ก์ด ์์ด๋์ด๋ฅผ ์คํ ๊ฐ๋ฅํ ์ฝ๋๋ก ๋ณํํ๋ LLM์ ๋ฅ๋ ฅ์ ํ๊ฐํ๋ ๋ฒค์น๋งํฌ๋ก, 2024-2025๋
์์ ํํ(NeurIPS, ICLR, CVPR) ๋
ผ๋ฌธ 20๊ฐ๋ก๋ถํฐ ๊ตฌ์ฑ๋ 212๊ฐ์ ์ฝ๋ฉ ์ฑ๋ฆฐ์ง๋ฅผ ํตํด ํ์ฌ ์ต๊ณ ์ฑ๋ฅ LLM๋ 40% ๋ฏธ๋ง์ ์ฑ๊ณต๋ฅ ์ ๋ณด์์ ์
์ฆํ๋ค.
Evaluation
Novelty: 4.5/5 Technical Soundness: 4.5/5 Significance: 4.5/5 Clarity: 4/5 Overall: 4.4/5
์ดํ: ResearchCodeBench๋ LLM์ ์ง์ ํ ํ์ ์ฝ๋ ๊ตฌํ ๋ฅ๋ ฅ์ ํ๊ฐํ๋ ์๊ฐ-๋ฏผ๊ฐํ๊ณ ๊ฐ๊ด์ ์ธ ๋ฒค์น๋งํฌ๋ฅผ ์ ์ํจ์ผ๋ก์จ, AI ๋ณด์กฐ ๊ณผํ ์ฐ๊ตฌ์ ํ์ค์ ํ๊ณ๋ฅผ ๊ท๋ช
ํ๊ณ ํฅํ LLM ๊ฐ์ ๋ฐฉํฅ์ ๊ธฐ์ค์ ์ ์ ๊ณตํ๋ ๊ฐ์น ์๋ ๊ธฐ์ฌ์ด๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
Code Llama๋ ๋๊ท๋ชจ ์ฝ๋ ๋ฐ์ดํฐ๋ก ์ฌ์ ํ๋ จ๋ ๋ชจ๋ธ๋ก, LLM์ ํตํ ์ฐ๊ตฌ์ฝ๋ ์๋ ์์ฑ ๋ฒค์น๋งํฌ์ ์ด๋ก ์ ๊ธฐ๋ฐ์ด ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
325 ๋
ผ๋ฌธ์ LLM ๊ธฐ๋ฐ ์ฝ๋ ์์ด์ ํธ๊ฐ ์ค์ ๋ก ์ฝ๋ ์์ฑยท์์ ยท์คํ์์ ์ด๋ ์ ๋ ์คํ ๊ฐ๋ฅ์ฑ๊ณผ ๋ฌธ์ ํด๊ฒฐ ๋ฅ๋ ฅ์ ๋ณด์ด๋์ง ์ ๋์ ์ผ๋ก ๊ฒ์ฆํ๋ฉฐ, ResearchCodeBench์ ์ฝ๋ ๋ณํ ์ฑ๋ฅ ํ๊ฐ์ ์ด๋ก ์ ํ ๋๋ฅผ ์ ๊ณตํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
ResearchCodeBench ๋
ผ๋ฌธ์ ๊ณผํ ์ฐ๊ตฌ ์ฝ๋ฉ ํ์คํฌ์์ LLM/์์ด์ ํธ ๋ฅ๋ ฅ์ ํ๊ฐํ๋ ๋ค๋ฅธ ํ๋ ์์ํฌ๋ฅผ ์ ๊ณตํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
SWE-bench๋ GitHub ์ด์ ํด๊ฒฐ ์ค์ฌ์ผ๋ก ์ฝ๋ LLM์ ์ค์ ์ํํธ์จ์ด์ ๋ฌธ์ ํด๊ฒฐ ๋ฅ๋ ฅ์ ํ๊ฐํ์ฌ, ๋
ผ๋ฌธํํ ๊ตฌํ๊ณผ ๋ค๋ฅธ ํ์ค์ ๋งฅ๋ฝ์ ์ ๊ณตํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
544๋ฒ ๋
ผ๋ฌธ์ ์ฌ๋ฌ ์ธ์ด ๋ฐ ์ธํ
์ ์ฝ๋ ๋๋ฒ๊น
์ ๋์์ผ๋ก ํ์ฌ, ๋
์ฐฝ์ ์ฐ๊ตฌ ๋
ผ๋ฌธ ๊ตฌํ์ ๋ค๋ฃจ๋ 671๋ฒ๊ณผ ๋๋ณ๋๋ ์ฝ๋ฉ ๋ฒค์น๋งํฌ ๋ฐฉ์์ ์ ์ํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
ResearchCodeBench ๋
ผ๋ฌธ์ ์น ๊ธฐ๋ฐ ์ ๋ณด ์ถ์ถ๊ณผ ์ฝ๋ ์์ฑ ๋ฑ ๋ณต์กํ ์ ๋ณด ์ถ๊ตฌ ์์
์ LLM ์์ด์ ํธ ํ๊ฐ๋ก, WebWatcher์ ์ค์ ์ ์ฉ ํ๊ฒฝ๊ณผ ์ฑ๋ฅ์ ๋น๊ตํ ์ ์๋ค.
๋ค๋ฅธ ์ ๊ทผ
ResearchCodeAgent๋ LLM ๋ฉํฐ์์ด์ ํธ๋ก ๋
ผ๋ฌธ ์ฝ๋ ๊ตฌํ ์๋ํ ๋์ ๊ณผ์ ๋ฅผ ๋ค๋ฃจ์ด, ์ฝ๋ ์์ฑ ๋ฌธ์ ์์ ๋์กฐ์ ์ ๊ทผ์ ์ ์ํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
794๋ฒ ๋
ผ๋ฌธ์ ๋ ํฐ ๊ท๋ชจ์ AI Scientist ์์คํ
๊ด์ ์์ 671์์ ํ๊ฐํ ์ฝ๋ ๊ตฌํ ๋ฅ๋ ฅ์ ์ค์ ์๋ ๊ณผํ์ฐ๊ตฌ์ ์ด๋ป๊ฒ ์ ์ฉํ๋์ง ๋ณด์ฌ์ค๋ค.
ํ์ ์ฐ๊ตฌ
671 ๋
ผ๋ฌธ์ LLM์ด ์ฐ๊ตฌ ๋
ผ๋ฌธ ๊ธฐ๋ฐ ์๋ก์ด ๋จธ์ ๋ฌ๋ ๋ฐฉ๋ฒ ์ฝ๋๋ฅผ ๊ตฌํํ๋ ๋ฅ๋ ฅ์ ๋ฒค์น๋งํนํ๋ฉฐ, 143์ ํ์ ๋
ผ๋ฌธ ์ฝ๋ ์๋ํ ์ฑ๋ฅ ํ๊ฐ์ ์ค์ ํ์ฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
805 ๋
ผ๋ฌธ์ AI ์์ด์ ํธ ๊ธฐ๋ฐ ๋๋
ธ๋ฐ๋ ์ค๊ณ ์คํ์ ํตํด ์ค์ ๋ก ๋ณต์กํ ์ฝ๋์ ์คํ์ ๊ธฐ๋ฅ์ด ์๊ตฌ๋๋ ๊ณผํ์ ์์
์์ LLM code generation ๋ฐ ๋๋ฒ๊น
์ ํจ๊ณผ ํ๊ณ๋ฅผ ๊ฒ์ฆํฉ๋๋ค.
์์ฉ ์ฌ๋ก
StarCoder2 ๋ฑ ์คํ ์ฝ๋ LLM ๋ชจ๋ธ์ด ์ค์ ๊ธฐ๊ณํ์ต ๋
ผ๋ฌธ ๊ตฌํ ์ฝ๋ฉ ์ฑ๋ฆฐ์ง์ ์ด๋ป๊ฒ ํ์ฉ๋๋์ง๋ฅผ ResearchCodeBench๊ฐ ์ฒด๊ณ์ ์ผ๋ก ํ๊ฐํ๋ค.