ResearchCodeBench: Benchmarking LLMs on Implementing Novel Machine Learning Research Code

์ €์ž: Tianyu Hua, Harper Hua, Violet Xiang, Benjamin Klieger, Sang T. Truong, Weixin Liang, Fan-Yun Sun, Nick Haber (Stanford University) | ๋‚ ์งœ: 2025 | DOI: arXiv:2506.02314v1 📄 PDF


Essence

Figure 1

ResearchCodeBench ์ž‘์—… ์„ค์ • ๊ฐœ์š”. LLM์€ ์—ฐ๊ตฌ ๋…ผ๋ฌธ, TODO ๋งˆ์ปค๊ฐ€ ํฌํ•จ๋œ ๋ชฉํ‘œ ์ฝ”๋“œ ์Šค๋‹ˆํŽซ, ๋™์ผ ํ”„๋กœ์ ํŠธ์˜ ์ฃผ๋ณ€ ์ปจํ…์ŠคํŠธ ์ฝ”๋“œ์— ์ ‘๊ทผํ•˜์—ฌ ๋ˆ„๋ฝ๋œ ์ฝ”๋“œ๋ฅผ ์ž‘์„ฑํ•œ๋‹ค.

์ตœ์‹  ๊ธฐ๊ณ„ํ•™์Šต ์—ฐ๊ตฌ ๋…ผ๋ฌธ์—์„œ ์ œ์‹œ๋œ ์ƒˆ๋กœ์šด ์•„์ด๋””์–ด๋ฅผ ์‹คํ–‰ ๊ฐ€๋Šฅํ•œ ์ฝ”๋“œ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” LLM์˜ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ๋ฒค์น˜๋งˆํฌ๋กœ, 2024-2025๋…„ ์ƒ์œ„ ํ•™ํšŒ(NeurIPS, ICLR, CVPR) ๋…ผ๋ฌธ 20๊ฐœ๋กœ๋ถ€ํ„ฐ ๊ตฌ์„ฑ๋œ 212๊ฐœ์˜ ์ฝ”๋”ฉ ์ฑŒ๋ฆฐ์ง€๋ฅผ ํ†ตํ•ด ํ˜„์žฌ ์ตœ๊ณ  ์„ฑ๋Šฅ LLM๋„ 40% ๋ฏธ๋งŒ์˜ ์„ฑ๊ณต๋ฅ ์„ ๋ณด์ž„์„ ์ž…์ฆํ•œ๋‹ค.

Motivation

Achievement

Figure 2

32๊ฐœ LLM์˜ ResearchCodeBench์—์„œ์˜ Scaled Pass@1 ๊ฒฐ๊ณผ (ํƒ์š•์  ๋””์ฝ”๋”ฉ)

  1. ํฌ๊ด„์  ๋ฒค์น˜๋งˆํฌ ๊ตฌ์„ฑ: 20๊ฐœ์˜ ์ตœ์‹  ML ๋…ผ๋ฌธ(์ƒ์„ฑ ๋ชจ๋ธ, ์ปดํ“จํ„ฐ ๋น„์ „, ์ด๋ก , ๊ฐ•ํ™”ํ•™์Šต ๋“ฑ ๋‹ค์–‘ํ•œ ๋ถ„์•ผ)์œผ๋กœ๋ถ€ํ„ฐ 212๊ฐœ์˜ ์ฝ”๋”ฉ ์ฑŒ๋ฆฐ์ง€ ๊ตฌ์„ฑ, ๋…ผ๋ฌธ ์ €์ž ๋ฐ ๋„๋ฉ”์ธ ์ „๋ฌธ๊ฐ€์™€์˜ ํ˜‘๋ ฅ์œผ๋กœ ์‹ ๋ขฐ์„ฑ ํ™•๋ณด
  2. LLM ์„ฑ๋Šฅ ํ‰๊ฐ€ ๊ฒฐ๊ณผ: 32๊ฐœ ์ด์ƒ์˜ ์ƒ์šฉ ๋ฐ ์˜คํ”ˆ์†Œ์Šค LLM ํ‰๊ฐ€ ์ˆ˜ํ–‰
    • Gemini-2.5-Pro-Preview: 37.3% (์ตœ๊ณ  ์„ฑ๋Šฅ)
    • O3 (High): 32.3%
    • O4-mini (High): 30.8%
    • ์ตœ๊ณ  ์„ฑ๋Šฅ ๋ชจ๋ธ๋„ 40% ๋ฏธ๋งŒ์˜ ์„ฑ๊ณต๋ฅ ๋กœ ์‹ ๊ทœ ์—ฐ๊ตฌ ์ฝ”๋“œ ๊ตฌํ˜„์˜ ๋‚œ์ด๋„ ์ž…์ฆ
  3. ์‹ ๋ขฐ์„ฑ ๋†’์€ ํ‰๊ฐ€ ๋ฐฉ๋ฒ•๋ก : ๋‹จ์ˆœํ•œ ๋ฌธ์ž์—ด ๊ฑฐ๋ฆฌ๋‚˜ LLM ํŒ์ •์ž ๋Œ€์‹ , ์‹คํ–‰ ๊ธฐ๋ฐ˜์˜ ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ํ‰๊ฐ€ ์ „๋žต์œผ๋กœ ๊ธฐ๋Šฅ์  ์ •ํ™•์„ฑ ๊ฒ€์ฆ

How

Figure 4

๋…ผ๋ฌธ ์ ‘๊ทผ์„ฑ์— ๋”ฐ๋ฅธ LLM ์„ฑ๋Šฅ ์ฐจ์ด. ๋…ผ๋ฌธ ์ ‘๊ทผ ์‹œ ๋” ๋†’์€ ์„ฑ๋Šฅ์„ ๋ณด์ž„

Originality

Limitation & Further Study

Evaluation

Novelty: 4.5/5 Technical Soundness: 4.5/5 Significance: 4.5/5 Clarity: 4/5 Overall: 4.4/5

์ดํ‰: ResearchCodeBench๋Š” LLM์˜ ์ง„์ •ํ•œ ํ˜์‹  ์ฝ”๋“œ ๊ตฌํ˜„ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ์‹œ๊ฐ„-๋ฏผ๊ฐํ•˜๊ณ  ๊ฐ๊ด€์ ์ธ ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ์‹œํ•จ์œผ๋กœ์จ, AI ๋ณด์กฐ ๊ณผํ•™ ์—ฐ๊ตฌ์˜ ํ˜„์‹ค์  ํ•œ๊ณ„๋ฅผ ๊ทœ๋ช…ํ•˜๊ณ  ํ–ฅํ›„ LLM ๊ฐœ์„  ๋ฐฉํ–ฅ์˜ ๊ธฐ์ค€์ ์„ ์ œ๊ณตํ•˜๋Š” ๊ฐ€์น˜ ์žˆ๋Š” ๊ธฐ์—ฌ์ด๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Code Llama๋Š” ๋Œ€๊ทœ๋ชจ ์ฝ”๋“œ ๋ฐ์ดํ„ฐ๋กœ ์‚ฌ์ „ ํ›ˆ๋ จ๋œ ๋ชจ๋ธ๋กœ, LLM์„ ํ†ตํ•œ ์—ฐ๊ตฌ์ฝ”๋“œ ์ž๋™ ์ƒ์„ฑ ๋ฒค์น˜๋งˆํฌ์˜ ์ด๋ก ์  ๊ธฐ๋ฐ˜์ด ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
325 ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜ ์ฝ”๋“œ ์—์ด์ „ํŠธ๊ฐ€ ์‹ค์ œ๋กœ ์ฝ”๋“œ ์ƒ์„ฑยท์ˆ˜์ •ยท์‹คํ–‰์—์„œ ์–ด๋А ์ •๋„ ์‹คํ–‰ ๊ฐ€๋Šฅ์„ฑ๊ณผ ๋ฌธ์ œ ํ•ด๊ฒฐ ๋Šฅ๋ ฅ์„ ๋ณด์ด๋Š”์ง€ ์ •๋Ÿ‰์ ์œผ๋กœ ๊ฒ€์ฆํ•˜๋ฉฐ, ResearchCodeBench์˜ ์ฝ”๋“œ ๋ณ€ํ™˜ ์„ฑ๋Šฅ ํ‰๊ฐ€์— ์ด๋ก ์  ํ† ๋Œ€๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
ResearchCodeBench ๋…ผ๋ฌธ์€ ๊ณผํ•™ ์—ฐ๊ตฌ ์ฝ”๋”ฉ ํƒœ์Šคํฌ์—์„œ LLM/์—์ด์ „ํŠธ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ๋‹ค๋ฅธ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
SWE-bench๋Š” GitHub ์ด์Šˆ ํ•ด๊ฒฐ ์ค‘์‹ฌ์œผ๋กœ ์ฝ”๋“œ LLM์˜ ์‹ค์ œ ์†Œํ”„ํŠธ์›จ์–ด์  ๋ฌธ์ œ ํ•ด๊ฒฐ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜์—ฌ, ๋…ผ๋ฌธํ˜•ํƒœ ๊ตฌํ˜„๊ณผ ๋‹ค๋ฅธ ํ˜„์‹ค์  ๋งฅ๋ฝ์„ ์ œ๊ณตํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
544๋ฒˆ ๋…ผ๋ฌธ์€ ์—ฌ๋Ÿฌ ์–ธ์–ด ๋ฐ ์„ธํŒ…์˜ ์ฝ”๋“œ ๋””๋ฒ„๊น…์„ ๋Œ€์ƒ์œผ๋กœ ํ•˜์—ฌ, ๋…์ฐฝ์  ์—ฐ๊ตฌ ๋…ผ๋ฌธ ๊ตฌํ˜„์„ ๋‹ค๋ฃจ๋Š” 671๋ฒˆ๊ณผ ๋Œ€๋ณ„๋˜๋Š” ์ฝ”๋”ฉ ๋ฒค์น˜๋งˆํฌ ๋ฐฉ์‹์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
ResearchCodeBench ๋…ผ๋ฌธ์€ ์›น ๊ธฐ๋ฐ˜ ์ •๋ณด ์ถ”์ถœ๊ณผ ์ฝ”๋“œ ์ƒ์„ฑ ๋“ฑ ๋ณต์žกํ•œ ์ •๋ณด ์ถ”๊ตฌ ์ž‘์—…์˜ LLM ์—์ด์ „ํŠธ ํ‰๊ฐ€๋กœ, WebWatcher์˜ ์‹ค์ œ ์ ์šฉ ํ™˜๊ฒฝ๊ณผ ์„ฑ๋Šฅ์„ ๋น„๊ตํ•  ์ˆ˜ ์žˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
ResearchCodeAgent๋Š” LLM ๋ฉ€ํ‹ฐ์—์ด์ „ํŠธ๋กœ ๋…ผ๋ฌธ ์ฝ”๋“œ ๊ตฌํ˜„ ์ž๋™ํ™” ๋„์ „๊ณผ์ œ๋ฅผ ๋‹ค๋ฃจ์–ด, ์ฝ”๋“œ ์ƒ์„ฑ ๋ฌธ์ œ์—์„œ ๋Œ€์กฐ์  ์ ‘๊ทผ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
794๋ฒˆ ๋…ผ๋ฌธ์€ ๋” ํฐ ๊ทœ๋ชจ์˜ AI Scientist ์‹œ์Šคํ…œ ๊ด€์ ์—์„œ 671์—์„œ ํ‰๊ฐ€ํ•œ ์ฝ”๋“œ ๊ตฌํ˜„ ๋Šฅ๋ ฅ์„ ์‹ค์ œ ์ž๋™ ๊ณผํ•™์—ฐ๊ตฌ์— ์–ด๋–ป๊ฒŒ ์ ์šฉํ•˜๋Š”์ง€ ๋ณด์—ฌ์ค€๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
671 ๋…ผ๋ฌธ์€ LLM์ด ์—ฐ๊ตฌ ๋…ผ๋ฌธ ๊ธฐ๋ฐ˜ ์ƒˆ๋กœ์šด ๋จธ์‹ ๋Ÿฌ๋‹ ๋ฐฉ๋ฒ• ์ฝ”๋“œ๋ฅผ ๊ตฌํ˜„ํ•˜๋Š” ๋Šฅ๋ ฅ์„ ๋ฒค์น˜๋งˆํ‚นํ•˜๋ฉฐ, 143์˜ ํ•™์ˆ  ๋…ผ๋ฌธ ์ฝ”๋“œ ์ž๋™ํ™” ์„ฑ๋Šฅ ํ‰๊ฐ€์— ์‹ค์ œ ํ™œ์šฉ๋œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
805 ๋…ผ๋ฌธ์€ AI ์—์ด์ „ํŠธ ๊ธฐ๋ฐ˜ ๋‚˜๋…ธ๋ฐ”๋”” ์„ค๊ณ„ ์‹คํ—˜์„ ํ†ตํ•ด ์‹ค์ œ๋กœ ๋ณต์žกํ•œ ์ฝ”๋“œ์™€ ์‹คํ—˜์  ๊ธฐ๋Šฅ์ด ์š”๊ตฌ๋˜๋Š” ๊ณผํ•™์  ์ž‘์—…์—์„œ LLM code generation ๋ฐ ๋””๋ฒ„๊น…์˜ ํšจ๊ณผ ํ•œ๊ณ„๋ฅผ ๊ฒ€์ฆํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
StarCoder2 ๋“ฑ ์˜คํ”ˆ ์ฝ”๋“œ LLM ๋ชจ๋ธ์ด ์‹ค์ œ ๊ธฐ๊ณ„ํ•™์Šต ๋…ผ๋ฌธ ๊ตฌํ˜„ ์ฝ”๋”ฉ ์ฑŒ๋ฆฐ์ง€์— ์–ด๋–ป๊ฒŒ ํ™œ์šฉ๋˜๋Š”์ง€๋ฅผ ResearchCodeBench๊ฐ€ ์ฒด๊ณ„์ ์œผ๋กœ ํ‰๊ฐ€ํ•œ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •