์ ์: Carlos E. Jimenez, John Yang, Alexander Wettig, Shunyu Yao, Kexin Pei, Ofir Press, Karthik Narasimhan | ๋ ์ง: 2024-11-11 | DOI: 10.48550/arXiv.2310.06770 📄 PDF
Essence
Figure 1: SWE-bench๋ GitHub ์ด์๋ฅผ ์ค์ ์ฝ๋๋ฒ ์ด์ค์ ํจ๊ป ์ ์ํ์ฌ ์ธ์ด ๋ชจ๋ธ์ด ์์ฑํ ํจ์น๋ฅผ ๋จ์ ํ
์คํธ๋ก ๊ฒ์ฆํ๋ ๋ฐฉ์์ผ๋ก ์๋
์ค์ GitHub ์ด์ 2,294๊ฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ ์ํํธ์จ์ด ์์ง๋์ด๋ง ๋ฒค์น๋งํฌ SWE-bench๋ฅผ ์ ์ํ๋ฉฐ, ์ต๊ณ ์ฑ๋ฅ ๋ชจ๋ธ(Claude 2)๋ 1.96%์ ๋ฎ์ ํด๊ฒฐ์จ๋ง ๋ฌ์ฑํ์ฌ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ์ ์ค์ ์ํํธ์จ์ด ์์ง๋์ด๋ง ๋ฅ๋ ฅ์ ํ๊ณ๋ฅผ ๋ช
ํํ ๋๋ฌ๋ธ๋ค.
Evaluation
Novelty: 4.5/5 Technical Soundness: 4.5/5 Significance: 4.8/5 Clarity: 4.7/5 Overall: 4.6/5
์ดํ: SWE-bench๋ ๊ธฐ์กด ์ฝ๋ฉ ๋ฒค์น๋งํฌ์ ์ธ๊ณต์ฑ์ ๋ฒ์ด๋ ์ค์ GitHub ์ด์ ํด๊ฒฐ์ ํตํด ์ธ์ด ๋ชจ๋ธ์ ์ค๋ฌด ์ํํธ์จ์ด ์์ง๋์ด๋ง ๋ฅ๋ ฅ์ ์๊ฒฉํ๊ฒ ํ๊ฐํ๋ ์ค์ํ ์์
์ด๋ฉฐ, ๊ณต๊ฐ ๋ฐ์ดํฐ์
๊ณผ ์๋ํ๋ ํ์ฅ์ฑ์ผ๋ก ์ฅ๊ธฐ์ ํ์ ๊ฐ์น๊ฐ ๋๋ค. ๋ค๋ง ๊ฒ์ ๊ธฐ๋ฐ ์ ๊ทผ๊ณผ ์ด๊ธฐ ํ๊ฐ ๋ชจ๋ธ ์ ํ์ ๊ฐ์ ์ฌ์ง๊ฐ ์๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
320๋ฒ ๋
ผ๋ฌธ์ LLM ๊ธฐ๋ฐ ์ฝ๋ ๋ฐ ์ํํธ์จ์ด ๋ฒค์น๋งํฌ์ ์ค๊ณ์ ํ๊ฐ ์๋ฆฌ๋ฅผ ๋ค๋ฃจ๋ฉฐ 782๋ฒ SWE-bench์ ๋น๊ต๋ถ์์ ์ ์ฉํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
SWE-bench ๋
ผ๋ฌธ์ ์ค์ธ๊ณ GitHub ์ด์ ํด๊ฒฐ์์ LLM์ ์ฝ๋ ํ์ง๊ณผ ํ๊ณ๋ฅผ ๋ถ์ํ์ฌ, AI Copilot์ ์ฝ๋ ํ์ง ์ธก์ ์ฒด๊ณ์ ๊ธฐ์ด๋ฅผ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
SWE-bench ๋
ผ๋ฌธ์ LLM์ ์ค์ธ๊ณ GitHub ์ด์ ํด๊ฒฐ ๋ฅ๋ ฅ์ ํ๊ฐํ๋ฉฐ, ๋
ผ๋ฌธ์์ ์ค์ ์ฝ๋ ์ฌํ ์๋ํ์ ์ฑ๋ฅ ํ๊ฐ ๋ฐฉ๋ฒ๋ก ์ ์ฐธ๊ณ ํ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
782๋ฒ ๋
ผ๋ฌธ์ ์ค์ GitHub ์ด์ ํด๊ฒฐ ๊ธฐ๋ฐ LLM ์ฝ๋ ์์ด์ ํธ์ ํ๊ฐ๋ฅผ ๋ค๋ฃจ์ด, 635๋ฒ์ ์ฝ๋ ์๋์์ฑ(AI ๋์) ์ค์ฆ๊ณผ ํจ๊ป ์ฝ๋ ์์ฐ์ฑ ์ํฅ์ ํญ๋๊ฒ ์กฐ๋งํ ์ ์๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM ๊ธฐ๋ฐ ์ํํธ์จ์ด ๊ฐ๋ฐ ์๋ํ๋ฅผ ์ํ ๋ค๋ฅธ ์ ๊ทผ ๋ฐฉ์์ ์ ์ํ๋ ๊ด๋ จ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋ค์ค ์์ด์ ํธ ์ค์ผ์คํธ๋ ์ด์
๊ณผ ๊ฒ์ ์ฐ๊ณ ๊ธฐ๋ฐ ์ค์ ์ํํธ์จ์ด ํ์คํฌ์์์ LLM ์คํ ๊ฒฐ๊ณผ๋ฅผ ์ํธ ๋น๊ตํ ์ ์๋ค.
๋ค๋ฅธ ์ ๊ทผ
SWE-bench ๋
ผ๋ฌธ์ ์ค์ GitHub ์ด์ ํด๊ฒฐ์ ์ฝ๋ LLM์ ์ ์ฉํจ์ผ๋ก์จ StarCoder2์ ์ ์ฌํ์ง๋ง ๋ค๋ฅธ ์ค์ ํ๊ฐ๋ฅผ ์ํํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
SciCode๋ ๊ณผํ ์ฐ๊ตฌ ์ฝ๋ฉ ๋ฅ๋ ฅ์ ํ๊ฐํ๋ ๋ฒค์น๋งํฌ๋ก, SWE-bench์ ๋ค๋ฅธ ๋๋ฉ์ธ์์ ์ฝ๋ LLM ํ๊ฐ์ ํ๊ณ๋ฅผ ํ๊ตฌํ๋ ๋์์ ์ ๊ทผ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
์ค์ GitHub ์ด์ ํด๊ฒฐ๋ฅ๋ ฅ์ ํ๊ฐํ๋ SWE-bench์ MLDebugging์ ์๋ก ๋ค๋ฅธ ๋ฐฉ์์ผ๋ก ์ฝ๋ ๊ด๋ จ LLM ๋ฅ๋ ฅ์ ๊ฒ์ฆํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
SWE-bench๋ ์ค์ ์ํํธ์จ์ด ๊ตฌํ ๋ฐ ๋ฌธ์ ํด๊ฒฐ ๊ณผ์ ์์ LLM์ ์ฝ๋ ์์ฑ ๋ฐ ์ดํด ์ญ๋์ ํ๊ฐํ์ฌ, SciReplicate-Bench์ ์ฝ๋๊ธฐ๋ฐ ํ๊ฐ์ถ์ ๊ณต์ ํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
SWE-bench๋ GitHub ์ด์ ํด๊ฒฐ ์ค์ฌ์ผ๋ก ์ฝ๋ LLM์ ์ค์ ์ํํธ์จ์ด์ ๋ฌธ์ ํด๊ฒฐ ๋ฅ๋ ฅ์ ํ๊ฐํ์ฌ, ๋
ผ๋ฌธํํ ๊ตฌํ๊ณผ ๋ค๋ฅธ ํ์ค์ ๋งฅ๋ฝ์ ์ ๊ณตํ๋ค.
ํ์ ์ฐ๊ตฌ
SWE-bench๋ HumanEval๋ณด๋ค ํ์ค์ ์ธ ์ค์ GitHub ์ด์ ๊ธฐ๋ฐ ํ๊ฐ๋ก, Codex์ ์ฝ๋ ์์ฑ ๋ฅ๋ ฅ ํ๊ฐ๋ฅผ ์ค์ ์ํํธ์จ์ด ์์ง๋์ด๋ง์ผ๋ก ํ์ฅํ๋ค.
ํ์ ์ฐ๊ตฌ
Code Llama ๋
ผ๋ฌธ์ SWE-bench ํ๊ฐ์ ์ฐธ์ฌํ ์ต์ ์คํ์์ค ์ฝ๋ ์ธ์ด๋ชจ๋ธ๋ก, ์คํ ํ๊ณ์ ์ฑ๋ฅ ๋น๊ต๊ฐ ๊ฐ๋ฅํ๋ค.
ํ์ ์ฐ๊ตฌ
์ค์ GitHub ์ด์ ํด๊ฒฐ ๋ฑ ์ค์ ํ๊ฒฝ์์ LLM์ ์์
๋ถํ ์์ฑ ๋ฐ ํ๊ฐ ๋ฐฉ๋ฒ์ ์ ๊ณตํฉ๋๋ค.
์์ฉ ์ฌ๋ก
SWE-bench๋ LLM์ ์ํํธ์จ์ด ์ค์ ์ด์ ํด๊ฒฐ ๋ฅ๋ ฅ์ ํ๊ฐํ๋ ์ค์ ์ ๋ฒค์น๋งํฌ๋ก, ์ฝ๋ ์์ฑ ํ๊ฐ์ฒด๊ณ์ ์ ๊ท ์์ฉ์ฌ๋ก๋ค.
์์ฉ ์ฌ๋ก
SWE-bench๋ Code Llama ๊ฐ์ ์คํ์์ค ์ฝ๋ ์์ฑ LLM์ ์ค์ ์ํํธ์จ์ด ์์ง๋์ด๋ง ์ด์ ํด๊ฒฐ๋ฅ๋ ฅ ํ๊ณ๋ฅผ ์คํ์ ์ผ๋ก ํ๊ฐํ๋ค.
์์ฉ ์ฌ๋ก
์ค์ ์ํํธ์จ์ด ๊ฐ๋ฐ์์ LLM ์์ด์ ํธ ์๋ํ๊ฐ ์คํ๋ ๋ค์ํ ๋ฌธ์ ํด๊ฒฐ ์ฌ๋ก๋ฅผ ์ถ๊ฐ๋ก ์ดํด๋ณผ ์ ์์ต๋๋ค.
๋ฐ๋ก /๋นํ
SWE-bench๋ StarCoder์ ๊ฐ์ ์ฝ๋ LLM์ด ์ค์ GitHub ์ด์ ํด๊ฒฐ์์ ๋งค์ฐ ๋ฎ์ ์ฑ๋ฅ์ ๋ณด์์ ๋ณด์ฌ์ฃผ์ด, ์ฝ๋ LLM์ ํ์ค์ ํ๊ณ๋ฅผ ๋๋ฌ๋ธ๋ค.
๋ฐ๋ก /๋นํ
StarCoder2๊ฐ ๋ฐ์ด๋ ์ฝ๋ ์์ฑ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๋ ๋ฐ๋ฉด, SWE-bench๋ ์ค์ ์ด์ ํด๊ฒฐ์์ ์ต๊ณ ๋ชจ๋ธ๋ ๋งค์ฐ ๋ฎ์ ์ฑ๋ฅ์ ๋ณด์์ ๋๋น์ ์ผ๋ก ๋ณด์ฌ์ค๋ค.