์ ์: Jinyang Huang, Xiachong Feng, Qiguang Chen, Hanzhang Zhao, Zheng Cheng, Jie Bai, Jingxuan Zhou, Min Li, L. Q. Qin | ๋ ์ง: 2025 | DOI: N/A 📄 PDF
Essence
๋ค์ค ๋ผ์ด๋ธ๋ฌ๋ฆฌ ์ฝ๋ ๋๋ฒ๊น
์ ์์: (a) ๋จ์ ์ ์ ๋ฒ๊ทธ vs (b) ๋ผ์ด๋ธ๋ฌ๋ฆฌ ๊ฐ ๋ณ์ ์ ์ ๋ฌธ์
๋ณธ ๋
ผ๋ฌธ์ ์ค์ ์ํํธ์จ์ด ๊ฐ๋ฐ ํ๊ฒฝ์์ ํํ ๋ํ๋๋ ๋ค์ค ๋ผ์ด๋ธ๋ฌ๋ฆฌ ์๋๋ฆฌ์ค์์์ ์ฝ๋ ๋๋ฒ๊น
์ ์ฒด๊ณ์ ์ผ๋ก ํ๊ฐํ๊ธฐ ์ํ MLDebugging ๋ฒค์น๋งํฌ๋ฅผ ์ ์ํ๋ค. 126๊ฐ์ Python ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ํฌํจํ๊ณ 7๊ฐ์ง ๋ฒ๊ทธ ์ ํ์ผ๋ก ๋ถ๋ฅ๋ 1,175๊ฐ์ ์ํ๋ก ๊ตฌ์ฑ๋์ด ์๋ค.
How
๋ฐ์ดํฐ์
๊ตฌ์ถ์ 4๋จ๊ณ ํ๋ก์ธ์ค
1. ์์ค ์ฝ๋ ์์ง
- BigCodeBench(Zhuo et al., 2024)์์ ๋ค์ค ๋ผ์ด๋ธ๋ฌ๋ฆฌ ์ฝ๋ ์ฟผ๋ฆฌ ์์ง
- GPT-4o๋ฅผ ํตํด 1,038๊ฐ์ ๋ค์ค ๋ผ์ด๋ธ๋ฌ๋ฆฌ ์ฝ๋ ์ค๋ํซ ์์ฑ
- ํ
์คํธ ์ผ์ด์ค ์คํ์ผ๋ก 609๊ฐ์ ๋ฒ๊ทธ ์ฝ๋ ์ค๋ํซ ์๋ณ
2. LLM์ ํตํ ์ด๋
ธํ
์ด์
๋ฐ ๋๋ฒ๊น
- 7๊ฐ ๋ฒ๊ทธ ์นดํ
๊ณ ๋ฆฌ๋ณ๋ก ์์ธํ ์ค๋ช
๋ฐ ์์ ์ ๊ณต
- GPT-4o, DeepSeek-V3, Claude-3.5-sonnet 3๊ฐ LLM ํ์ฉ
- ์คํจํ ๋๋ฒ๊น
์๋์ ๋ํด ์ต๋ 5ํ ์ถ๊ฐ ์๋(test-time scaling)
3. ๋ฒ๊ทธ ์นดํ
๊ณ ๋ฆฌ ๊ท ํ ์กฐ์
- Abstract Syntax Tree(AST) ๋ถ์์ผ๋ก ๋ค์ค ๋ผ์ด๋ธ๋ฌ๋ฆฌ ์ ๋ณด ์ถ์ถ
- ๋ผ์ด๋ธ๋ฌ๋ฆฌ ๊ฐ ๋ณ์ ์ ์ด ๊ด๊ณ
- ๊ฐ ๋จ๊ณ์์์ ๋ผ์ด๋ธ๋ฌ๋ฆฌ ์ญํ
- ๋ผ์ด๋ธ๋ฌ๋ฆฌ ๊ฐ ํ๋ ฅ ๋ฐฉ์
- ๋ถ๊ท ํ ๋ฐ์ดํฐ์
์์ ํน์ ๋ฒ๊ทธ ํ์
์ถ์ถ ๋ฐ ์๋ ๋ฒ๊ทธ ์ฃผ์
- ์๋ ํํฐ๋ง์ผ๋ก ๊ฐ ์นดํ
๊ณ ๋ฆฌ๋น ์ฝ 200๊ฐ ์ํ๋ก ํ์คํ (566๊ฐ ๋ฒ๊ทธ ์ฃผ์
)
4. ํ์ง ์ ์ด
- ์๋ ๋ฒ๊ทธ ๊ฒ์ ๋ฐ ์์ : 4๋ช
์ 4๋
์ด์ ๊ฒฝ๋ ฅ ํ๋ก๊ทธ๋๋จธ ํฌ์
- 50๊ฐ ์ํ๋ก ์ฌ์ ํ๋ จ์ผ๋ก ์ผ๊ด์ฑ ํ๋ณด
- ๊ฒน์น๋ ๊ต์ฐจ ๊ฒ์ฆ์ผ๋ก ์ ๋ขฐ์ฑ ํ๋ณด
- 119๊ฐ ๋ฒ๊ทธ ์ค๋ช
์์ , 340๊ฐ ๋ถ๋ฅ ์์ , 185๊ฐ ์ํ ์๋ ์์
- 356๊ฐ ๋ถ๋ ์ํ ์ ๊ฑฐ
Evaluation
์ดํ: MLDebugging์ ์ฝ๋ ๋๋ฒ๊น
์ฐ๊ตฌ์ ์ค์ํ ๊ณต๋ฐฑ์ธ ๋ค์ค ๋ผ์ด๋ธ๋ฌ๋ฆฌ ์๋๋ฆฌ์ค๋ฅผ ์ฒ์์ผ๋ก ์ฒด๊ณ์ ์ผ๋ก ๋ค๋ฃจ๋ ์ค์ง์ ์ธ ๊ธฐ์ฌ๋ฅผ ํ๋ค. ์๊ฒฉํ ๋ฐ์ดํฐ ์์ง ๋ฐ ํ์ง ๊ด๋ฆฌ ํ๋ก์ธ์ค์ ํฌ๊ด์ ์ธ LLM ํ๊ฐ๋ฅผ ํตํด ์ด ๋ถ์ผ์ ํ ๋๋ฅผ ๋ง๋ จํ์ผ๋, ์ธ์ด ์ ํ, ์ํ ๊ท๋ชจ, ๋ฒ๊ทธ ํ์ค์ฑ ๊ฒ์ฆ ์ธก๋ฉด์์ ๊ฐ์ ์ฌ์ง๊ฐ ์๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๋ค๋ฅธ ์ ๊ทผ
LLM์ ์ฝ๋์ ํนํํด ํ์ตํ์ฌ ์ฝ๋ ๋๋ฒ๊น
๋ถ์ผ์์ ๋ชจ๋ธ๋ณ ์ฑ๋ฅ ๋น๊ต๋ฅผ ํ ์ ์์ผ๋ฉฐ ํ๊ฐ ํ๋กํ ์ฝ ์ฐธ์กฐ๊ฐ ๊ฐ๋ฅํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
230๋ฒ ๋
ผ๋ฌธ์ ์ฝ๋์งํฅ LLM์ ์คํ๋ชจ๋ธ ๊ตฌ์ถ์ ๊ดํ ์ต์ ์ฌ๋ก๋ก, 544๋ฒ์ ์ค์ง์ ๋๋ฒ๊น
๋ฅ๋ ฅ ํ๊ฐ์ ์ฐ๊ณํด ์ฝ๊ธฐ์ ์ ํฉํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM์ ์ฝ๋ ๋๋ฒ๊น
๋ฅ๋ ฅ์ ๋ค์ํ ํ๋กฌํํธ ๋ฐ ์ธ์ด ํ๊ฒฝ์์ ๋ฒค์น๋งํนํ์ฌ SELF-DEBUGGING๊ณผ์ ์คํ์ ์ฐจ์ด๋ฅผ ๋ณด์ฌ์ค๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
544๋ LLM ์ฝ๋ ๋๋ฒ๊น
๋ฐ ๋ฉํฐ ์ธ์ด ์ฒ๋ฆฌ ๋ฒค์น๋งํฌ๋ฅผ ์ ๊ณตํ๋ฉฐ, 815์ ๋น์ทํ LLM ๊ธฐ๋ฐ ์ฝ๋ ๋๊ตฌ ์ฌ์ฉ ํ๊ฐ๋ฅผ ๋ค๋ฅธ ๋ฐ์ดํฐ๋ก ์๋ํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
586, 590๋ฒ ๋ชจ๋ AI ์ํํธ์จ์ด ๊ฐ๋ฐ์๋ฅผ ์ํ ์คํ ํ๋ซํผ์ ์ ๊ณตํ์ง๋ง, 544๋ฒ์ ์ฝ๋ ๋๋ฒ๊น
๋ฒค์น๋งํฌ์ ์ด์ ์ ๋ ๋์์ ์ ๊ทผ๋ฒ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
์ค์ GitHub ์ด์ ํด๊ฒฐ๋ฅ๋ ฅ์ ํ๊ฐํ๋ SWE-bench์ MLDebugging์ ์๋ก ๋ค๋ฅธ ๋ฐฉ์์ผ๋ก ์ฝ๋ ๊ด๋ จ LLM ๋ฅ๋ ฅ์ ๊ฒ์ฆํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
544๋ฒ ๋
ผ๋ฌธ์ ์ฌ๋ฌ ์ธ์ด ๋ฐ ์ธํ
์ ์ฝ๋ ๋๋ฒ๊น
์ ๋์์ผ๋ก ํ์ฌ, ๋
์ฐฝ์ ์ฐ๊ตฌ ๋
ผ๋ฌธ ๊ตฌํ์ ๋ค๋ฃจ๋ 671๋ฒ๊ณผ ๋๋ณ๋๋ ์ฝ๋ฉ ๋ฒค์น๋งํฌ ๋ฐฉ์์ ์ ์ํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋ค์ค ์ธ์ด ํ๊ฒฝ์์ ๋ค์ํ ์ฝ๋ ๋๋ฒ๊น
์ ๋ต์ ํตํด ์ฝ๋ LLM์ ๋ฐ์ดํฐ ํ๋ ์ด์
๊ณผ ํ์ง ํฅ์ ์ ๊ทผ์ ์ ์ํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
LLM์ ๋ค์ํ ํด ์ฌ์ฉ ์ญ๋์ ํ์ฅ์์ผ ์ค์ ๋ณต์กํ ์ฝ๋ฉยท๋๋ฒ๊น
๊ณผ์ ํด๊ฒฐ๋ ฅ์ ํ๊ฐํ๋ ์ฐจ์ธ๋ ๋ฒค์น๋งํฌ์
๋๋ค.
์์ฉ ์ฌ๋ก
635๋ฒ์ ์ ๊ฒฝ๋ง ์ฝ๋์ง์ ๋๊ตฌ์ ์ค์ ์ฌ์ฉ์ ์์ฐ์ฑ ์ํฅ ๋ฐ์ดํฐ๋ฅผ ๋ถ์ํด, 544๋ฒ๊ณผ ๊ฐ์ code AI agent ํ๊ฐ์ฐ๊ตฌ์ ์คํ๊ฒฝ ๊ทผ๊ฑฐ์๋ฃ๋ฅผ ์ ๊ณตํ๋ค.
์์ฉ ์ฌ๋ก
544๋ฒ ๋
ผ๋ฌธ์ด ๋ฒค์น๋งํฌํ multi-library ์ฝ๋ ๋๋ฒ๊น
๋ฌธ์ ๋ 586 ๋ฐ 590๋ฒ์ ์์ด์ ํธ ์ฝ๋ ๊ฐ๋ฐ ํ๋ซํผ์์ ์ค์ ์ ์ฉ ์ฌ๋ก๋ก ๋ถ์๋ ์ ์๋ค.