MLDebugging: Towards benchmarking code debugging across multi-library scenarios

์ €์ž: Jinyang Huang, Xiachong Feng, Qiguang Chen, Hanzhang Zhao, Zheng Cheng, Jie Bai, Jingxuan Zhou, Min Li, L. Q. Qin | ๋‚ ์งœ: 2025 | DOI: N/A 📄 PDF


Essence

Figure 1

๋‹ค์ค‘ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ ์ฝ”๋“œ ๋””๋ฒ„๊น…์˜ ์˜ˆ์‹œ: (a) ๋‹จ์ˆœ ์ •์  ๋ฒ„๊ทธ vs (b) ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ ๊ฐ„ ๋ณ€์ˆ˜ ์ ์‘ ๋ฌธ์ œ

๋ณธ ๋…ผ๋ฌธ์€ ์‹ค์ œ ์†Œํ”„ํŠธ์›จ์–ด ๊ฐœ๋ฐœ ํ™˜๊ฒฝ์—์„œ ํ”ํžˆ ๋‚˜ํƒ€๋‚˜๋Š” ๋‹ค์ค‘ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ ์‹œ๋‚˜๋ฆฌ์˜ค์—์„œ์˜ ์ฝ”๋“œ ๋””๋ฒ„๊น…์„ ์ฒด๊ณ„์ ์œผ๋กœ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•œ MLDebugging ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ์‹œํ•œ๋‹ค. 126๊ฐœ์˜ Python ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋ฅผ ํฌํ•จํ•˜๊ณ  7๊ฐ€์ง€ ๋ฒ„๊ทธ ์œ ํ˜•์œผ๋กœ ๋ถ„๋ฅ˜๋œ 1,175๊ฐœ์˜ ์ƒ˜ํ”Œ๋กœ ๊ตฌ์„ฑ๋˜์–ด ์žˆ๋‹ค.

Motivation

Achievement

Figure 2

๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ• ํŒŒ์ดํ”„๋ผ์ธ: (1) ๋ฐ์ดํ„ฐ์…‹ ์ˆ˜์ง‘, (2) LLM์„ ํ†ตํ•œ ๋””๋ฒ„๊น…, (3) ์นดํ…Œ๊ณ ๋ฆฌ ๊ท ํ˜• ์กฐ์ •, (4) ์ˆ˜๋™ ๊ฒ€์ฆ

  1. ๋‹ค์ค‘ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ ๋””๋ฒ„๊น… ๋ฒค์น˜๋งˆํฌ ๊ตฌ์ถ•: 126๊ฐœ์˜ widely-used ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋ฅผ ํฌํ•จํ•˜๋Š” 1,175๊ฐœ์˜ ๊ณ ํ’ˆ์งˆ ์ƒ˜ํ”Œ ์ƒ์„ฑ. ๊ธฐ์กด ๋ฒค์น˜๋งˆํฌ(xCodeEval, HumanEval, MdEval)์™€ ๋‹ฌ๋ฆฌ 2-6๊ฐœ์˜ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ ์‚ฌ์šฉ ๋ฐ ์‹ค์ œ ์‹œ๋‚˜๋ฆฌ์˜ค ๋ฐ˜์˜.
  2. ์ฒด๊ณ„์  ๋ฒ„๊ทธ ๋ถ„๋ฅ˜ ์ฒด๊ณ„: Type Mismatch(TM), Data Transfer Issues(DTI), Function Parameter Errors(FPE), Parameter Configuration Errors(PCE), Function Misuse(FM), Requirement Misunderstanding(RM), Import Errors(IE) ๋“ฑ 7๊ฐœ ์นดํ…Œ๊ณ ๋ฆฌ๋กœ ๋ถ„๋ฅ˜.
  3. ์ข…ํ•ฉ์  LLM ํ‰๊ฐ€: GPT-4o, Claude-3.5-sonnet, DeepSeek-V3, DeepSeek-r1 ๋“ฑ ์ฃผ์š” ๋ชจ๋ธ ํ‰๊ฐ€ ๊ฒฐ๊ณผ:
    • ๋ชจ๋“  LLM์ด ๋‹ค์ค‘ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ ๋””๋ฒ„๊น…์—์„œ ์ œํ•œ๋œ ์„ฑ๋Šฅ ๋ณด์ž„
    • ๋ฐฉ๋ฒ• ํด๋ž˜์Šค ์—๋Ÿฌ(method class error)๋Š” ์ž˜ ์ฒ˜๋ฆฌํ•˜๋‚˜ ๊ฐœ๋…์  ์˜ค๋ฅ˜์™€ import ๋ˆ„๋ฝ์— ์ทจ์•ฝ
    • ๋Ÿฐํƒ€์ž„ ์ •๋ณด(ํ…Œ์ŠคํŠธ ์ผ€์ด์Šค, ํ”ผ๋“œ๋ฐฑ) ์ ‘๊ทผ์„ฑ์ด ์„ฑ๋Šฅ ํ–ฅ์ƒ์— ๊ธฐ์—ฌ

How

Figure 2

๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ•์˜ 4๋‹จ๊ณ„ ํ”„๋กœ์„ธ์Šค

1. ์†Œ์Šค ์ฝ”๋“œ ์ˆ˜์ง‘

2. LLM์„ ํ†ตํ•œ ์–ด๋…ธํ…Œ์ด์…˜ ๋ฐ ๋””๋ฒ„๊น…

3. ๋ฒ„๊ทธ ์นดํ…Œ๊ณ ๋ฆฌ ๊ท ํ˜• ์กฐ์ •

4. ํ’ˆ์งˆ ์ œ์–ด

Originality

Limitation & Further Study

Evaluation

์ดํ‰: MLDebugging์€ ์ฝ”๋“œ ๋””๋ฒ„๊น… ์—ฐ๊ตฌ์˜ ์ค‘์š”ํ•œ ๊ณต๋ฐฑ์ธ ๋‹ค์ค‘ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ ์‹œ๋‚˜๋ฆฌ์˜ค๋ฅผ ์ฒ˜์Œ์œผ๋กœ ์ฒด๊ณ„์ ์œผ๋กœ ๋‹ค๋ฃจ๋Š” ์‹ค์งˆ์ ์ธ ๊ธฐ์—ฌ๋ฅผ ํ•œ๋‹ค. ์—„๊ฒฉํ•œ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ๋ฐ ํ’ˆ์งˆ ๊ด€๋ฆฌ ํ”„๋กœ์„ธ์Šค์™€ ํฌ๊ด„์ ์ธ LLM ํ‰๊ฐ€๋ฅผ ํ†ตํ•ด ์ด ๋ถ„์•ผ์˜ ํ† ๋Œ€๋ฅผ ๋งˆ๋ จํ–ˆ์œผ๋‚˜, ์–ธ์–ด ์ œํ•œ, ์ƒ˜ํ”Œ ๊ทœ๋ชจ, ๋ฒ„๊ทธ ํ˜„์‹ค์„ฑ ๊ฒ€์ฆ ์ธก๋ฉด์—์„œ ๊ฐœ์„  ์—ฌ์ง€๊ฐ€ ์žˆ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๋‹ค๋ฅธ ์ ‘๊ทผ
LLM์„ ์ฝ”๋“œ์— ํŠนํ™”ํ•ด ํ•™์Šตํ•˜์—ฌ ์ฝ”๋“œ ๋””๋ฒ„๊น… ๋ถ„์•ผ์—์„œ ๋ชจ๋ธ๋ณ„ ์„ฑ๋Šฅ ๋น„๊ต๋ฅผ ํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ ํ‰๊ฐ€ ํ”„๋กœํ† ์ฝœ ์ฐธ์กฐ๊ฐ€ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
230๋ฒˆ ๋…ผ๋ฌธ์€ ์ฝ”๋“œ์ง€ํ–ฅ LLM์˜ ์˜คํ”ˆ๋ชจ๋ธ ๊ตฌ์ถ•์— ๊ด€ํ•œ ์ตœ์‹  ์‚ฌ๋ก€๋กœ, 544๋ฒˆ์˜ ์‹ค์งˆ์  ๋””๋ฒ„๊น… ๋Šฅ๋ ฅ ํ‰๊ฐ€์™€ ์—ฐ๊ณ„ํ•ด ์ฝ๊ธฐ์— ์ ํ•ฉํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM์˜ ์ฝ”๋“œ ๋””๋ฒ„๊น… ๋Šฅ๋ ฅ์„ ๋‹ค์–‘ํ•œ ํ”„๋กฌํ”„ํŠธ ๋ฐ ์–ธ์–ด ํ™˜๊ฒฝ์—์„œ ๋ฒค์น˜๋งˆํ‚นํ•˜์—ฌ SELF-DEBUGGING๊ณผ์˜ ์‹คํ—˜์  ์ฐจ์ด๋ฅผ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
544๋Š” LLM ์ฝ”๋“œ ๋””๋ฒ„๊น… ๋ฐ ๋ฉ€ํ‹ฐ ์–ธ์–ด ์ฒ˜๋ฆฌ ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ๊ณตํ•˜๋ฉฐ, 815์™€ ๋น„์Šทํ•œ LLM ๊ธฐ๋ฐ˜ ์ฝ”๋“œ ๋„๊ตฌ ์‚ฌ์šฉ ํ‰๊ฐ€๋ฅผ ๋‹ค๋ฅธ ๋ฐ์ดํ„ฐ๋กœ ์‹œ๋„ํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
586, 590๋ฒˆ ๋ชจ๋‘ AI ์†Œํ”„ํŠธ์›จ์–ด ๊ฐœ๋ฐœ์ž๋ฅผ ์œ„ํ•œ ์˜คํ”ˆ ํ”Œ๋žซํผ์„ ์ œ๊ณตํ•˜์ง€๋งŒ, 544๋ฒˆ์€ ์ฝ”๋“œ ๋””๋ฒ„๊น… ๋ฒค์น˜๋งˆํฌ์— ์ดˆ์ ์„ ๋‘” ๋Œ€์•ˆ์  ์ ‘๊ทผ๋ฒ•์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์‹ค์ œ GitHub ์ด์Šˆ ํ•ด๊ฒฐ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋Š” SWE-bench์™€ MLDebugging์€ ์„œ๋กœ ๋‹ค๋ฅธ ๋ฐฉ์‹์œผ๋กœ ์ฝ”๋“œ ๊ด€๋ จ LLM ๋Šฅ๋ ฅ์„ ๊ฒ€์ฆํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
544๋ฒˆ ๋…ผ๋ฌธ์€ ์—ฌ๋Ÿฌ ์–ธ์–ด ๋ฐ ์„ธํŒ…์˜ ์ฝ”๋“œ ๋””๋ฒ„๊น…์„ ๋Œ€์ƒ์œผ๋กœ ํ•˜์—ฌ, ๋…์ฐฝ์  ์—ฐ๊ตฌ ๋…ผ๋ฌธ ๊ตฌํ˜„์„ ๋‹ค๋ฃจ๋Š” 671๋ฒˆ๊ณผ ๋Œ€๋ณ„๋˜๋Š” ์ฝ”๋”ฉ ๋ฒค์น˜๋งˆํฌ ๋ฐฉ์‹์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋‹ค์ค‘ ์–ธ์–ด ํ™˜๊ฒฝ์—์„œ ๋‹ค์–‘ํ•œ ์ฝ”๋“œ ๋””๋ฒ„๊น… ์ „๋žต์„ ํ†ตํ•ด ์ฝ”๋“œ LLM์˜ ๋ฐ์ดํ„ฐ ํ๋ ˆ์ด์…˜๊ณผ ํ’ˆ์งˆ ํ–ฅ์ƒ ์ ‘๊ทผ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
LLM์— ๋‹ค์–‘ํ•œ ํˆด ์‚ฌ์šฉ ์—ญ๋Ÿ‰์„ ํ™•์žฅ์‹œ์ผœ ์‹ค์ œ ๋ณต์žกํ•œ ์ฝ”๋”ฉยท๋””๋ฒ„๊น… ๊ณผ์ œ ํ•ด๊ฒฐ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ์ฐจ์„ธ๋Œ€ ๋ฒค์น˜๋งˆํฌ์ž…๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
635๋ฒˆ์€ ์‹ ๊ฒฝ๋ง ์ฝ”๋“œ์ง€์› ๋„๊ตฌ์˜ ์‹ค์ œ ์‚ฌ์šฉ์ž ์ƒ์‚ฐ์„ฑ ์˜ํ–ฅ ๋ฐ์ดํ„ฐ๋ฅผ ๋ถ„์„ํ•ด, 544๋ฒˆ๊ณผ ๊ฐ™์€ code AI agent ํ‰๊ฐ€์—ฐ๊ตฌ์— ์‹คํ™˜๊ฒฝ ๊ทผ๊ฑฐ์ž๋ฃŒ๋ฅผ ์ œ๊ณตํ•œ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
544๋ฒˆ ๋…ผ๋ฌธ์ด ๋ฒค์น˜๋งˆํฌํ•œ multi-library ์ฝ”๋“œ ๋””๋ฒ„๊น… ๋ฌธ์ œ๋Š” 586 ๋ฐ 590๋ฒˆ์˜ ์—์ด์ „ํŠธ ์ฝ”๋“œ ๊ฐœ๋ฐœ ํ”Œ๋žซํผ์—์„œ ์‹ค์ œ ์ ์šฉ ์‚ฌ๋ก€๋กœ ๋ถ„์„๋  ์ˆ˜ ์žˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •