SciCode: A Research Coding Benchmark Curated by Scientists

์ €์ž: Minyang Tian, Luyu Gao, Shizhuo Dylan Zhang, Xinan Chen, Cunwei Fan, Xuefei Guo, Roland Haas, Pan Ji, Kittithat Krongchon, Yao Li, Shengyan Liu, Di Luo, Yutao Ma, Hao Tong, Kha Trinh, Chenyu Tian, Zihan Wang, Bohao Wu, Yanyu Xiong, Shengzhu Yin, Minhui Zhu, Kilian Lieret, Yanxin Lu, Genglin Liu, Yufeng Du, Tianhua Tao, Ofir Press, Jamie Callan, Eliu Huerta, Hao Peng | ๋‚ ์งœ: 2024-07-18 | DOI: 10.48550/arXiv.2407.13168 📄 PDF


Essence

๊ณผํ•™์ž๋“ค์ด ์ง์ ‘ ํ๋ ˆ์ด์…˜ํ•œ ๊ณผํ•™ ์—ฐ๊ตฌ ๋ฌธ์ œ ์ค‘์‹ฌ์˜ ์ฝ”๋”ฉ ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ์‹œํ•˜์—ฌ, ์–ธ์–ด ๋ชจ๋ธ(LM)์˜ ์‹ค์ œ ๊ณผํ•™ ๋ณด์กฐ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ๋Š” ๊ณ ํ’ˆ์งˆ ํ‰๊ฐ€ ๋„๊ตฌ๋ฅผ ๊ฐœ๋ฐœํ•˜์˜€๋‹ค.

Motivation

Achievement

Figure 1

Figure 1: SciCode ์ฃผ์š” ๋ฌธ์ œ๊ฐ€ ์—ฌ๋Ÿฌ ๊ฐœ์˜ ๋” ์ž‘๊ณ  ์‰ฌ์šด ๋ถ€๋ถ„ ๋ฌธ์ œ๋กœ ๋ถ„ํ•ด๋˜๋Š” ๊ตฌ์กฐ

  1. ํฌ๊ด„์  ๋ฒค์น˜๋งˆํฌ ๊ตฌ์„ฑ: 80๊ฐœ ์ฃผ์š” ๋ฌธ์ œ๋กœ๋ถ€ํ„ฐ 338๊ฐœ ๋ถ€๋ถ„ ๋ฌธ์ œ๋กœ ๊ตฌ์„ฑ๋œ ๋Œ€๊ทœ๋ชจ ๋ฒค์น˜๋งˆํฌ ๊ฐœ๋ฐœ (16๊ฐœ ๊ณผํ•™ ๋ถ„์•ผ, 50๊ฐœ ๊ฐœ๋ฐœ ์„ธํŠธ, 288๊ฐœ ํ…Œ์ŠคํŠธ ์„ธํŠธ)
  2. ๋†’์€ ๋‚œ์ด๋„ ์ˆ˜์ค€: ์ตœ๊ณ  ์„ฑ๋Šฅ ๋ชจ๋ธ์ธ Claude3.5-Sonnet์ด ๊ฐ€์žฅ ํ˜„์‹ค์ ์ธ ์„ค์ •์—์„œ 4.6% ๋ฌธ์ œ ํ•ด๊ฒฐ, ๋ฐฐ๊ฒฝ ์ •๋ณด ์ œ๊ณต ์‹œ์—๋„ 12.3%์— ๋ถˆ๊ณผ (GPT-4o๋Š” 1.5%, Deepseek-Coder-v2๋Š” 3.1%)
  3. ๊ณ ํ’ˆ์งˆ ์ฃผ์„: ๊ฐ ๋ฌธ์ œ๋งˆ๋‹ค 2๋ช… ์ด์ƒ์˜ ๋ฐ•์‚ฌ๊ธ‰ ์ด์ƒ ์—ฐ๊ตฌ์ž๊ฐ€ ๊ฒ€์ฆยท๊ฐœ์ •ํ•œ ๊ณผํ•™ ๋ฐฐ๊ฒฝ ์ •๋ณด, ํ‘œ์ค€ ์†”๋ฃจ์…˜, ํ…Œ์ŠคํŠธ ์ผ€์ด์Šค ์ œ๊ณต

How

Figure 2

Figure 2: (a) ์ฃผ์š” ๋ฌธ์ œ ๋ถ„ํฌ ๋ฐ (b) ๋ถ€๋ถ„ ๋ฌธ์ œ ๋ถ„ํฌ (๋ฌผ๋ฆฌ 46%, ์žฌ๋ฃŒ๊ณผํ•™ 16%, ์ˆ˜ํ•™ 18%)

Originality

Limitation & Further Study

Evaluation

์ดํ‰: ๋ณธ ๋…ผ๋ฌธ์€ ๊ณผํ•™ ๋ถ„์•ผ ์ฝ”๋”ฉ ๋Šฅ๋ ฅ ํ‰๊ฐ€์— ๋Œ€ํ•œ ์ค‘์š”ํ•œ ๊ณต๋ฐฑ์„ ์ฑ„์šฐ๋ฉด์„œ, ๊ณผํ•™์ž๋“ค์˜ ์ง์ ‘ ์ฐธ์—ฌ๋กœ ๋ฒค์น˜๋งˆํฌ์˜ ํ˜„์‹ค์„ฑ๊ณผ ์‹ ๋ขฐ์„ฑ์„ ํ™•๋ณดํ•œ ์šฐ์ˆ˜ํ•œ ์ž์› ๋…ผ๋ฌธ์ด๋‹ค. ํ˜„์กด ์ตœ๊ณ  ์„ฑ๋Šฅ ๋ชจ๋ธ๋“ค๋„ 4.6%์˜ ์ €์กฐํ•œ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ฃผ๋ฉฐ ํ–ฅํ›„ ๊ณผํ•™ AI ๊ฐœ๋ฐœ์˜ ๋ช…ํ™•ํ•œ ๋ชฉํ‘œ์™€ ํ‰๊ฐ€ ๊ธฐ์ค€์„ ์ œ์‹œํ•œ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
SciBERT์™€ ๊ฐ™์€ ๋„๋ฉ”์ธ ํŠนํ™” ์–ธ์–ด๋ชจ๋ธ์˜ ์‚ฌ์ „ํ•™์Šต์ด SciCode์˜ ๊ณผํ•™์ฝ”๋”ฉ ๋ฒค์น˜๋งˆํฌ ๊ธฐ๋ฐ˜์„ ํ˜•์„ฑํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
์ฝ”๋“œ ์ƒ์„ฑ ์–ธ์–ด๋ชจ๋ธ ํ‰๊ฐ€์—์„œ HumanEval ๋ฒค์น˜๋งˆํฌ๋Š” SciCode ๊ณผํ•™์ž ํ๋ ˆ์ด์…˜ ์ฝ”๋”ฉ๋ฌธ์ œ ๋ฐ์ดํ„ฐ์…‹ ๊ฐœ๋ฐœ์˜ ์ด๋ก ์ ยท์‹ค์šฉ์  ๊ธฐ๋ฐ˜์ด ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
712์˜ SciCode ๋ฒค์น˜๋งˆํฌ๋Š” 184์˜ ๋…ผ๋ฌธ๊ณผ ๊ฐ™์ด LLM์ด ์‹ค์ œ ์—ฐ๊ตฌ ์ง€์›(ํ”ผ๋“œ๋ฐฑ, ์ฝ”๋”ฉ ๋“ฑ) ์—ญํ• ์„ ํ‰๊ฐ€ํ•˜๋Š” ๊ทผ๊ฑฐ ์ž๋ฃŒ๊ฐ€ ๋œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
LLM์„ ํ™œ์šฉํ•œ ์ฝ”๋“œ ์ƒ์„ฑ ๋ฐ ๊ณผํ•™์  ๋ฌธ์ œ ํ•ด๊ฒฐ์˜ ๋ฐฉ๋ฒ•๋ก ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
์–ธ์–ด ๋ชจ๋ธ์˜ ์•Œ๊ณ ๋ฆฌ์ฆ˜์  ์ถ”๋ก  ๋Šฅ๋ ฅ ํ‰๊ฐ€๋ฅผ ์œ„ํ•œ ๋ฐฉ๋ฒ•๋ก ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•˜๋Š” ์—ฐ๊ตฌ์ด๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
712๋ฒˆ ๋…ผ๋ฌธ์€ ๋จธ์‹ ๋Ÿฌ๋‹ ๋ฐ ๊ณผํ•™์  ์ฝ”๋“œ ๊ตฌํ˜„ ์ž๋™ํ™”๋ฅผ ๋ฒค์น˜๋งˆํฌํ•˜๋ฉฐ, 670๋ฒˆ์˜ ์ž๋™ํ™”๋œ ๋…ผ๋ฌธโ†’์ฝ”๋“œ ๋ณ€ํ™˜ ํ”„๋ ˆ์ž„์›Œํฌ์˜ ์„ฑ๋Šฅํ‰๊ฐ€ ์ง€ํ‘œ ๋ฐ ๊ตฌ์กฐ์  ์„ค๊ณ„์— ์ฐธ์กฐ๊ฐ€ ๋œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Systematic Framework of Application Methods for Large Language Models ๋…ผ๋ฌธ์€ LLM์˜ ์‘์šฉ๋ฒ• ํ‰๊ฐ€์™€ ์—ฐ๊ณ„ํ•˜์—ฌ SciCode ๋ฒค์น˜๋งˆํฌ ํ™œ์šฉ ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
SciBench๋Š” ๋Œ€ํ•™ ์ˆ˜์ค€ ๊ณผํ•™ ๋ฌธ์ œ ํ•ด๊ฒฐ ๋ฒค์น˜๋งˆํฌ๋กœ, SciCode์˜ ์—ฐ๊ตฌ ์ˆ˜์ค€ ๊ณผํ•™ ์ฝ”๋”ฉ ํ‰๊ฐ€์™€ ํ•จ๊ป˜ ๊ณผํ•™ AI ๋Šฅ๋ ฅ ํ‰๊ฐ€์˜ ๋‘ ๊ฐ€์ง€ ์ค‘์š”ํ•œ ๊ด€์ ์„ ์ œ๊ณตํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
776 ๋…ผ๋ฌธ์€ AI ๊ธฐ๋ฐ˜ ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ ์ž๋™ํ™” ๋ฐฉ๋ฒ•์„ ๋‹ค๋ฃจ๋ฉฐ, SciCode(712)์™€ ํ•จ๊ป˜ AI๊ฐ€ ์‹ค์ œ ์—ฐ๊ตฌยท๋ฆฌ๋ทฐ ์—…๋ฌด๋ฅผ ์–ด๋–ป๊ฒŒ ์ง€์›ํ•˜๋Š”์ง€ ๋น„๊ต ๋ถ„์„์— ์ ํ•ฉํ•˜๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Data Interpreter ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜ ๋ฐ์ดํ„ฐ ๋ถ„์„ ์—์ด์ „ํŠธ๋กœ ์‹ค์ฝ”๋“œ ํ™œ์šฉ์„ฑ์— ์ดˆ์ ์„ ๋งž์ถ”๊ณ  ์žˆ์–ด SciCode์˜ ๊ณผํ•™ ์—ฐ๊ตฌ ํ˜„์žฅ ํ‰๊ฐ€์ง€ํ–ฅ๊ณผ ๋ณด์™„์ ์œผ๋กœ ์—ฐ๊ฒฐ๋ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
SciCode ๋…ผ๋ฌธ์€ ๊ณผํ•™ ์—ฐ๊ตฌ์—์„œ ์ฝ”๋“œ ์ž‘์„ฑ ๋Šฅ๋ ฅ LLM ํ‰๊ฐ€๋ฅผ ์ค‘์ ์ ์œผ๋กœ ๋‹ค๋ฃจ๋ฉฐ, ํ™”ํ•™ QA์™€ ๋‹ฌ๋ฆฌ ํ”„๋กœ๊ทธ๋ž˜๋ฐ ์ค‘์‹ฌ AI ๋ฌธ์ œ ํ•ด๊ฒฐ์˜ ๋‹ค๋ฅธ ์‘์šฉ์„ ๋ณด์—ฌ์ค€๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๊ณผํ•™ ๋ถ„์•ผ LLM์„ ์ข…ํ•ฉ์ ์œผ๋กœ ์กฐ์‚ฌํ•˜๋Š” ์œ ์‚ฌํ•œ ์„œ๋ฒ ์ด ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
SWE-bench๊ฐ€ ์‹ค์ œ ์†Œํ”„ํŠธ์›จ์–ด ์—”์ง€๋‹ˆ์–ด๋ง ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ๋ฐ˜๋ฉด, SciCode๋Š” ๊ณผํ•™ ์—ฐ๊ตฌ ์ฝ”๋”ฉ์ด๋ผ๋Š” ์ „๋ฌธ ๋„๋ฉ”์ธ์—์„œ LLM์˜ ํ•œ๊ณ„๋ฅผ ํ‰๊ฐ€ํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
ResearchCodeBench ๋…ผ๋ฌธ์€ ๊ณผํ•™ ์—ฐ๊ตฌ ์ฝ”๋”ฉ ํƒœ์Šคํฌ์—์„œ LLM/์—์ด์ „ํŠธ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ๋‹ค๋ฅธ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
SciCode๋Š” ๊ณผํ•™ ์—ฐ๊ตฌ์—์„œ ์ฝ”๋“œ ๊ตฌํ˜„ ๋Šฅ๋ ฅ์— ๋Œ€ํ•œ ๋ฒค์น˜๋งˆํฌ ๋ฐ์ดํ„ฐ์…‹์„ ์ œ์‹œํ•˜์—ฌ SciReplicate-Bench์™€ ์ง์ ‘ ๋น„๊ตํ•  ์ˆ˜ ์žˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์—ฐ๊ตฌ์ž ์ฃผ๋„์˜ ์ฝ”๋“œ ๊ตฌํ˜„ ๋ฐ ์„ฑ๋Šฅํ‰๊ฐ€ ๊ธฐ๋ฐ˜ ML ์—ฐ๊ตฌ ๋ฌธ์ œ ํ•ด๊ฒฐ๋Šฅ๋ ฅ ํ‰๊ฐ€๋ฅผ ๋‹ค๋ฃจ๋ฏ€๋กœ, ์ž๋™ํ™” ์–ธ์–ด ์—์ด์ „ํŠธ์™€ ์ธ๊ฐ„ ๋Œ€๊ฒฐ ๊ตฌ์กฐ๋ฅผ ๋น„๊ตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
712๋Š” LLM์˜ ๋ณต์žกํ•œ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ๋‹ค๋ฅธ ์ ‘๊ทผ๋ฒ•์„ ์ œ์‹œํ•˜์—ฌ GraphInstruct์˜ ๋Œ€์•ˆ์  ๋น„๊ต ๋Œ€์ƒ์ด ๋œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
SciCode๋Š” ๊ณผํ•™ ์—ฐ๊ตฌ ์ฝ”๋”ฉ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ๊ณ ๋‚œ๋„ ๋ฒค์น˜๋งˆํฌ๋กœ, HumanEval์˜ ๊ธฐ๋ณธ ์ฝ”๋“œ ์ƒ์„ฑ ํ‰๊ฐ€๋ฅผ ๊ณผํ•™ ์—ฐ๊ตฌ ์˜์—ญ์œผ๋กœ ํ™•์žฅํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Augmented Language Models ๋…ผ๋ฌธ์€ ์™ธ๋ถ€ ๋„๊ตฌ ๋ฐ ํ™˜๊ฒฝ๊ณผ ๊ฒฐํ•ฉ๋œ LLM ์‘์šฉ์„ ํญ๋„“๊ฒŒ ์ •๋ฆฌํ•˜์—ฌ SciCode์˜ ๋ฒค์น˜๋งˆํฌ ํ™œ์šฉ ๋ฐฉํ–ฅ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
LLM-SRBench๋Š” SciCode์™€ ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ ๊ณผํ•™ ์—ฐ๊ตฌ ์‹ค๋ฌด ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋‚˜, ๋ฐฉ์ •์‹ ๋ฐœ๊ฒฌ ๋“ฑ ์ˆ˜๋ฆฌ์  ๊ณผ์ œ์— ํŠนํ™”๋œ ์ ์—์„œ ์ƒํ˜ธ๋ณด์™„์ ์ž…๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
SciCode ๋…ผ๋ฌธ์€ ์‹ค์ œ ์—ฐ๊ตฌ์ž์˜ ์ฝ”๋”ฉ ๋ฒค์น˜๋งˆํฌ๋ฅผ ํ†ตํ•ด ๋…ผ๋ฌธ ์ฝ”๋“œ ์ž๋™ํ™” ํ”„๋ ˆ์ž„์›Œํฌ์˜ ํ‰๊ฐ€์™€ ์‘์šฉ์„ฑ์„ ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
SciCode ๋…ผ๋ฌธ์€ SciBERT ๋“ฑ ๊ณผํ•™ ํŠนํ™” LLM์˜ ์‹ค์ œ ๊ณผํ•™ ์—ฐ๊ตฌ ์ฝ”๋“œ ํƒœ์Šคํฌ ํ‰๊ฐ€์— ์‘์šฉ๋œ ๊ตฌ์ฒด์  ์‚ฌ๋ก€์ž…๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
SciCode ๋ฒค์น˜๋งˆํฌ๋ฅผ ํ†ตํ•ด StarCoder์™€ ๊ฐ™์€ ์˜คํ”ˆ์†Œ์Šค ์ฝ”๋“œ LLM์ด ๊ณผํ•™ ์—ฐ๊ตฌ ์ฝ”๋”ฉ์—์„œ ์–ด๋–ค ๋Šฅ๋ ฅ์„ ๋ฐœํœ˜ํ•˜๋Š”์ง€ ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
SciCode ๋ฒค์น˜๋งˆํฌ๋Š” StarCoder2์™€ ๊ฐ™์€ ์ฝ”๋“œ LLM์ด ์‹ค์ œ ๊ณผํ•™ ์—ฐ๊ตฌ ์ฝ”๋”ฉ์—์„œ ์–ด๋–ค ์„ฑ๋Šฅ์„ ๋ณด์ด๋Š”์ง€ ํ‰๊ฐ€ํ•˜๋Š” ์‹ค์ œ ์‘์šฉ ์‚ฌ๋ก€๋ฅผ ์ œ๊ณตํ•œ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •