์ ์: Mark Chen, Jerry Tworek, Heewoo Jun, Qiming Yuan, Henrique Pondรฉ de Oliveira Pinto, Jared Kaplan, Harrison Edwards, Yuri Burda, Nicholas Joseph, Greg Brockman, Alex Ray, Raul Puri, Gretchen Krueger, Michael Petrov, Heidy Khlaaf, Girish Sastry, Pamela Mishkin, Brooke Chan, Scott Gray, Nick Ryder | ๋ ์ง: 2021 | DOI: N/A 📄 PDF
Essence
HumanEval ๋ฐ์ดํฐ์
์์ ๋ชจ๋ธ ํฌ๊ธฐ์ ๋ฐ๋ฅธ ํต๊ณผ์จ. ๋จ์ผ ์ํ ์์ฑ ์ Codex-12B๋ 28.8%, 100๊ฐ ์ํ ์์ฑ ํ ๋จ์ ํ
์คํธ ํต๊ณผ ์ํ ์ ํ ์ 77.5% ๋ฌ์ฑ
GitHub ์ฝ๋๋ก ๋ฏธ์ธ์กฐ์ ๋ GPT ๊ธฐ๋ฐ์ Codex ๋ชจ๋ธ์ ์ ์ํ๊ณ , ์๋ก์ด ๋ฒค์น๋งํฌ์ธ HumanEval์ ํตํด ํจ์ํ ์ ํ์ฑ(functional correctness) ๊ธฐ๋ฐ์ ํ๊ฐ ์ฒด๊ณ๋ฅผ ์ ์ํ ๋
ผ๋ฌธ์ด๋ค. Codex๋ ๋ํ์คํธ๋ง(docstring)์ผ๋ก๋ถํฐ Python ํจ์๋ฅผ ์์ฑํ๋ ๋ฅ๋ ฅ์์ ๊ธฐ์กด ๋ชจ๋ธ๋ค์ ํฌ๊ฒ ๋ฅ๊ฐํ๋ค.
How
- ๋ฐ์ดํฐ ์์ง: 2020๋
5์ GitHub์ 5,400๋ง ๊ณต๊ฐ ์ ์ฅ์์์ ์์งํ Python ํ์ผ(179GB โ ํํฐ๋ง ํ 159GB). ์๋ ์์ฑ ํ์ผ, ์ฅํ ์ฝ๋ ์ ๊ฑฐ.
- ๋ฏธ์ธ์กฐ์ ์ ๋ต: GPT-3 ๋ชจ๋ธ ๊ณ์ด์์ ์ถ๋ฐ(๋ ๋น ๋ฅธ ์๋ ด). ์ฌ์ ํ์ต๋ ์์ฐ์ด ํํ ํ์ฉ์ด์ง๋ง, ๋ฏธ์ธ์กฐ์ ๋ฐ์ดํฐ์
๊ท๋ชจ๊ฐ ์ถฉ๋ถํ ํฌ๋ฉด ์ฑ๋ฅ ํฅ์ ์ ์ฝ.
- Codex-S: ์ฌ๋ฐ๋ฅด๊ฒ ๊ตฌํ๋ ๋
๋ฆฝํ ํจ์(standalone functions)๋ก ์ถ๊ฐ ๋ฏธ์ธ์กฐ์ ํ์ฌ 37.7% ํด๊ฒฐ๋ฅ ๋ฌ์ฑ - ๋๋ฉ์ธ ํนํ์ ํจ๊ณผ ์
์ฆ.
- Pass@k ๊ณ์ฐ:
```
pass@k = 1 - โ(1 - k/(n-c+i)) for i=1 to k
```
์ฌ๊ธฐ์ n=์์ฑ ์ํ ์, c=์ ๋ต ์ํ ์. ๋จ์ ์ถ์ 1-(1-pฬ)^k๋ ํธํฅ๋จ์ ์ฆ๋ช
.
- ๋ณด์ ์๋๋ฐ์ค: gVisor ์ปจํ
์ด๋ ๋ฐํ์์ผ๋ก ํธ์คํธ ๋ฆฌ์์ค ์๋ฎฌ๋ ์ด์
, eBPF ๋ฐฉํ๋ฒฝ์ผ๋ก ์
์์ ๋คํธ์ํฌ ์ ๊ทผ ์ฐจ๋จ.
Evaluation
์ดํ: ์ด ๋
ผ๋ฌธ์ ์ฝ๋ ์์ฑ ๋ชจ๋ธ์ ํ๊ฐ ์ฒด๊ณ๋ฅผ ๊ทผ๋ณธ์ ์ผ๋ก ๊ฐ์ ํ๊ณ ์ค์ฉ์ ๋ฒค์น๋งํฌ๋ฅผ ์ ๊ณตํจ์ผ๋ก์จ ํ๋ก๊ทธ๋๋ฐ ํฉ์ฑ ๋ถ์ผ์ ์ค๋ํ ๊ธฐ์ฌ๋ฅผ ํ๋ค. Codex ๋ชจ๋ธ์ ์ค์ ์ฑ๋ฅ์ ๋๋ผ์ธ ์ ๋์ด๋, ํ๊ฐ ๋ฒ์์ ํ์ ๊ณผ ์ค๋ฆฌ์ ๋
ผ์์ ๊น์ด ๋ถ์กฑ์ด ์์ฌ์.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
์ฝ๋ ๊ด๋ จ LLM HumanEval ๋ฒค์น๋งํฌ์ ์ ์ฌํ๊ฒ, SciBench๋ ๊ณ ๋ฑ์์ค ๊ณผํ๋ฌธ์ ํด๊ฒฐ๋ฅ๋ ฅ์ ๊ณ๋ํํจ์ผ๋ก์จ LLM ํ๊ฐ ๋ฒค์น๋งํฌ์ ์๋ฆฌ์ ํ์ฉ์ ๊ณต์ ํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
GPT-4 ๊ธฐ๋ฐ ์์ด์ ํธ์ ์๊ธฐ ๋ฐ์ฑ ๋ฐ ๋ฌธ์ ํด๊ฒฐ ๋ฉ์ปค๋์ฆ์ ์ด๋ก ์ ๊ธฐ๋ฐ์ ์ ๊ณตํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
์ฝ๋ ์์ฑ ์ธ์ด๋ชจ๋ธ ํ๊ฐ์์ HumanEval ๋ฒค์น๋งํฌ๋ SciCode ๊ณผํ์ ํ๋ ์ด์
์ฝ๋ฉ๋ฌธ์ ๋ฐ์ดํฐ์
๊ฐ๋ฐ์ ์ด๋ก ์ ยท์ค์ฉ์ ๊ธฐ๋ฐ์ด ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
320๋ฒ ๋
ผ๋ฌธ์ LLM ๊ธฐ๋ฐ ์ฝ๋ ๋ฐ ์ํํธ์จ์ด ๋ฒค์น๋งํฌ์ ์ค๊ณ์ ํ๊ฐ ์๋ฆฌ๋ฅผ ๋ค๋ฃจ๋ฉฐ 782๋ฒ SWE-bench์ ๋น๊ต๋ถ์์ ์ ์ฉํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
320๋ฒ ๋
ผ๋ฌธ์ ์ฝ๋ ๊ธฐ๋ฐ ๋ํ์ธ์ด๋ชจ๋ธ ํ๊ฐ์ AI ๋ชจ๋ธ์ ๋ด์ฌ ํน์ฑ ์ง๋จ์ ๋ค๋ฃจ์ด, 3282๋ฒ์ ํ์ด๋ฐ์ด์
๋ชจ๋ธ ๋ด๋ถ ํํ ๋ถ์ ๊ธฐ๋ฒ๊ณผ ์ด๋ก ์ ์ผ๋ก ์ฐ๊ฒฐ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
320 ๋
ผ๋ฌธ์ ์ฝ๋ ํ์ต ๊ธฐ๋ฐ ๋ชจ๋ธ์ ์ค์ง ์ฑ๋ฅ ํ๊ฐ๋ก, 3033๊ณผ ๊ฐ์ ๋ณต์กํ ์คํ ์ต์ ํ ์์
์ ํ์ฉ๋ ๋ํ LLM์ ์ ๋ขฐ์ฑ ๊ธฐ๋ฐ์ ์ ๊ณตํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋ ๋
ผ๋ฌธ์ ๋์ผํ Codex/HumanEval ์ฐ๊ตฌ๋ฅผ ๋ค๋ฃจ๋ฉฐ, ์ฝ๋ LLM ํ๊ฐ์ ์์ด๋ก์ ํจ๊ป ์ฝ์ด์ผ ํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
์ฝ๋ ํนํ ์ธ์ด ๋ชจ๋ธ ๊ฐ๋ฐ์์ ์ ์ฌํ ๋ฌธ์ ๋ฅผ ๋ค๋ฅธ ๋ฐฉ๋ฒ๋ก ์ผ๋ก ํด๊ฒฐํ๋ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
์ฐจํธ ์ดํด๋ฅผ ์ํ ์๋ํ๋ ๋ฐ์ดํฐ ์์ฑ ๋ฐ ๋ชจ๋ธ ํ์ต ๋ฐฉ๋ฒ๋ก ์ ์ ์ํ๋ ์ ์ฌํ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
320 ๋
ผ๋ฌธ์ ์ฝ๋ ๊ธฐ๋ฐ LLM์ ํ์ต ๋ฐ ํ๊ฐ๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ๋ถ์ํ์ฌ LLM self-debugging์ ํจ๊ณผ์ ํ๊ณ๋ฅผ ๋น๊ตํด๋ณผ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
AI ์ฝ๋ ์์ฑ ๋๊ตฌ๊ฐ ์ํํธ์จ์ด ๋ณด์์ ๋ฏธ์น๋ ์ํฅ์ ํ๊ฐํ๋ ์ ์ฌํ ์คํ์ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
320์ ์ฝ๋ ๊ธฐ๋ฐ LLM์ ํ๊ฐ์ ์ญํ ์ ์ค์ ์ ๋๋ฉฐ, 723์์ ์ธ๊ธํ ๋ค์ํ ๊ธฐ๋ฐ LLM ํ๊ฐ์ ํ ๊ฐ๋๋ฅผ ๋ณด์ฌ์ค๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
Evaluating large language models trained on code ๋
ผ๋ฌธ์ LLM์ด ๋
ผ๋ฌธ ๊ธฐ๋ฐ ์๊ณ ๋ฆฌ์ฆ์์ ์๋ก์ด ์ฝ๋ ์์ฑ ์์
์ ํด๊ฒฐํ๋ ์ญ๋์ ์ธก์ ํ๋ ๋์์ ์ ๊ทผ์ ์ทจํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
320์ ๋ค์ํ ์ฝ๋ LLM๋ค์ ๋น๊ต ํ๊ฐ๋ฅผ ์ ๊ณต, 741์ด ์ ์ํ๋ code curation์ ํตํ ์ฑ๋ฅ ๊ฐ์ ์ ์ค์ ์ ํจ๊ณผ๋ฅผ ํ์ธํ ์ ์์ต๋๋ค.
ํ์ ์ฐ๊ตฌ
StarCoder๋ Codex ์ดํ ์คํ์์ค ์ฝ๋ LLM์ ๋ฐ์ ์ ๋ํํ๋ฉฐ, HumanEval ๋ฒค์น๋งํฌ ๊ธฐ๋ฐ ํ๊ฐ ์ฒด๊ณ๊ฐ ์ด๋ป๊ฒ ๋ฐ์ ํ๋์ง ๋ณด์ฌ์ค๋ค.
ํ์ ์ฐ๊ตฌ
Qwen2.5์ ์ฝ๋ ํ์ต ์ฑ๋ฅ, ์ฌํ ํ๋์ด ์ค์ ์ฝ๋ ํ์ต๋ฒค์น๋งํฌ์์ ์ด๋์ ๋ ์ํฅ ์ฃผ๋์ง ํ๊ฐํ ์ ์๋ค.
ํ์ ์ฐ๊ตฌ
SciCode๋ ๊ณผํ ์ฐ๊ตฌ ์ฝ๋ฉ ๋ฅ๋ ฅ์ ํ๊ฐํ๋ ๊ณ ๋๋ ๋ฒค์น๋งํฌ๋ก, HumanEval์ ๊ธฐ๋ณธ ์ฝ๋ ์์ฑ ํ๊ฐ๋ฅผ ๊ณผํ ์ฐ๊ตฌ ์์ญ์ผ๋ก ํ์ฅํ๋ค.
์์ฉ ์ฌ๋ก
SWE-bench๋ LLM์ ์ํํธ์จ์ด ์ค์ ์ด์ ํด๊ฒฐ ๋ฅ๋ ฅ์ ํ๊ฐํ๋ ์ค์ ์ ๋ฒค์น๋งํฌ๋ก, ์ฝ๋ ์์ฑ ํ๊ฐ์ฒด๊ณ์ ์ ๊ท ์์ฉ์ฌ๋ก๋ค.