์ ์: Mark Chen, Jerry Tworek, Heewoo Jun, Qiming Yuan, Henrique Pondรฉ de Oliveira Pinto, Jared Kaplan, Harrison Edwards, Yuri Burda, Nicholas Joseph, Greg Brockman, Alex Ray, Raul Puri, Gretchen Krueger, Michael Petrov, Heidy Khlaaf, Girish Sastry, Pamela Mishkin, Brooke Chan, Scott Gray, Nick Ryder | ๋ ์ง: 2021 | URL: https://arxiv.org/abs/2107.03374 📄 PDF
Essence
Figure 1. Pass rates of our models on the HumanEval dataset as a
์ด ๋
ผ๋ฌธ์ GitHub์์ ์์งํ ๊ณต๊ฐ ์ฝ๋๋ก ํ์ธํ๋ํ GPT ๋ชจ๋ธ์ธ Codex๋ฅผ ์๊ฐํ๊ณ , ๋
์คํธ๋ง์ผ๋ก๋ถํฐ Python ํจ์๋ฅผ ์์ฑํ๋ ๋ฅ๋ ฅ์ ํ๊ฐํ๋ค. ์๋ก์ด ๋ฒค์น๋งํฌ์ธ HumanEval์ ํตํด ๋จ์ผ ์ํ๋ก๋ 28.8%์ ํด๊ฒฐ๋ฅ ์ ๋ณด์ด๋ฉฐ, 100๊ฐ ์ํ ์์ฑ ์ 77.5%๊น์ง ๋ฌ์ฑํจ์ ๋ณด์ฌ์ค๋ค.
Achievement
Figure 1. Pass rates of our models on the HumanEval dataset as a
์๋ก์ด ํ๊ฐ ๋ฐฉ๋ฒ๋ก : pass@k ๋ฉํธ๋ฆญ๊ณผ HumanEval ๋ฒค์น๋งํฌ ์ ์๋ก ํจ์ํ ์ ํ์ฑ ํ๊ฐ์ ํ์ค ์๋ฆฝ. ๋ชจ๋ธ ์ฑ๋ฅ: ๋จ์ผ ์ํ ๊ธฐ์ค 28.8%์ ์ฑ๋ฅ(GPT-3๋ 0%, GPT-J๋ 11.4%)์ ๋ฌ์ฑํ๊ณ ์ํ ์ฆ๊ฐ์ ๋ฐ๋ฅธ ๊ฐ์ ๊ฐ๋ฅ์ฑ ์
์ฆ(100์ํ ์ 77.5%). ํ์ธํ๋ ํจ๊ณผ: Codex-S๋ฅผ ํตํด ๋
๋ฆฝ์ ํจ์ ํ์ต์ด 37.7%๋ก ์ฑ๋ฅ ํฅ์๋จ์ ๋ณด์. ์ค์ฉ์ฑ ๋ถ์: ๋ก๊ทธํ๋ฅ ๋ก ์ํ ์ ๋ณ ๊ฐ๋ฅ์ฑ(44.5%) ์ ์๋ก ๋ฐฐํฌ ๊ฐ๋ฅ์ฑ ๋
ผ์.
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 5/5 Clarity: 4/5 Overall: 5/5
์ดํ: ์ด ๋
ผ๋ฌธ์ ์ฝ๋ ์์ฑ ๋ชจ๋ธ์ ํ๊ฐ ๋ฐฉ๋ฒ๋ก ์ ํ์ ํ๊ณ , ๊ณต๊ฐ ๋ฒค์น๋งํฌ์ ํจ๊ป ์ค์ฉ์ ์ผ๋ก ๊ฐ๋ ฅํ Codex ๋ชจ๋ธ์ ์ ์ํ๋ค. pass@k ๋ฉํธ๋ฆญ๊ณผ HumanEval ๋ฐ์ดํฐ์
์ ํ์ ์ฐ๊ตฌ์ ํ์ค์ด ๋์์ผ๋ฉฐ, GitHub Copilot์ผ๋ก ์ค์ ๋ฐฐํฌ๋์ด ์
๊ณ์ ํฐ ์ํฅ์ ๋ฏธ์ณค๋ค. ๋ค์ค ์ํ ์ ๋ต๊ณผ ํด๋ฆฌ์คํฑ ์ ๋ณ์ ํจ๊ณผ์ฑ์ ์ค์ฉ์ ๊ฐ์น๊ฐ ๋๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
Evaluating large language models trained on code (Codex)๋ ์ฝ๋ ์์ฑ ํนํ LLM ๋ฐ์ ์ ์ด์์ ์ ๊ณตํ๋ฉฐ, Code Llama ๋ฐ ํ์ ์คํ์์ค ํ๊ฐ์ ๊ธฐ๋ฐ์ด ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
์ฝ๋ LLM์ ๋๊ท๋ชจ ์์ฒด ์ฝ๋ ํ๊ฐ ๋ฐ ๋๋ฒ๊น
ํ๋ จ์ ๊ธฐ๋ฐ์ด ๋๋ ๋ฒค์น๋งํน ์ฐ๊ตฌ(3380)๊ฐ self-debugging ๊ธฐ๋ฒ์ ํ๊ฐํ ๋๋ฅผ ์ด๋ฃน๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Codex ๋
ผ๋ฌธ์ ์ฝ๋ ํนํ LLM์ ์ฒซ ๋ํ์ ๋ชจ๋ธ๋ก, Deepseek-coder์ ์คํ์์ค ์ฑ๋ฅ ๊ฐ์ ๊ณผ ๋น๊ตํ ์ ์๋ ์ด๊ธฐ ๊ธฐ์ค์ ์ด๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
์ฝ๋๋ก ํ๋ จ๋ ๋ํ ์ธ์ด๋ชจ๋ธ ํ๊ฐ์ ์ง์คํ ์ฐ๊ตฌ๋ก, Seed-coder์ ๊ฐ์ ์ฝ๋ ์ค์ฌ ํ์ดํ๋ผ์ธ ๊ฐ๋ฐ์ ์ด๋ก ์ ํ ๋๋ฅผ ์ ๊ณตํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋ ๋
ผ๋ฌธ ๋ชจ๋ ์ฝ๋ ์์ฑ LLM์ ํ๊ฐ๋ฅผ ์ํ HumanEval ๋ฒค์น๋งํฌ์ Codex ๋ชจ๋ธ์ ์๊ฐํ๋ ๋์ผํ ์ฐ๊ตฌ๋ฅผ ๋ค๋ฃจ๊ณ ์์ด ํจ๊ป ์ฝ์ด์ผ ํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
์ ๊ฒฝ๋ง ๊ธฐ๋ฐ ์ฝ๋ ์๋์์ฑ๊ณผ AI ์ฝ๋ฉ ๋๊ตฌ์ ์ฑ๋ฅ๊ณผ ์ํฅ์ ๋ํ ํฌ๊ด์ ํ๊ฐ ๋
ผ๋ฌธ์ผ๋ก, ์ฝ๋ฉ ์์ฐ์ฑ ์๋ํ์ ๋ค์ํ ๊ด์ ์ ๋ณด์ฌ์ค๋ค.
๋ค๋ฅธ ์ ๊ทผ
3380์ ์ฝ๋์ ํนํ๋ LLM ๊ณ์ด์ ํ๊ฐ ์ฐ๊ตฌ๋ก, 205์์ ์ ์ํ๋ ๊ฐ๋ฐ ๋ณด์กฐ ์์ด์ ํธ ํ๋ ์์ํฌ์ ์ฑ๋ฅยทํ๊ณ ๋น๊ต๊ฐ ๊ฐ๋ฅํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
Deepseek-coder ๋
ผ๋ฌธ์ Codex์ GPT-3.5๋ฅผ ๋์ด์๋ ์คํ์์ค ์ฝ๋ ์ ๋ฌธ LLM์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๋ฉฐ, ๋ค์ํ ์ฝ๋ ์์
์์์ LLM ๋ฐ์ ๋ํฅ์ ๋น๊ตํ ์ ์๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM์ ์ฝ๋์ ํนํํด ํ์ตํ์ฌ ์ฝ๋ ๋๋ฒ๊น
๋ถ์ผ์์ ๋ชจ๋ธ๋ณ ์ฑ๋ฅ ๋น๊ต๋ฅผ ํ ์ ์์ผ๋ฉฐ ํ๊ฐ ํ๋กํ ์ฝ ์ฐธ์กฐ๊ฐ ๊ฐ๋ฅํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
Code Llama ๋ฑ ๊ณต๊ฐ ์์ค ์ฝ๋ ๊ธฐ๋ฐ LLM๋ค๊ณผ Codex๋ฅผ ์์คํ
๋ฐ ์ฑ๋ฅ ์ธก๋ฉด์์ ๋น๊ตํ ์ ์๋ค.
ํ์ ์ฐ๊ตฌ
StarCoder2๋ Codex ์ดํ์ ์คํ์์ค ์ฝ๋ LLM ๋ฐ์ ์ ๋ณด์ฌ์ฃผ๋ฉฐ, ์ฝ๋ LLM์ ์ธ๋์ ์งํ๋ฅผ ์ดํดํ๋ ๋ฐ ํ์์ ์ด๋ค.
ํ์ ์ฐ๊ตฌ
SWE-bench๋ HumanEval ์ดํ ์ค์ ์ํํธ์จ์ด ์์ง๋์ด๋ง ๋ฅ๋ ฅ์ ๋ ํ์ค์ ์ผ๋ก ํ๊ฐํ๋ ๋ฒค์น๋งํฌ๋ก, ์ฝ๋ LLM ํ๊ฐ์ ํ๊ณ๋ฅผ ํ์ฅํ๋ค.
์์ฉ ์ฌ๋ก
๋๊ท๋ชจ ์ฝ๋ ํ์ต LLM์ ์ ์ฉ์ฑ๊ณผ ์ค์ ๊ณผํ ์๋ํ ์์ญ์์์ ์ฑ๋ฅ ๋ฒค์น๋งํน์ ํตํด StarCoder์ utility๋ฅผ ์
์ฆํฉ๋๋ค.
์์ฉ ์ฌ๋ก
From LLMs to LLM-based Agents for Software Engineering ๋
ผ๋ฌธ์ ์ฝ๋ LLM์ ์ค์ ์ํํธ์จ์ด ์์ง๋์ด๋ง ๋ถ์ผ์ ์ ์ฉํ๋ ๋ฐฉ๋ฒ๋ก ๊ณผ ํ๊ณ๋ฅผ ํ๊ตฌํ๋ค.