Deepseek-coder: When the large language model meets programmingโ€“the rise of code intelligence

์ €์ž: Daya Guo, Qihao Zhu, Dejian Yang, Zhenda Xie, Kai Dong, Wentao Zhang, Guanting Chen, Xiao Bi, Y. Wu, Y.K. Li, Fuli Luo, Yingfei Xiong, Wenfeng Liang | ๋‚ ์งœ: 2024 | DOI: - 📄 PDF


Essence

Figure 1

DeepSeek-Coder์˜ ์„ฑ๋Šฅ ๋น„๊ต

๋ณธ ๋…ผ๋ฌธ์€ 1.3B์—์„œ 33B ๊ทœ๋ชจ์˜ ์˜คํ”ˆ์†Œ์Šค ์ฝ”๋“œ ์ „๋ฌธ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ(LLM) ์‹œ๋ฆฌ์ฆˆ๋ฅผ ์ œ์‹œํ•˜๋ฉฐ, ํ์‡„ํ˜• ๋ชจ๋ธ์ธ Codex์™€ GPT-3.5๋ฅผ ๋Šฅ๊ฐ€ํ•˜๋Š” ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ๋‹ค. 2์กฐ ๊ฐœ์˜ ํ† ํฐ์œผ๋กœ ํ•™์Šต๋œ ์ด ๋ชจ๋ธ๋“ค์€ ์ €์ž‘๊ถŒ ์ œ์•ฝ ์—†์ด ์ƒ์šฉ ์‚ฌ์šฉ ๊ฐ€๋Šฅํ•œ ์˜คํ”ˆ์†Œ์Šค๋กœ ์ œ๊ณต๋œ๋‹ค.

Motivation

Achievement

Figure 2

๋ฐ์ดํ„ฐ์…‹ ์ƒ์„ฑ ์ ˆ์ฐจ: ๋ฐ์ดํ„ฐ ํฌ๋กค๋ง โ†’ ๊ทœ์น™ ํ•„ํ„ฐ๋ง โ†’ ์˜์กด์„ฑ ํŒŒ์‹ฑ โ†’ ์ €์žฅ์†Œ ์ˆ˜์ค€ ์ค‘๋ณต ์ œ๊ฑฐ โ†’ ํ’ˆ์งˆ ์Šคํฌ๋ฆฌ๋‹

  1. ์˜คํ”ˆ์†Œ์Šค ์ตœ๊ณ  ์„ฑ๋Šฅ ๋‹ฌ์„ฑ: DeepSeek-Coder-Base 33B๋Š” ๋ชจ๋“  ์˜คํ”ˆ์†Œ์Šค ์ฝ”๋“œ ๋ชจ๋ธ์„ ๋Šฅ๊ฐ€ํ•˜๋ฉฐ, ๋‹ค์–‘ํ•œ ๋ฒค์น˜๋งˆํฌ์—์„œ ์ผ๊ด€๋˜๊ฒŒ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ ์‹œํ˜„
  2. ํ์‡„ํ˜• ๋ชจ๋ธ ์ถ”์›”: DeepSeek-Coder-Instruct 33B๊ฐ€ OpenAI GPT-3.5 Turbo๋ฅผ ๋Œ€๋ถ€๋ถ„์˜ ์ฝ”๋“œ ๊ด€๋ จ ๋ฒค์น˜๋งˆํฌ์—์„œ ์ดˆ์›”ํ•˜๋ฉฐ, GPT-4์™€์˜ ์„ฑ๋Šฅ ๊ฒฉ์ฐจ ๊ฐ์†Œ
  3. ํšจ์œจ์  ์Šค์ผ€์ผ๋ง: 7B ๋ชจ๋ธ์ด CodeLlama-33B(5๋ฐฐ ๋” ํผ)์™€ ๊ฒฝ์Ÿ ๊ฐ€๋Šฅํ•œ ์„ฑ๋Šฅ ๋‹ฌ์„ฑ์œผ๋กœ ๋งค๊ฐœ๋ณ€์ˆ˜ ํšจ์œจ์„ฑ ์ž…์ฆ
  4. ์ƒ์šฉ ์ ‘๊ทผ์„ฑ: ํ—ˆ์šฉ์  ์˜คํ”ˆ์†Œ์Šค ๋ผ์ด์„ผ์Šค๋กœ ์ œํ•œ ์—†๋Š” ์ƒ์šฉ ์‚ฌ์šฉ ํ—ˆ๊ฐ€

How

๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ๋ฐ ์ „์ฒ˜๋ฆฌ

ํ•™์Šต ๊ตฌ์„ฑ

Originality

Limitation & Further Study

Evaluation

์ดํ‰: DeepSeek-Coder๋Š” ์ €์žฅ์†Œ ์ˆ˜์ค€ ์˜์กด์„ฑ ๋ถ„์„์ด๋ผ๋Š” ์‹ ์„ ํ•œ ์ ‘๊ทผ๊ณผ ์ฒ ์ €ํ•œ ๋ฐ์ดํ„ฐ ๊ด€๋ฆฌ๋ฅผ ํ†ตํ•ด ์˜คํ”ˆ์†Œ์Šค ์ฝ”๋“œ ๋ชจ๋ธ์˜ ์ƒˆ๋กœ์šด ๊ธฐ์ค€์„ ์ˆ˜๋ฆฝํ–ˆ์œผ๋ฉฐ, GPT-3.5 ์ถ”์›” ์„ฑ๊ณผ๋Š” ์ฝ”๋“œ AI์˜ ๋ฏผ์ฃผํ™”์— ์ค‘๋Œ€ํ•œ ๊ธฐ์—ฌ๋ฅผ ํ•œ๋‹ค. ๋‹ค๋งŒ ์˜์กด์„ฑ ์ถ”์ถœ์˜ ์ •ํ™•์„ฑ ๊ฒ€์ฆ๊ณผ ์–ธ์–ด ํŽธํ–ฅ ์™„ํ™”๊ฐ€ ํ›„์† ๊ณผ์ œ์ด๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Codex ๋…ผ๋ฌธ์€ ์ฝ”๋“œ ํŠนํ™” LLM์˜ ์ฒซ ๋Œ€ํ‘œ์  ๋ชจ๋ธ๋กœ, Deepseek-coder์˜ ์˜คํ”ˆ์†Œ์Šค ์„ฑ๋Šฅ ๊ฐœ์„ ๊ณผ ๋น„๊ตํ•  ์ˆ˜ ์žˆ๋Š” ์ดˆ๊ธฐ ๊ธฐ์ค€์ ์ด๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๋Œ€๊ทœ๋ชจ ์ฝ”๋“œ ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•œ LLM ์‚ฌ์ „ํ•™์Šต ๋ฐฉ๋ฒ•๋ก ์˜ ์ด๋ก ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
์–ธ์–ด๋ชจ๋ธ์˜ ํ…Œ์ด๋ธ” ์ดํ•ด๋ฅผ ์œ„ํ•œ ๋ฐฉ๋ฒ•๋ก ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๋Œ€๊ทœ๋ชจ ์ฝ”๋“œ ์–ธ์–ด๋ชจ๋ธ์˜ ํ›ˆ๋ จ์„ ์œ„ํ•œ ๋ฐฉ๋ฒ•๋ก ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Deepseek-coder ๋…ผ๋ฌธ์€ Codex์™€ GPT-3.5๋ฅผ ๋„˜์–ด์„œ๋Š” ์˜คํ”ˆ์†Œ์Šค ์ฝ”๋“œ ์ „๋ฌธ LLM์˜ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ฃผ๋ฉฐ, ๋‹ค์–‘ํ•œ ์ฝ”๋“œ ์ž‘์—…์—์„œ์˜ LLM ๋ฐœ์ „ ๋™ํ–ฅ์„ ๋น„๊ตํ•  ์ˆ˜ ์žˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Code Llama์™€ Deepseek-coder ๋ชจ๋‘ ์˜คํ”ˆ์†Œ์Šค ์ฝ”๋“œ ํŠนํ™” LLM์œผ๋กœ์„œ, ์„œ๋กœ ๋‹ค๋ฅธ ๋ฐ์ดํ„ฐ์™€ ์„ค๊ณ„๋ฅผ ํ™œ์šฉํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ฝ”๋“œ ์ƒ์„ฑ์„ ์œ„ํ•œ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ์˜ ๋Œ€์•ˆ์  ์ ‘๊ทผ๋ฒ•์„ ์ œ์‹œํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ฝ”๋“œ ์ „๋ฌธ LLM์˜ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ์œ„ํ•œ ๋Œ€์•ˆ์  ๋ฐฉ๋ฒ•๋ก ์„ ์ œ์‹œํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
StarCoder 2๋Š” ์ฝ”๋“œ ๋ฐ ์ธ์ŠคํŠธ๋Ÿญ์…˜ ํŠœ๋‹ ๋ถ„์•ผ์˜ ์ตœ์‹  ์˜คํ”ˆ์†Œ์Šค ์—ฐ๊ตฌ์˜ ํ๋ฆ„์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •