์ ์: ByteDance Seed, Yuyu Zhang, Jing Su, Yifan Sun, Chenguang Xi, Xia Xiao, Zheng Shen, A. Q. Zhang, Kaibo Liu, Daoguang Zan, Tao Sun, J. Zhu, Shijie Xin, Dong Huang, Y. Bai, Lixin Dong, C. J. Li, Jianchong Chen, Hao Zhou, Yifan Huang | ๋ ์ง: 2025 | URL: https://arxiv.org/abs/2506.03524 📄 PDF
Figure 2. Processing pipeline for pretraining data. We collected data from GitHub and web archives.
Seed-Coder๋ ์์ ์์ฑํ ํํฐ๋ง ๊ท์น ๋์ LLM ๊ธฐ๋ฐ ์ ์ ๋งค๊ธฐ๊ธฐ ๋ฐ ํํฐ๋ง์ ์ฌ์ฉํ๋ ๋ชจ๋ธ ์ค์ฌ ๋ฐ์ดํฐ ํ์ดํ๋ผ์ธ์ผ๋ก ์ฝ๋ ์ฌ์ ํ์ต ๋ฐ์ดํฐ๋ฅผ ์๋์ผ๋ก ํ๋ ์ด์ ํ๋ฉฐ, 8B ๊ท๋ชจ์ ๊ธฐ๋ณธยท๋ช ๋ นยท์ถ๋ก ๋ชจ๋ธ์ ์ ์ํ๋ค.
Figure 1. Benchmark performance of instruct and reasoning variants of Seed-Coder-8B.
Figure 2. Processing pipeline for pretraining data. We collected data from GitHub and web archives.
์ดํ: Seed-Coder๋ ์ฝ๋ ์ฌ์ ํ์ต ๋ฐ์ดํฐ ํ๋ ์ด์ ์ ํจ๋ฌ๋ค์์ hand-crafted ๊ท์น์์ LLM ๊ธฐ๋ฐ ์๋ํ๋ก ์ ํํ๋ฉฐ, ์ค์ฉ์ ์ด๋ฉด์๋ ๊ฐ๋ ฅํ 8B ๋ชจ๋ธ์ ํตํด ์ด ์ ๊ทผ๋ฒ์ ํจ๊ณผ๋ฅผ ๋ช ํํ ์ ์ฆํ๋ค. ํ์ฅ ๊ฐ๋ฅ์ฑ๊ณผ ๊ฐ๊ด์ฑ ์ธก๋ฉด์์ ์ค์ํ ๊ธฐ์ฌ์ด๋, ๋๊ท๋ชจ ๋ชจ๋ธ ๋ฐ ํํฐ ํธํฅ ๋ถ์์ ๋ํ ์ถ๊ฐ ํ๊ตฌ๊ฐ ํ์ํ๋ค.