์ ์: Huajian Xin, Daya Guo, Zhihong Shao, Z. Ren, Qihao Zhu, Bo Liu, Chong Ruan, Wenda Li, Xiaodan Liang | ๋ ์ง: 2024 | DOI: ๋ฏธ๊ณต๊ฐ 📄 PDF
Essence
๊ทธ๋ฆผ 1: ์ ๊ทผ ๋ฐฉ๋ฒ์ ๊ฐ์. ๋นํ์ ์ํ ๋ฌธ์ ์์ ํ์์ ์ฆ๋ช
๋ฐ์ดํฐ๋ฅผ ์์ฑํ๋ ๋ฐ๋ณต์ ํ์ดํ๋ผ์ธ
์ด ๋
ผ๋ฌธ์ ๋นํ์์ ์ํ ๋ฌธ์ ์์ ์๋์ผ๋ก ๋๊ท๋ชจ ํ์ ์ฆ๋ช
๋ฐ์ดํฐ(Lean 4)๋ฅผ ํฉ์ฑํ๋ ๋ฐฉ๋ฒ์ ์ ์ํ๊ณ , ์ด๋ฅผ ํตํด ๋ฏธ์ธ์กฐ์ ๋ LLM์ด GPT-4๋ฅผ ๋ฅ๊ฐํ๋ ์ ๋ฆฌ ์ฆ๋ช
์ฑ๋ฅ์ ๋ฌ์ฑํ๋ค. ํนํ 800๋ง ๊ฐ์ ์ ํํ๋ ๋ช
์ -์ฆ๋ช
์์ ์์ฑํ์ฌ ํ๋ จ ๋ฐ์ดํฐ ๋ถ์กฑ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ค.
Evaluation
Novelty: 4.5/5 Technical Soundness: 4/5 Significance: 4.5/5 Clarity: 4/5 Overall: 4.25/5
์ดํ: ์ด ๋
ผ๋ฌธ์ ์ ํ์ ์ฆ๋ช
์ ์ค๋๋ ๋ฐ์ดํฐ ๋ถ์กฑ ๋ฌธ์ ๋ฅผ ๋๊ท๋ชจ ์๋ ํฉ์ฑ๊ณผ ๋ฐ๋ณต ๊ฒ์ฆ์ ํตํด ์ค์ฉ์ ์ผ๋ก ํด๊ฒฐํ ๊ฒฌ๊ณ ํ ์ฐ๊ตฌ๋ก, ํนํ 800๋ง ๊ท๋ชจ ์คํ์์ค ๋ฐ์ดํฐ์
์ ๊ณต๊ฐ๋ ์๋์ ๋ฆฌ์ฆ๋ช
๋ถ์ผ์ ์๋นํ ์ธํ๋ผ ๊ธฐ์ฌ๋ฅผ ํ ๊ฒ์ผ๋ก ์์๋๋ค. ๋ค๋ง ์ ๋ฆฌ ์ฆ๋ช
์ ์ ๋ ์ฑ๋ฅ์ ์ฌ์ ํ ์ ํ์ ์ด๋ฉฐ, ๊ณ ๊ธ ์ํ์ผ๋ก์ ํ์ฅ ๊ฐ๋ฅ์ฑ ๊ฒ์ฆ์ด ํ์ํ๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
Code llama(230)๋ LLM์ ์ฝ๋ฉ ๋ฐ ํ๋ก๊ทธ๋๋ฐ ์ญ๋์ ๊ธฐ๋ฐ์ด ๋๋ฉฐ, ์๋ ์ฆ๋ช
๋ฐ์ดํฐ ํฉ์ฑ ๋ฐ ํ์ฉ๊ณผ ์ฐ๊ณ ์ฐ๊ตฌ์ ๋ฐํ์ด ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
MUSTARD์ ์๋ ์ฆ๋ช
ํฉ์ฑยท๋ฐ์ดํฐ ํ๋ณด ๋ฐฉ๋ฒ๋ก ์ด Deepseek-prover์ ๋๊ท๋ชจ Lean ์ฆ๋ช
์ ํฉ์ฑ๊ณผ LLM ๋ฏธ์ธ์กฐ์ ์ ์ด๋ก ์ ๊ธฐ์ด๋ฅผ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Deepseek-prover ๋
ผ๋ฌธ์ LLM์ ๋
ผ๋ฆฌ ๋ฐ ๊ณต์ ์ฆ๋ช
๋ฅ๋ ฅ์ ๋๊ท๋ชจ ๋ฐ์ดํฐ ์์ฑ ๊ธฐ๋ฐ์ผ๋ก ํ์ฅํ์ฌ ๋ฐ๋ก ์์ฑ ์๊ณ ๋ฆฌ์ฆ์ ๊ธฐ๋ฐ์ ์ ๊ณตํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
379๋ ๋๊ท๋ชจ ์ธ์ด๋ชจ๋ธ์ ์๋ ์ ๋ฆฌ ์ฆ๋ช
์ ์ฌ์ฉํ๋ ์ ๊ทผ ๋ฐฉ์์ผ๋ก, ๋ฐ์ดํฐ ํฉ์ฑ๋ณด๋ค๋ ์๊ณ์ด์ ์ธ์ด๋ชจ๋ธ์ ํตํ ๋ฌธ์ ํด๊ฒฐ์ ์ด์ ์ ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
264๋ ์ค์ ๋๊ท๋ชจ ์ฆ๋ช
๋ฐ์ดํฐ ํฉ์ฑ๊ณผ ์ฑ๋ฆฐ์ง ํด๊ฒฐ์ ์ด์ ์ ๋๋ฉฐ, 288์ ๋นํ์ ์ฆ๋ช
โํ์ ์ฆ๋ช
์ค์ผ์น ๋งคํ์ ์์ด๋์ด๋ฅผ ๋ก๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
์๋ ์ ๋ฆฌ ์ฆ๋ช
์ ์ํ ํฉ์ฑ ๋ฐ์ดํฐ ์์ฑ ๋๋ ๋ค๋ฅธ ๋ฐฉ๋ฒ๋ก ์ ์ ์ํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM์ ํ์ฉํ ์ํ์ ์ ๋ฆฌ ์ฆ๋ช
์ ์ํ ๋์์ ์ ๊ทผ๋ฒ์ ์ ์ํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
Deepseek-prover ๋
ผ๋ฌธ์ step-by-step ํ์ ๋ฐฉ์์ ํ๊ณ๋ฅผ ๋
ผ์ํ๋ฉฐ, POETRY์ ์ฌ๊ท์ ์ฆ๋ช
๋ฐฉ์๊ณผ ๋ชจ๋ธ๋ง ์ฐจ์ด๊ฐ ํฝ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
Deepseek-prover๋ LLM ๊ธฐ๋ฐ ์๋ ์ ๋ฆฌ ์ฆ๋ช
๋ถ์ผ์์ ๋๊ท๋ชจ ์ฆ๋ช
๋ผ์ด๋ธ๋ฌ๋ฆฌ ๊ตฌ์ถ์ ์ฃผ๋ชฉํ๋ ๋์์ ๋ฐฉ๋ฒ์ ์ ์ํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
DeepSeek-Prover๋ ๋๊ท๋ชจ ํฉ์ฑ ๋ฐ์ดํฐ๋ฅผ ํตํด LLM ๊ธฐ๋ฐ ์ ๋ฆฌ ์ฆ๋ช
๋ฅ๋ ฅ์ ํฅ์์ํค๋ฉฐ, GPT-f์ ์ด๊ธฐ ์ ๊ฒฝ ์ ๋ฆฌ ์ฆ๋ช
์ ๊ทผ์ ๋ฐ์ ์ํจ ์ฐ๊ตฌ๋ค.
ํ์ ์ฐ๊ตฌ
Deepseek-prover ๋
ผ๋ฌธ์ LLM ๊ธฐ๋ฐ ์ฆ๋ช
์์คํ
์ฐ๊ตฌ์์ ์ฑ๋ฅ ๊ฐ์ ์๋ ์ฆ๋ช
์๋ํ๋ฅผ ์ค์ฆํ์ฌ ๋ฒค์น๋งํฌ์ ํ์ฉ์ ํ์ฅํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
288์ ๋นํ์โํ์ ๋ณํ ๊ธฐ๋ฐ ์ ๊ทผ๋ฒ์ด, 264 ๋๊ท๋ชจ ์๋ Lean 4 ์ฆ๋ช
์ ํฉ์ฑ๊ณผ ๋ฏธ์ธ์กฐ์ ์ ์ค์ง์ ์ผ๋ก ํ๋ ์ ์ฉ๋ฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
DeepSeek-Prover์ ์ ๋ฆฌ ์ฆ๋ช
์ ๊ทผ๋ฒ์ ํ์ฅํ๊ฑฐ๋ ๋ณด์ํ๋ ์ฐ๊ตฌ์ด๋ค.
ํ์ ์ฐ๊ตฌ
๋จ๊ณ์ ์ฆ๋ช
(think-verify-interleave) ์ต์ ํ๊ฐ ์ถ๊ฐ๋ ์ต์ LLM ๊ธฐ๋ฐ ์ ๋ฆฌ ์ฆ๋ช
์์คํ
๊ณผ ์ฑ๋ฅ์ ๋น๊ตํ ์ ์์ต๋๋ค.
ํ์ ์ฐ๊ตฌ
๋ ๋
ผ๋ฌธ ๋ชจ๋ LLM ๊ธฐ๋ฐ์ ์๋ ์ ๋ฆฌ ์ฆ๋ช
๋ฐ ์ฆ๋ช
๊ฒฝ๋ก ์์ฑ์ ์ด์ ์ ๋ง์ถ๋ฉฐ, 482๋ ์ฆ๋ช
๊ณผ์ ์ ์ฌ๊ณ ์ ์ฆ๋ช
๊ต์ฐจ ํ๋ จ ์ ๋ต์ ์ถ๊ฐ๋ก ์ ์ํ๋ค.
ํ์ ์ฐ๊ตฌ
568์ ์๋ ์์ฑ ์ฆ๋ช
๋ฐ์ดํฐ ์์ฐ ํ๋ ์์ํฌ(MUSTARD)๋ฅผ, 264๊ฐ ๋๊ท๋ชจ Lean 4 ์ฆ๋ช
์ ํฉ์ฑยทLLM ๋ฏธ์ธ์กฐ์ ๋ฑ์ผ๋ก ์์ฉ/ํ์ฅํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
DeepSeek ์๋ฆฌ์ฆ์ ์ด์ ์์
์ผ๋ก ๋ณธ ์ฐ๊ตฌ์ ๊ธฐ๋ฐ์ด ๋๋ ๊ด๋ จ ์ฐ๊ตฌ์ด๋ค.