Deepseek-prover: Advancing theorem proving in llms through large-scale synthetic data

์ €์ž: Huajian Xin, Daya Guo, Zhihong Shao, Z. Ren, Qihao Zhu, Bo Liu, Chong Ruan, Wenda Li, Xiaodan Liang | ๋‚ ์งœ: 2024 | DOI: ๋ฏธ๊ณต๊ฐœ 📄 PDF


Essence

Figure 1

๊ทธ๋ฆผ 1: ์ ‘๊ทผ ๋ฐฉ๋ฒ•์˜ ๊ฐœ์š”. ๋น„ํ˜•์‹ ์ˆ˜ํ•™ ๋ฌธ์ œ์—์„œ ํ˜•์‹์  ์ฆ๋ช… ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๋ฐ˜๋ณต์  ํŒŒ์ดํ”„๋ผ์ธ

์ด ๋…ผ๋ฌธ์€ ๋น„ํ˜•์‹์  ์ˆ˜ํ•™ ๋ฌธ์ œ์—์„œ ์ž๋™์œผ๋กœ ๋Œ€๊ทœ๋ชจ ํ˜•์‹ ์ฆ๋ช… ๋ฐ์ดํ„ฐ(Lean 4)๋ฅผ ํ•ฉ์„ฑํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์ œ์‹œํ•˜๊ณ , ์ด๋ฅผ ํ†ตํ•ด ๋ฏธ์„ธ์กฐ์ •๋œ LLM์ด GPT-4๋ฅผ ๋Šฅ๊ฐ€ํ•˜๋Š” ์ •๋ฆฌ ์ฆ๋ช… ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ๋‹ค. ํŠนํžˆ 800๋งŒ ๊ฐœ์˜ ์ •ํ˜•ํ™”๋œ ๋ช…์ œ-์ฆ๋ช… ์Œ์„ ์ƒ์„ฑํ•˜์—ฌ ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ ๋ถ€์กฑ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ–ˆ๋‹ค.

Motivation

Achievement

  1. ๋ฐ์ดํ„ฐ์…‹ ๊ทœ๋ชจ: 869,659๊ฐœ์˜ ๋น„ํ˜•์‹ ์ˆ˜ํ•™ ๋ฌธ์ œ์—์„œ 800๋งŒ ๊ฐœ์˜ ๊ณ ํ’ˆ์งˆ ํ˜•์‹ ๋ช…์ œ-์ฆ๋ช… ์Œ ์ƒ์„ฑ (๊ธฐ์กด ์ž๋™ํ˜•์‹ํ™” ์—ฐ๊ตฌ์˜ ์ˆ˜์‹ญ~์ˆ˜๋ฐฑ๋ฐฐ ๊ทœ๋ชจ)
  2. ๋ฒค์น˜๋งˆํฌ ์„ฑ๋Šฅ:
    • miniF2F-test: 64 ์ƒ˜ํ”Œ ๊ธฐ์ค€ 46.3% ์ „์ฒด ์ฆ๋ช… ์ •ํ™•๋„ (GPT-4: 23.0%, RL ๋ฐฉ๋ฒ•: 41.0%)
    • miniF2F ๋ˆ„์ : 52% ์ •ํ™•๋„
    • FIMO ๋ฒค์น˜๋งˆํฌ: 100 ์ƒ˜ํ”Œ๋กœ 4/148, 4096 ์ƒ˜ํ”Œ๋กœ 5/148 ์ฆ๋ช… ์„ฑ๊ณต (GPT-4: 0/148)
  3. ๋ฐ˜๋ณต ํ•™์Šต์˜ ์œ ํšจ์„ฑ: ์• ๋ธ”๋ ˆ์ด์…˜ ์‹คํ—˜์œผ๋กœ ๊ฐ ๋ฐ˜๋ณต๋งˆ๋‹ค miniF2F ํ•ด๊ฒฐ ๋ฌธ์ œ ์ˆ˜๊ฐ€ ์ ์ง„์ ์œผ๋กœ ์ฆ๊ฐ€ํ•จ์„ ์ž…์ฆ

How

![Figure 1 ์ฐธ์กฐ]

4๋‹จ๊ณ„ ๋ฐ˜๋ณต ํŒŒ์ดํ”„๋ผ์ธ:

  1. ์ž๋™ํ˜•์‹ํ™” (Autoformalization)
    • DeepSeekMath-Base 7B๋ฅผ MMA ๋ฐ์ดํ„ฐ์…‹(Lean 4 mathlib ๊ธฐ๋ฐ˜)์œผ๋กœ ๋ฏธ์„ธ์กฐ์ •
    • ๊ตฌ์กฐํ™”๋œ ํ”„๋กฌํ”„ํŠธ๋ฅผ ํ†ตํ•ด ๋น„ํ˜•์‹ ๋ฌธ์ œ๋ฅผ Lean 4 ํ˜•์‹ ๋ช…์ œ๋กœ ๋ณ€ํ™˜
    • ์›น ์Šคํฌ๋ž˜ํ•‘์œผ๋กœ ์ˆ˜์ง‘ํ•œ 869,659๊ฐœ ๊ณ ๋“ฑํ•™๊ต~ํ•™๋ถ€ ์ˆ˜์ค€ ๊ฒฝ์‹œ ๋ฌธ์ œ ํ™œ์šฉ
  2. ํ’ˆ์งˆ ๋ณด์ฆ (Quality Assurance)
    • ๋ชจ๋ธ ์Šค์ฝ”๋ง: ๋‹จ์ˆœ ๋ช…์ œ ํ•„ํ„ฐ๋ง์œผ๋กœ ์ฆ๋ช… ๋‚œ์ด๋„ ๋†’์€ ๋ฌธ์ œ ์„ ๋ณ„
    • ๊ฐ€์„ค ๊ฑฐ๋ถ€ ์ „๋žต (Hypothesis Rejection): ๋น„ํ˜•์‹์ ์œผ๋กœ ๋ถ€์ •ํ™•ํ•œ ๋ช…์ œ ์ œ๊ฑฐ
    • ํ˜•์‹ ๊ฒ€์ฆ์ž๋กœ ์ƒ์„ฑ๋œ ๋ช…์ œ ์œ ํšจ์„ฑ ๊ฒ€์‚ฌ
  3. ์ฆ๋ช… ์ƒ์„ฑ ๋ฐ ๊ฒ€์ฆ (Statements Proving)
    • DS-Prover๊ฐ€ ํ˜•์‹ ๋ช…์ œ์˜ ์ฆ๋ช… ์ฝ”๋“œ ์ƒ์„ฑ
    • Lean 4 ํ˜•์‹ ๊ฒ€์ฆ์ž๋กœ ์ฆ๋ช… ์ •ํ™•์„ฑ ์ž๋™ ํ™•์ธ
    • ๋ณ‘๋ ฌ ์ฆ๋ช… ์ตœ์ ํ™”: ์›๋ž˜ ๋ช…์ œ์™€ ๋ถ€์ • ๋ช…์ œ๋ฅผ ๋™์‹œ์— ์ฆ๋ช…ํ•˜์—ฌ ํƒ์ƒ‰ ๊ณต๊ฐ„ ์ถ•์†Œ (unprovable ๋ช…์ œ๋Š” ๋ถ€์ • ์ฆ๋ช…์œผ๋กœ ๋น ๋ฅด๊ฒŒ ๋ฐฐ์ œ)
  4. ๋ฐ˜๋ณต ํ›ˆ๋ จ (Iterative Fine-tuning)
    • ๊ฒ€์ฆ๋œ ๋ช…์ œ-์ฆ๋ช… ์Œ์œผ๋กœ DS-Prover ์žฌํ›ˆ๋ จ
    • ๋ชจ๋ธ ์„ฑ๋Šฅ ํ–ฅ์ƒ โ†’ ๋” ๋‚˜์€ ํ˜•์‹ํ™” ๋ฐ ์ฆ๋ช… ์ƒ์„ฑ โ†’ ๊ณ ํ’ˆ์งˆ ๋ฐ์ดํ„ฐ ์ฆ๊ฐ€
    • ์„ฑ๋Šฅ ๊ฐœ์„ ์ด ์ˆ˜๋ ดํ•  ๋•Œ๊นŒ์ง€ ๋ฐ˜๋ณต

Originality

Limitation & Further Study

ํ•œ๊ณ„์ :

ํ›„์† ์—ฐ๊ตฌ ๋ฐฉํ–ฅ:

Evaluation

Novelty: 4.5/5 Technical Soundness: 4/5 Significance: 4.5/5 Clarity: 4/5 Overall: 4.25/5

์ดํ‰: ์ด ๋…ผ๋ฌธ์€ ์ •ํ˜•์‹ ์ฆ๋ช…์˜ ์˜ค๋ž˜๋œ ๋ฐ์ดํ„ฐ ๋ถ€์กฑ ๋ฌธ์ œ๋ฅผ ๋Œ€๊ทœ๋ชจ ์ž๋™ ํ•ฉ์„ฑ๊ณผ ๋ฐ˜๋ณต ๊ฒ€์ฆ์„ ํ†ตํ•ด ์‹ค์šฉ์ ์œผ๋กœ ํ•ด๊ฒฐํ•œ ๊ฒฌ๊ณ ํ•œ ์—ฐ๊ตฌ๋กœ, ํŠนํžˆ 800๋งŒ ๊ทœ๋ชจ ์˜คํ”ˆ์†Œ์Šค ๋ฐ์ดํ„ฐ์…‹์˜ ๊ณต๊ฐœ๋Š” ์ž๋™์ •๋ฆฌ์ฆ๋ช… ๋ถ„์•ผ์— ์ƒ๋‹นํ•œ ์ธํ”„๋ผ ๊ธฐ์—ฌ๋ฅผ ํ•  ๊ฒƒ์œผ๋กœ ์˜ˆ์ƒ๋œ๋‹ค. ๋‹ค๋งŒ ์ •๋ฆฌ ์ฆ๋ช…์˜ ์ ˆ๋Œ€ ์„ฑ๋Šฅ์€ ์—ฌ์ „ํžˆ ์ œํ•œ์ ์ด๋ฉฐ, ๊ณ ๊ธ‰ ์ˆ˜ํ•™์œผ๋กœ์˜ ํ™•์žฅ ๊ฐ€๋Šฅ์„ฑ ๊ฒ€์ฆ์ด ํ•„์š”ํ•˜๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Code llama(230)๋Š” LLM์˜ ์ฝ”๋”ฉ ๋ฐ ํ”„๋กœ๊ทธ๋ž˜๋ฐ ์—ญ๋Ÿ‰์˜ ๊ธฐ๋ฐ˜์ด ๋˜๋ฉฐ, ์ž๋™ ์ฆ๋ช… ๋ฐ์ดํ„ฐ ํ•ฉ์„ฑ ๋ฐ ํ™œ์šฉ๊ณผ ์—ฐ๊ณ„ ์—ฐ๊ตฌ์— ๋ฐ”ํƒ•์ด ๋œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
MUSTARD์˜ ์ž๋™ ์ฆ๋ช… ํ•ฉ์„ฑยท๋ฐ์ดํ„ฐ ํ™•๋ณด ๋ฐฉ๋ฒ•๋ก ์ด Deepseek-prover์˜ ๋Œ€๊ทœ๋ชจ Lean ์ฆ๋ช… ์Œ ํ•ฉ์„ฑ๊ณผ LLM ๋ฏธ์„ธ์กฐ์ •์— ์ด๋ก ์  ๊ธฐ์ดˆ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Deepseek-prover ๋…ผ๋ฌธ์€ LLM์˜ ๋…ผ๋ฆฌ ๋ฐ ๊ณต์‹ ์ฆ๋ช… ๋Šฅ๋ ฅ์„ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ ๊ธฐ๋ฐ˜์œผ๋กœ ํ™•์žฅํ•˜์—ฌ ๋ฐ˜๋ก€ ์ƒ์„ฑ ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
379๋Š” ๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ์„ ์ž๋™ ์ •๋ฆฌ ์ฆ๋ช…์— ์‚ฌ์šฉํ•˜๋Š” ์ ‘๊ทผ ๋ฐฉ์‹์œผ๋กœ, ๋ฐ์ดํ„ฐ ํ•ฉ์„ฑ๋ณด๋‹ค๋Š” ์‹œ๊ณ„์—ด์  ์–ธ์–ด๋ชจ๋ธ์„ ํ†ตํ•œ ๋ฌธ์ œ ํ•ด๊ฒฐ์— ์ดˆ์ ์„ ๋‘”๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
264๋Š” ์‹ค์ œ ๋Œ€๊ทœ๋ชจ ์ฆ๋ช… ๋ฐ์ดํ„ฐ ํ•ฉ์„ฑ๊ณผ ์ฑŒ๋ฆฐ์ง€ ํ•ด๊ฒฐ์— ์ดˆ์ ์„ ๋‘๋ฉฐ, 288์€ ๋น„ํ˜•์‹ ์ฆ๋ช…โ†’ํ˜•์‹ ์ฆ๋ช… ์Šค์ผ€์น˜ ๋งคํ•‘์— ์•„์ด๋””์–ด๋ฅผ ๋‘ก๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ž๋™ ์ •๋ฆฌ ์ฆ๋ช…์„ ์œ„ํ•œ ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ ๋˜๋Š” ๋‹ค๋ฅธ ๋ฐฉ๋ฒ•๋ก ์„ ์ œ์‹œํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM์„ ํ™œ์šฉํ•œ ์ˆ˜ํ•™์  ์ •๋ฆฌ ์ฆ๋ช…์„ ์œ„ํ•œ ๋Œ€์•ˆ์  ์ ‘๊ทผ๋ฒ•์„ ์ œ์‹œํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Deepseek-prover ๋…ผ๋ฌธ์€ step-by-step ํƒ์ƒ‰ ๋ฐฉ์‹์˜ ํ•œ๊ณ„๋ฅผ ๋…ผ์˜ํ•˜๋ฉฐ, POETRY์˜ ์žฌ๊ท€์  ์ฆ๋ช… ๋ฐฉ์‹๊ณผ ๋ชจ๋ธ๋ง ์ฐจ์ด๊ฐ€ ํฝ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Deepseek-prover๋Š” LLM ๊ธฐ๋ฐ˜ ์ž๋™ ์ •๋ฆฌ ์ฆ๋ช… ๋ถ„์•ผ์—์„œ ๋Œ€๊ทœ๋ชจ ์ฆ๋ช… ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ ๊ตฌ์ถ•์— ์ฃผ๋ชฉํ•˜๋Š” ๋Œ€์•ˆ์  ๋ฐฉ๋ฒ•์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
DeepSeek-Prover๋Š” ๋Œ€๊ทœ๋ชจ ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ๋ฅผ ํ†ตํ•ด LLM ๊ธฐ๋ฐ˜ ์ •๋ฆฌ ์ฆ๋ช… ๋Šฅ๋ ฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๋ฉฐ, GPT-f์˜ ์ดˆ๊ธฐ ์‹ ๊ฒฝ ์ •๋ฆฌ ์ฆ๋ช… ์ ‘๊ทผ์„ ๋ฐœ์ „์‹œํ‚จ ์—ฐ๊ตฌ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Deepseek-prover ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜ ์ฆ๋ช… ์‹œ์Šคํ…œ ์—ฐ๊ตฌ์—์„œ ์„ฑ๋Šฅ ๊ฐ์‡  ์—†๋Š” ์ฆ๋ช… ์ž๋™ํ™”๋ฅผ ์‹ค์ฆํ•˜์—ฌ ๋ฒค์น˜๋งˆํฌ์˜ ํ™œ์šฉ์„ ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
288์˜ ๋น„ํ˜•์‹โ†’ํ˜•์‹ ๋ณ€ํ™˜ ๊ธฐ๋ฐ˜ ์ ‘๊ทผ๋ฒ•์ด, 264 ๋Œ€๊ทœ๋ชจ ์ž๋™ Lean 4 ์ฆ๋ช… ์Œ ํ•ฉ์„ฑ๊ณผ ๋ฏธ์„ธ์กฐ์ •์— ์‹ค์งˆ์ ์œผ๋กœ ํ™•๋Œ€ ์ ์šฉ๋ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
DeepSeek-Prover์˜ ์ •๋ฆฌ ์ฆ๋ช… ์ ‘๊ทผ๋ฒ•์„ ํ™•์žฅํ•˜๊ฑฐ๋‚˜ ๋ณด์™„ํ•˜๋Š” ์—ฐ๊ตฌ์ด๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
๋‹จ๊ณ„์  ์ฆ๋ช…(think-verify-interleave) ์ตœ์ ํ™”๊ฐ€ ์ถ”๊ฐ€๋œ ์ตœ์‹  LLM ๊ธฐ๋ฐ˜ ์ •๋ฆฌ ์ฆ๋ช… ์‹œ์Šคํ…œ๊ณผ ์„ฑ๋Šฅ์„ ๋น„๊ตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
๋‘ ๋…ผ๋ฌธ ๋ชจ๋‘ LLM ๊ธฐ๋ฐ˜์˜ ์ž๋™ ์ •๋ฆฌ ์ฆ๋ช… ๋ฐ ์ฆ๋ช… ๊ฒฝ๋กœ ์ƒ์„ฑ์— ์ดˆ์ ์„ ๋งž์ถ”๋ฉฐ, 482๋Š” ์ฆ๋ช… ๊ณผ์ •์˜ ์‚ฌ๊ณ ์™€ ์ฆ๋ช… ๊ต์ฐจ ํ›ˆ๋ จ ์ „๋žต์„ ์ถ”๊ฐ€๋กœ ์ œ์‹œํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
568์˜ ์ž๋™ ์ƒ์„ฑ ์ฆ๋ช… ๋ฐ์ดํ„ฐ ์ƒ์‚ฐ ํ”„๋ ˆ์ž„์›Œํฌ(MUSTARD)๋ฅผ, 264๊ฐ€ ๋Œ€๊ทœ๋ชจ Lean 4 ์ฆ๋ช… ์Œ ํ•ฉ์„ฑยทLLM ๋ฏธ์„ธ์กฐ์ • ๋“ฑ์œผ๋กœ ์‘์šฉ/ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
DeepSeek ์‹œ๋ฆฌ์ฆˆ์˜ ์ด์ „ ์ž‘์—…์œผ๋กœ ๋ณธ ์—ฐ๊ตฌ์˜ ๊ธฐ๋ฐ˜์ด ๋˜๋Š” ๊ด€๋ จ ์—ฐ๊ตฌ์ด๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •