M2F: Automated Formalization of Mathematical Literature at Scale

์ €์ž: Zichen Wang, Wanli Ma, Zhenyu Ming, Gong Zhang, Kun Yuan, Zaiwen Wen | ๋‚ ์งœ: 2026-02-19 | DOI: N/A 📄 PDF


Essence

Figure 1: M2F ํ”„๋กœ์ ํŠธ ๊ทœ๋ชจ ์ž๋™ ํ˜•์‹ํ™” ํŒŒ์ดํ”„๋ผ์ธ

๋ณธ ๋…ผ๋ฌธ์€ ์ˆ˜ํ•™ ๊ต๊ณผ์„œ์™€ ๋…ผ๋ฌธ์„ ํ”„๋กœ์ ํŠธ ๊ทœ๋ชจ์˜ Lean ํ˜•์‹ํ™”๋กœ ์ž๋™ ๋ณ€ํ™˜ํ•˜๋Š” ์ตœ์ดˆ์˜ ์—์ด์ „ํŠธ ํ”„๋ ˆ์ž„์›Œํฌ M2F๋ฅผ ์ œ์‹œํ•œ๋‹ค. ๊ฒ€์ฆ์ž ํ”ผ๋“œ๋ฐฑ์„ ๋ฃจํ”„์— ์œ ์ง€ํ•˜๋ฉฐ ์„ธ ์ฃผ ์•ˆ์— 153,853์ค„์˜ ํ˜•์‹ํ™”๋œ Lean ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋ฅผ ์ƒ์„ฑํ•˜์—ฌ ํ…์ŠคํŠธ๋ถ ๊ทœ๋ชจ ํ˜•์‹ํ™”์˜ ์‹ค์šฉ์„ฑ์„ ์ž…์ฆํ–ˆ๋‹ค.

Motivation

Achievement

Figure 2: FATE-H์—์„œ์˜ PSR ๋น„๊ต
  1. ํ”„๋กœ์ ํŠธ ๊ทœ๋ชจ ํ˜•์‹ํ™”์˜ ์‹คํ˜„:
    • ์‹ค์ˆ˜ ํ•ด์„(Real Analysis) 312ํŽ˜์ด์ง€, ๋ณผ๋ก ํ•ด์„(Convex Analysis) 140ํŽ˜์ด์ง€, ๋…ผ๋ฌธ 27ํŽ˜์ด์ง€ ์ด 479ํŽ˜์ด์ง€๋ฅผ 3์ฃผ ๋‚ด์— 241๊ฐœ ํŒŒ์ผ, 4,116๊ฐœ ์„ ์–ธ, 153,853์ค„์˜ ์™„์ „ ์ปดํŒŒ์ผ ๊ฐ€๋Šฅํ•œ Lean ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋กœ ๋ณ€ํ™˜
    • ์ „์ฒด ํ”„๋กœ์ ํŠธ end-to-end ์—˜๋ผ๋ณด๋ ˆ์ด์…˜(elaboration) ์„ฑ๊ณต ๋‹ฌ์„ฑ
    • ์ด๋Š” ์ „๋ฌธ๊ฐ€๊ฐ€ ์ˆ˜๊ฐœ์›”~์ˆ˜๋…„ ๊ฑธ๋ฆด ์ž‘์—…์„ ์ž๋™ํ™”
  2. ๊ฐ•๋ ฅํ•œ ์ฆ๋ช… ์„ฑ๋Šฅ:
    • FATE-H ๋ฒค์น˜๋งˆํฌ์—์„œ 96% ์ฆ๋ช… ์„ฑ๊ณต๋ฅ (PSR) ๋‹ฌ์„ฑ (๊ธฐ์ค€์„  Seed-Prover 1.5: 80%, +16ํฌ์ธํŠธ ํ–ฅ์ƒ)
    • ๋งค์นญ๋œ ๋ฌธ์žฅ ์กฐ๊ฑด์—์„œ Stage 2์˜ 100% PSR ๋‹ฌ์„ฑ (์ปดํŒŒ์ผ๋œ ํ”„๋กœ์ ํŠธ ๋‚ด)

How

Figure 4: ์›Œํฌํ”Œ๋กœ์šฐ ๋Šฅ๋ ฅ ์„ ์–ธ(Verifier-in-the-loop ํŒŒ์ดํ”„๋ผ์ธ)

Stage 1: ๋ฌธ์žฅ ์ปดํŒŒ์ผ(Statement Compilation)

Stage 2: ์ฆ๋ช… ์ˆ˜๋ฆฌ(Proof Repair)

VeriRefine ์›์‹œ (๊ณตํ†ต)

```

Edit Propose โ†’ VerifyFile โ†’ {

if (err(ฮ”) < err(ฮ”_prev)) or (compiled && goal reduced):

Commit

else:

Revert

}

```

Originality

Limitation & Further Study

ํ•œ๊ณ„

ํ›„์† ์—ฐ๊ตฌ

Evaluation

Novelty: 5/5 Technical Soundness: 4.5/5 Significance: 5/5 Clarity: 4/5 Overall: 4.5/5

์ดํ‰: M2F๋Š” ์ž๋™ ํ˜•์‹ํ™” ๋ถ„์•ผ์˜ ํŒจ๋Ÿฌ๋‹ค์ž„ ์ „ํ™˜์„ ์‹œ๋„ํ•˜๋Š” ๋…ผ๋ฌธ์ด๋‹ค. ๊ธฐ์กด์˜ ๊ณ ๋ฆฝ๋œ ์ฆ๋ช… ํƒ์ƒ‰์—์„œ ๋ฒ—์–ด๋‚˜ ํ”„๋กœ์ ํŠธ ๊ทœ๋ชจ์˜ ๊ตฌ์กฐ ๋ฌธ์ œ(์˜์กด์„ฑ, ์ž„ํฌํŠธ, ํƒ€์ž… ์•ˆ์ •์„ฑ)๋ฅผ ๊ฒ€์ฆ์ž ํ”ผ๋“œ๋ฐฑ ๋ฃจํ”„๋กœ ํ•ด๊ฒฐํ•˜๋Š” VeriRefine ์›์‹œ๋Š” ์ฐฝ์˜์ ์ด๋ฉฐ, 153K ์ค„์˜ ์™„์ „ ์ปดํŒŒ์ผ ๊ฐ€๋Šฅํ•œ Lean ์ฝ”๋“œ ์ƒ์„ฑ์€ ํ•™์ˆ  ๊ธฐ์ค€์„ ํฌ๊ฒŒ ์ƒํšŒํ•œ๋‹ค. ๋‹ค๋งŒ ๊ณ ์ • ํ™˜๊ฒฝ ์˜์กด์„ฑ, ์ˆœํ™˜ ์˜์กด์„ฑ ๋ฏธ์ฒ˜๋ฆฌ, ๋น„์ •ํ˜• ์›๋ฌธ ๊ฒฌ๊ฑด์„ฑ ๋“ฑ์ด ํ•œ๊ณ„๋กœ ๋‚จ์•„ ์žˆ์–ด, ์™„์ „ํ•œ ์‚ฐ์—… ๋ฐฐํฌ๊นŒ์ง€๋Š” ์ถ”๊ฐ€ ์ž‘์—…์ด ํ•„์š”ํ•˜๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
GPT-f๋Š” ์‹ ๊ฒฝ๋ง ๊ธฐ๋ฐ˜ ์ •๋ฆฌ ์ฆ๋ช…์˜ ์ตœ์ดˆ ์‹œ๋„๋กœ, M2F์˜ LLM ๊ธฐ๋ฐ˜ ์ž๋™ ํ˜•์‹ํ™” ํ”„๋ ˆ์ž„์›Œํฌ์˜ ์ด๋ก ์  ๊ธฐ๋ฐ˜์ด ๋œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Lean-star ๋…ผ๋ฌธ์€ Lean ๊ธฐ๋ฐ˜ ์ถ”๋ก ยท์ฆ๋ช… LLM์˜ ์‹œ์ดˆ์  ์—ฐ๊ตฌ๋กœ, ๋Œ€๊ทœ๋ชจ ์ž๋™ ํ˜•์‹ํ™” ํ”„๋ ˆ์ž„์›Œํฌ(M2F)์˜ ๊ทผ๊ฐ„์ด ๋˜๋Š” ๋ฐฉ๋ฒ•๋ก ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
์ˆ˜์น˜์ -๊ธฐํ˜ธ์  ์ˆ˜์‹ ๋ฐœ๊ฒฌ์„ ์œ„ํ•œ ๊ธฐ๋ฒ•(๋น„์ •ํ˜•/ํ˜•์‹์  ํ•ด์„)๊ณผ formalization ์ ‘๊ทผ๋ฒ•์„ ๊ฐ™์ด ๋ณด๋ฉด ์ˆ˜ํ•™ ์ž๋™ํ™”์˜ ์ „์ฒด ํ๋ฆ„์„ ์ดํ•ดํ•˜๊ธฐ ์ข‹์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
miniF2F๋Š” ์—ฌ๋Ÿฌ ํ˜•์‹ ์‹œ์Šคํ…œ์˜ ํ‘œ์ค€ ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ๊ณตํ•˜์—ฌ, M2F์˜ ๋Œ€๊ทœ๋ชจ ์ž๋™ ํ˜•์‹ํ™” ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ๋ฐ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ๋Š” ๋Œ€์•ˆ์  ํ‰๊ฐ€ ์ฒด๊ณ„๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Draft-Sketch-Prove๋Š” LLM์ด ํ˜•์‹ ์ฆ๋ช…์„ ์•ˆ๋‚ดํ•˜๋Š” ๋ฐฉ๋ฒ•๋ก ์œผ๋กœ, M2F์˜ ์ž๋™ ํ˜•์‹ํ™” ์ ‘๊ทผ๊ณผ ๋‹ค๋ฅธ ๋ฐฉ์‹์œผ๋กœ ํ˜•์‹ ์ˆ˜ํ•™ ์ž๋™ํ™”๋ฅผ ์ถ”๊ตฌํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
M2F ๋…ผ๋ฌธ์€ MUSTARD์™€ ์œ ์‚ฌํ•˜๊ฒŒ ์ˆ˜ํ•™ ์ •๋ฆฌ ์ž๋™ ์ƒ์„ฑ ๋ฐ ํ˜•์‹์ฆ๋ช… ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ•์— ์ดˆ์ ์„ ๋‘” ๋Œ€์ฒด ์ ‘๊ทผ๋ฒ•์ž…๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ˆ˜ํ•™ ์ž๋™ ํ˜•์‹ํ™”(Lean, Quantitative analysis)์— ๋Œ€ํ•ด ๋‹ค๋ฅธ ์—์ด์ „ํŠธ ํ”„๋ ˆ์ž„์›Œํฌ(MerLean)๋ฅผ ์†Œ๊ฐœํ•˜๋ฉฐ, ์ž๋™ํ™” ํŒจ๋Ÿฌ๋‹ค์ž„์„ ๋น„๊ตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
M2F๋Š” ์ˆ˜ํ•™ ๋ฌธํ—Œ์„ Lean์œผ๋กœ ์ž๋™ ํ˜•์‹ํ™”ํ•˜๋Š” ์—์ด์ „ํŠธ ํ”„๋ ˆ์ž„์›Œํฌ๋กœ, GPT-f์˜ ์‹ ๊ฒฝ ์ •๋ฆฌ ์ฆ๋ช…์„ ๋Œ€๊ทœ๋ชจ ์ž๋™ ํ˜•์‹ํ™”๋กœ ํ™•์žฅํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
M2F๋Š” miniF2F์˜ ํ‰๊ฐ€ ์ฒด๊ณ„๋ฅผ ๋„˜์–ด ๊ต๊ณผ์„œ ๊ทœ๋ชจ์˜ ์ˆ˜ํ•™ ๋ฌธํ—Œ์„ ์ž๋™ ํ˜•์‹ํ™”ํ•˜๋Š” ์‹ค์šฉ์  ํ™•์žฅ์„ ์ œ์‹œํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
513๋ฒˆ ๋…ผ๋ฌธ์€ ์ˆ˜ํ•™์  ๋ฌธํ—Œ์˜ ์ž๋™ ํ˜•์‹ํ™”๋ผ๋Š” ์‹ค์งˆ์  ์‘์šฉ์„ ๋‹ค๋ฃจ๋ฏ€๋กœ 030์˜ ์ด๋ก ์ ยท๊ธฐ๋ฒ• ์„œ๋ฒ ์ด์™€ ์—ฐ๊ณ„ํ•ด ์‹ค์ œ ์˜คํ”ˆ ๋ฌธ์ œ๋กœ์˜ ํ™•์žฅ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
M2F๋Š” ์ˆ˜ํ•™์  ๋ฌธํ—Œ์˜ ์ž๋™ ํ˜•์‹ํ™” ๋ฐ ์ •๋ฆฌ-์ฆ๋ช… ๋Œ€์‘์„ ๋‹ค๋ฃจ์–ด Pelican์˜ ์ฆ๋ช… ์˜ค๋ฅ˜ ์ˆ˜์ • ํ”„๋ ˆ์ž„์›Œํฌ์— ์‹ค์งˆ์  ํ™•์žฅ ๊ฐ€๋Šฅ์„ฑ์„ ์ค€๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
์ˆ˜ํ•™ ๋…ผ๋ฌธ ์ž๋™ ์ •ํ˜•ํ™”์™€ ์˜์ƒ ๊ธฐ๋ฐ˜ ์„ค๋ช… ์ƒ์„ฑ์˜ ์œตํ•ฉ ์—ฐ๊ตฌ ๊ฐ€๋Šฅ์„ฑ์„ ํƒ€์ง„ํ•  ์ˆ˜ ์žˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •