Mustard: Mastering uniform synthesis of theorem and proof data

์ €์ž: Yinya Huang, Xiaohan Lin, Zhengying Liu, Qingxing Cao, Huajian Xin, Haiming Wang, Zhenguo Li, Linqi Song, Xiaodan Liang | ๋‚ ์งœ: 2024 | DOI: ๋ฏธ์ œ๊ณต 📄 PDF


Essence

Figure 1

๋‹ค์–‘ํ•œ ์ค‘๊ฐ„ ์ถ”๋ก  ๋‹จ๊ณ„ ์ƒ์„ฑ ๋ฐ ๊ฒ€์ฆ ๋ฐฉ๋ฒ• ๋น„๊ต

๋ณธ ๋…ผ๋ฌธ์€ ๋Œ€๊ทœ๋ชจ์–ธ์–ด๋ชจ๋ธ(LLM)๊ณผ ํ˜•์‹ ์ •๋ฆฌ ์ฆ๋ช…๊ธฐ(formal theorem prover)์˜ ์ƒํ˜ธ์ž‘์šฉ์„ ํ†ตํ•ด ๊ณ ํ’ˆ์งˆ์˜ ์ˆ˜ํ•™ ์ •๋ฆฌ์™€ ์ฆ๋ช… ๋ฐ์ดํ„ฐ๋ฅผ ๋Œ€๊ทœ๋ชจ๋กœ ์ƒ์„ฑํ•˜๋Š” MUSTARD ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•œ๋‹ค. ์ƒ์„ฑ๋œ 5,866๊ฐœ์˜ ๊ฒ€์ฆ๋œ ๋ฐ์ดํ„ฐ๋กœ ๊ตฌ์„ฑ๋œ MUSTARDSAUCE ๋ฒค์น˜๋งˆํฌ๋ฅผ ํ†ตํ•ด ๋ฏธ์„ธ์กฐ์ •๋œ ์–ธ์–ด๋ชจ๋ธ์˜ ์ˆ˜ํ•™์  ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ํ‰๊ท  15.41% ์ƒ๋Œ€์„ฑ๋Šฅ ํ–ฅ์ƒ์œผ๋กœ ์ž…์ฆํ•œ๋‹ค.

Motivation

Achievement

Figure 2

MUSTARD์˜ ์ „์ฒด ๊ตฌ์กฐ: ๊ฐœ๋… ์ƒ˜ํ”Œ๋ง โ†’ ์ฆ๋ช… ์ƒ์„ฑ โ†’ ํ˜•์‹ ๊ฒ€์ฆ

  1. ๋Œ€๊ทœ๋ชจ ๊ณ ํ’ˆ์งˆ ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ•: ๋น„๊ณต์‹ ์ •๋ฆฌ, ๋น„๊ณต์‹ ์ฆ๋ช…, ํ˜•์‹ ์ฆ๋ช…(Lean 3)์„ ํฌํ•จํ•œ 5,866๊ฐœ์˜ ๊ฒ€์ฆ๋œ ๋ฐ์ดํ„ฐํฌ์ธํŠธ๋กœ ๊ตฌ์„ฑ๋œ MUSTARDSAUCE ๋ฒค์น˜๋งˆํฌ ์ƒ์„ฑ. ๊ต์œก ์ˆ˜์ค€๋ณ„(์ดˆ๋“ฑ~๋Œ€ํ•™์›) ๋ฐ ์ˆ˜ํ•™ ์˜์—ญ๋ณ„ ๋‹ค์–‘์„ฑ ํ™•๋ณด
  2. ๋ฏธ์„ธ์กฐ์ • ์„ฑ๋Šฅ ํ–ฅ์ƒ: Llama 2-7B๋ฅผ MUSTARDSAUCE๋กœ ๋ฏธ์„ธ์กฐ์ •ํ–ˆ์„ ๋•Œ GSM8K์—์„œ 20.9% ์ œ๋กœ์ƒท ์„ฑ๋Šฅ ํ–ฅ์ƒ, mathlib์—์„œ 8.7% pass@1 ๋‹ฌ์„ฑ, ์ž๋™ ์ •๋ฆฌ ์ฆ๋ช…์—์„œ ํ‰๊ท  15.41% ์ƒ๋Œ€์„ฑ๋Šฅ ํ–ฅ์ƒ
  3. ๋ฐ์ดํ„ฐ ํ’ˆ์งˆ ๊ฒ€์ฆ: ํ˜•์‹ ์ฆ๋ช…๊ธฐ์˜ ๊ฒ€์ฆ์ด ์ธ๊ฐ„ ํ‰๊ฐ€์™€ ์ผ์น˜ํ•˜๋ฉฐ, ์ƒ์„ฑ๋œ ๋ฐ์ดํ„ฐ๋Š” ๋‘ ๊ฐœ์˜ ์„œ๋กœ ๋‹ค๋ฅธ ์ˆ˜ํ•™ ๊ฐœ๋…์„ ์ฐฝ์˜์ ์œผ๋กœ ๊ฒฐํ•ฉํ•˜์—ฌ ์˜๋ฏธ์žˆ๋Š” ๋ฌธ์ œ ์ƒ์„ฑ ํ™•์ธ

How

Figure 3

๋ฏธ์„ธ์กฐ์ •๋œ ๋ชจ๋ธ ์„ฑ๋Šฅ

1๋‹จ๊ณ„: ๊ฐœ๋… ์ƒ˜ํ”Œ๋ง (Concept Seeding)

2๋‹จ๊ณ„: ์ฆ๋ช… ์ƒ์„ฑ (Proof Generation)

3๋‹จ๊ณ„: ํ˜•์‹ ๊ฒ€์ฆ (Formal Validation)

Originality

Limitation & Further Study

Evaluation

์ดํ‰: MUSTARD๋Š” LLM๊ณผ ํ˜•์‹ ์ •๋ฆฌ ์ฆ๋ช…๊ธฐ์˜ ์ƒํ˜ธ์ž‘์šฉ์„ ํ†ตํ•ด ๋Œ€๊ทœ๋ชจ ๊ณ ํ’ˆ์งˆ ์ˆ˜ํ•™ ๋ฐ์ดํ„ฐ๋ฅผ ์ž๋™ ์ƒ์„ฑํ•˜๋Š” ํšจ๊ณผ์ ์ธ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์‹œํ•˜๋ฉฐ, ๊ณต๊ฐœ ๋ฒค์น˜๋งˆํฌ MUSTARDSAUCE์˜ ์‹ค์ œ ์„ฑ๋Šฅ ํ–ฅ์ƒ์œผ๋กœ ์‹ค์šฉ์„ฑ์„ ์ž…์ฆํ•œ ์šฐ์ˆ˜ํ•œ ๋…ผ๋ฌธ์ด๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
568๋ฒˆ ๋…ผ๋ฌธ์€ ์ˆ˜ํ•™ ์ •๋ฆฌ์™€ ์ฆ๋ช… ๋ฐ์ดํ„ฐ์˜ ๋Œ€๋Ÿ‰ ํ•ฉ์„ฑ ์‹œ์Šคํ…œ์„ ์†Œ๊ฐœํ•˜์—ฌ, 543๋ฒˆ์˜ ๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜ ์†”๋ฃจ์…˜ ์ œ์•ˆ ๋ฐ ์ž๋™ํ™”์— ํ•„์š”ํ•œ ๋ฐ์ดํ„ฐ ์šด์šฉ ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
LLM์„ ์ˆ˜ํ•™ ์ •๋ฆฌ ์ฆ๋ช… ๋ถ„์•ผ์— ๋„์ž…ํ•œ ์ดˆ๊ธฐ ์—ฐ๊ตฌ๋กœ, 568์˜ ์ฆ๋ช… ๋ฐ์ดํ„ฐ ์ƒ์„ฑ ๋ฐฉ์‹์— ์ด๋ก ์  ์˜๊ฐ์„ ์ค๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
MUSTARD์˜ ์ž๋™ ์ฆ๋ช… ํ•ฉ์„ฑยท๋ฐ์ดํ„ฐ ํ™•๋ณด ๋ฐฉ๋ฒ•๋ก ์ด Deepseek-prover์˜ ๋Œ€๊ทœ๋ชจ Lean ์ฆ๋ช… ์Œ ํ•ฉ์„ฑ๊ณผ LLM ๋ฏธ์„ธ์กฐ์ •์— ์ด๋ก ์  ๊ธฐ์ดˆ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
568์ด LLM๊ณผ ์ •๋ฆฌ ์ฆ๋ช…๊ธฐ์˜ ์ƒํ˜ธ์ž‘์šฉ ํ†ตํ•œ ์ž๋™ ์ฆ๋ช… ๋ฐ์ดํ„ฐ ํ•ฉ์„ฑ์„ ๊ฐ•์กฐํ•˜๋Š” ๋ฐ˜๋ฉด, 288์€ ๋น„ํ˜•์‹โ†’ํ˜•์‹ ์ฆ๋ช… ์ „ํ™˜์„ ํ†ตํ•œ ์ž๋™ ์ฆ๋ช… ์œ ๋„๋ฒ•์— ์ง‘์ค‘ํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
ํ˜•์‹ ์ˆ˜ํ•™ ๋ฌธ์ œ์™€ ์ •๋ฆฌ-์ฆ๋ช… ๋ฐ์ดํ„ฐ ์ƒ์„ฑ ๋ฐ ํ•ฉ์„ฑ ๋ฐฉ๋ฒ•์— ์ค‘์ ์„ ๋‘” ๋˜๋‹ค๋ฅธ ์–ดํ”„๋กœ์น˜.
๋‹ค๋ฅธ ์ ‘๊ทผ
030 ๋…ผ๋ฌธ์€ ๋”ฅ๋Ÿฌ๋‹ ๊ธฐ๋ฐ˜ ์ •๋ฆฌ ์ž๋™ ์ฆ๋ช…(ATP)์˜ ๋‹ค์–‘ํ•œ ์ ‘๊ทผ๊ณผ 568์˜ ๊ณ ์ฐจ๋…ผ๋ฆฌ ์ •๋ฆฌ/์ฆ๋ช… ๋ฐ์ดํ„ฐ ํ•ฉ์„ฑ ๋ฐฉ์‹์˜ ์ฐจ์ด๋ฅผ ๋น„๊ตํ•  ์ˆ˜ ์žˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM-SRBench๋Š” ๊ณผํ•™ ๋ฐฉ์ •์‹ ๋ฐœ๊ฒฌ์˜ ๋ฒค์น˜๋งˆํฌ, MUSTARD๋Š” ํ˜•์‹ ์ˆ˜ํ•™ ์ฆ๋ช… ๋ฐ์ดํ„ฐ ์ž๋™์ƒ์„ฑ์œผ๋กœ ์ˆ˜ํ•™์  reasoning ํ‰๊ฐ€ ๊ด€์ ์ด ๋‹ค๋ฅด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
M2F ๋…ผ๋ฌธ์€ MUSTARD์™€ ์œ ์‚ฌํ•˜๊ฒŒ ์ˆ˜ํ•™ ์ •๋ฆฌ ์ž๋™ ์ƒ์„ฑ ๋ฐ ํ˜•์‹์ฆ๋ช… ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ•์— ์ดˆ์ ์„ ๋‘” ๋Œ€์ฒด ์ ‘๊ทผ๋ฒ•์ž…๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Mustard ๋…ผ๋ฌธ์€ ๊ธฐ๊ณ„ ์ƒ์„ฑ ์ˆ˜ํ•™ ์ •๋ฆฌยท์ฆ๋ช… ๋ฐ์ดํ„ฐ ํ™•์žฅ ๋ฐ ๋ฒค์น˜๋งˆํฌ ๊ฐœ๋ฐœ๋กœ TheoremQA ๋ฐ์ดํ„ฐ์…‹์˜ ํ™œ์šฉ์„ฑ์„ ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
568์˜ ์ž๋™ ์ƒ์„ฑ ์ฆ๋ช… ๋ฐ์ดํ„ฐ ์ƒ์‚ฐ ํ”„๋ ˆ์ž„์›Œํฌ(MUSTARD)๋ฅผ, 264๊ฐ€ ๋Œ€๊ทœ๋ชจ Lean 4 ์ฆ๋ช… ์Œ ํ•ฉ์„ฑยทLLM ๋ฏธ์„ธ์กฐ์ • ๋“ฑ์œผ๋กœ ์‘์šฉ/ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
251์ด ์ˆ˜ํ•™์  ์ฝ”ํŒŒ์ผ๋Ÿฟ ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์˜ ์ฆ๋ช… ๊ณผ์ • ๋‹ค์–‘ํ™” ํ•„์š”์„ฑ์„ ์ง€์ ํ•œ ํ˜„ ์งํ›„, 568์€ ์–‘์งˆ์˜ ์ฆ๋ช…/์ •๋ฆฌ ๋ฐ์ดํ„ฐ ๋ฒค์น˜๋งˆํฌ(MUSTARDSAUCE)๋กœ ์‹ค์งˆ์  ๋ณด์™„์„ ์‹œ๋„ํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Mustard์—์„œ๋Š” ๋‹ค์–‘ํ•œ ๊ณผํ•™ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ์ž‘์—…์˜ ์ผ๊ด€๋œ ์ž๋™ํ™”์™€ ํ‰๊ฐ€ ๋ฐฉ๋ฒ•์„ ๋ณด์—ฌ์ค˜ MooseAgent ๋ฐฉ์‹์˜ ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ์„ ํ™•์žฅํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
3372 ๋…ผ๋ฌธ์€ ์ˆ˜๋ฆฌ์  ๊ณต์‹์ฆ๋ช…์—์„œ AI ๊ธฐ๋ฐ˜ ํฌ๋ฉ€๋ฆฌ์ฆ˜ ํ™•์žฅ ์‚ฌ๋ก€๋ฅผ ์†Œ๊ฐœํ•˜๋ฉฐ, 568์—์„œ ์ƒ์„ฑ๋˜๋Š” ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹ ํ™œ์šฉ๋ฒ•๊ณผ ์—ฐ๊ฒฐ๋œ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
379๋Š” ์ž๋™ ์ฆ๋ช…์„ ์œ„ํ•œ ์ƒ์„ฑํ˜• ์–ธ์–ด ๋ชจ๋ธ๋ง์„ ๋‹ค๋ฃจ์–ด, 568์—์„œ ์ƒ์„ฑ๋œ ์ •๋ฆฌ/์ฆ๋ช… ๋ฐ์ดํ„ฐ๋ฅผ ์‹ค์ œ ๋ชจ๋ธ ํ•™์Šต์— ์–ด๋–ป๊ฒŒ ์ ์šฉํ•˜๋Š”์ง€ ๋ณด์—ฌ์ค€๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
TheoremQA ๋…ผ๋ฌธ์€ MUSTARD ๋“ฑ ์ž๋™ ์ƒ์‚ฐ๋œ ๋ฐ์ดํ„ฐ๋กœ ๋ฏธ์„ธ์กฐ์ •๋œ LLM์˜ ํ˜•์‹ ์ˆ˜ํ•™ ๋ฌธ์ œ ํ•ด๊ฒฐ ๋Šฅ๋ ฅ์„ ์‹ค์ œ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
MUSTARD ํ”„๋ ˆ์ž„์›Œํฌ๋Š” LLM ๊ธฐ๋ฐ˜์—์„œ ์ˆ˜ํ•™ ์ •๋ฆฌ์™€ ์ฆ๋ช… ๋ฐ์ดํ„ฐ ์ƒ์„ฑ์— ์ง‘์ค‘ํ•ด LLM์˜ ๊ณผํ•™์  ์ถ”๋ก  ๋Šฅ๋ ฅ ํ‰๊ฐ€์— ์‹ค์งˆ์  ์‚ฌ๋ก€๋กœ ์—ฐ๊ฒฐ๋œ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
AI Co-Mathematician ๋…ผ๋ฌธ์€ MUSTARD์—์„œ ๋‹ค๋ฃฌ LLM ๊ธฐ๋ฐ˜ ์ˆ˜ํ•™ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ์„ ์‹ค์ œ ์ˆ˜ํ•™์ž ์ง€์› ์‹œ์Šคํ…œ์— ์‘์šฉํ•œ ๊ตฌ์ฒด์  ์‚ฌ๋ก€๋ฅผ ์ œ์‹œํ•œ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •