Decomposing the enigma: Subgoal-based demonstration learning for formal theorem proving

์ €์ž: Xueliang Zhao, Wenda Li, Lingpeng Kong | ๋‚ ์งœ: 2023 | DOI: 10.48550/arXiv.2305.16366 📄 PDF


Essence

Figure 1

๊ทธ๋ฆผ 1: ์™ผ์ชฝ์€ ๋น„ํ˜•์‹์  ์ฆ๋ช…๊ณผ ๋ถ€๋ถ„๋ชฉํ‘œ ๊ธฐ๋ฐ˜ ์ฆ๋ช…์˜ ์˜ˆ์‹œ, ์˜ค๋ฅธ์ชฝ์€ ํ™•์‚ฐ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•œ ์‹œ์—ฐ ์˜ˆ์ œ์˜ ์ตœ์  ๋ถ€๋ถ„์ง‘ํ•ฉ๊ณผ ์ˆœ์„œ ๊ฒฐ์ •

๋Œ€ํ˜• ์–ธ์–ด ๋ชจ๋ธ(LLM)์„ ํ˜•์‹ ์ •๋ฆฌ ์ฆ๋ช…(formal theorem proving)์— ํ™œ์šฉํ•  ๋•Œ, ์‹œ์—ฐ ์˜ˆ์ œ์˜ ๊ตฌ์กฐํ™”์™€ ์กฐ์งํ™” ๋ฐฉ์‹์„ ๊ฐœ์„ ํ•จ์œผ๋กœ์จ ์ฆ๋ช… ์„ฑ๊ณต๋ฅ ์„ 38.9%์—์„œ 45.5%๋กœ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ๋ถ€๋ถ„๋ชฉํ‘œ ๊ธฐ๋ฐ˜ ํ•™์Šต ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•œ๋‹ค.

Motivation

Achievement

Figure 2

๊ทธ๋ฆผ 2: miniF2F-test์—์„œ ๋ฌธ์ œ ํ•ด๊ฒฐ ์ˆ˜ vs LLM ํ˜ธ์ถœ ํšŸ์ˆ˜

  1. ์„ฑ๋Šฅ ํ–ฅ์ƒ: miniF2F ๋ฒค์น˜๋งˆํฌ์—์„œ 45.5% ํ†ต๊ณผ์œจ ๋‹ฌ์„ฑ (์ด์ „ SOTA 38.5% ๋Œ€๋น„ 6.6% ์ ˆ๋Œ€ ๊ฐœ์„ , 17.0% ์ƒ๋Œ€ ๊ฐœ์„ )
  2. ์ƒ˜ํ”Œ๋ง ํšจ์œจ 5๋ฐฐ ํ–ฅ์ƒ: ํ™•์‚ฐ ๋ชจ๋ธ์„ ํ†ตํ•œ ์‹œ์—ฐ ์กฐ์งํ™”๋กœ ์ด์ „ SOTA ์ˆ˜์ค€(38.5%)์„ 100ํšŒ ๋Œ€์‹  20ํšŒ์˜ LLM ํ˜ธ์ถœ๋กœ ๋‹ฌ์„ฑ

How

Figure 3

๊ทธ๋ฆผ 3: ์ œ์•ˆ๋œ ๋ฐฉ๋ฒ•์œผ๋กœ ์ƒ์„ฑํ•œ ํ˜•์‹ ์Šค์ผ€์น˜

๋ถ€๋ถ„๋ชฉํ‘œ ๊ธฐ๋ฐ˜ ์ฆ๋ช… ๊ตฌ์„ฑ:

ํ™•์‚ฐ ๋ชจ๋ธ ๊ธฐ๋ฐ˜ ์‹œ์—ฐ ์กฐ์งํ™”:

Originality

Limitation & Further Study

Evaluation

Novelty: 4.5/5 Technical Soundness: 4/5 Significance: 4.5/5 Clarity: 4/5 Overall: 4.2/5

์ดํ‰: ํ˜•์‹ ์ •๋ฆฌ ์ฆ๋ช…์—์„œ LLM์˜ ํšจ์œจ์„ฑ์„ ๋†’์ด๊ธฐ ์œ„ํ•ด ๋ถ€๋ถ„๋ชฉํ‘œ ๋ถ„ํ•ด์™€ ํ™•์‚ฐ ๋ชจ๋ธ ๊ธฐ๋ฐ˜ ์‹œ์—ฐ ์กฐ์งํ™”๋ผ๋Š” ๋‘ ๊ฐ€์ง€ ์ฐฝ์˜์  ์ ‘๊ทผ์„ ๊ฒฐํ•ฉํ•œ ์šฐ์ˆ˜ํ•œ ์—ฐ๊ตฌ์ด๋‹ค. ์‹ค์ฆ์  ์„ฑ๊ณผ(45.5%)๊ฐ€ ์˜๋ฏธ ์žˆ์œผ๋ฉฐ, ๋ฐ˜๋ณต์  ๊ฒ€์ฆ ๊ธฐ๋ฐ˜์˜ ๋ถ€๋ถ„๋ชฉํ‘œ ์ •์ œ ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ์ž๋™ํ™” ์ˆ˜์ค€์„ ๋†’์ธ ์ ์ด ์ธ์ •๋œ๋‹ค. ๋‹ค๋งŒ ์ดˆ๊ธฐ ๋ถ€๋ถ„๋ชฉํ‘œ์˜ ์ˆ˜๋™ ๊ตฌ์„ฑ, ํ™•์‚ฐ ๋ชจ๋ธ ํ•™์Šต ๋ฐ์ดํ„ฐ์˜ ์ œ์•ฝ์„ฑ, ๊ทธ๋ฆฌ๊ณ  miniF2F์— ๊ตญํ•œ๋œ ํ‰๊ฐ€๋Š” ์ผ๋ฐ˜ํ™” ๊ฐ€๋Šฅ์„ฑ์— ๋Œ€ํ•œ ์˜๋ฌธ์„ ๋‚จ๊ธด๋‹ค. ์ถ”๊ฐ€๋กœ ํ™•์‚ฐ ๋ชจ๋ธ์˜ ์˜์‚ฌ๊ฒฐ์ • ์›๋ฆฌ์— ๋Œ€ํ•œ ์‹ฌ์ธต ๋ถ„์„๊ณผ ๋‹ค์–‘ํ•œ ์ •๋ฆฌ ์ฆ๋ช… ํ™˜๊ฒฝ์œผ๋กœ์˜ ํ™•์žฅ์ด ํ–ฅํ›„ ์—ฐ๊ตฌ๋กœ ๊ธฐ๋Œ€๋œ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๋ถ€๋ถ„๋ชฉํ‘œ ๊ธฐ๋ฐ˜ ์ฆ๋ช… ํ”„๋ ˆ์ž„์›Œํฌ ๋…ผ์˜๋Š”, ์‹ ๊ฒฝ ์ •๋ฆฌ ์ฆ๋ช…์—์„œ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ์™€ ๊ธฐ์ˆ  ์žฌ์‚ฌ์šฉ ๊ตฌ์กฐ ์„ค๊ณ„์— ํ† ๋Œ€๋ฅผ ์ œ๊ณตํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Generative language modeling for automated theorem proving ๋…ผ๋ฌธ์€ ์ƒ์„ฑ์  ์–ธ์–ด๋ชจ๋ธ ๊ธฐ๋ฐ˜ ์ฆ๋ช… ๋ฐฉ๋ฒ•์„ ์ œ์‹œํ•˜์—ฌ ๋ถ€๋ถ„๋ชฉํ‘œ ๊ธฐ๋ฐ˜ LLM ์ฆ๋ช… ํ•™์Šต๊ณผ ๋Œ€๋น„๋ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Draft, sketch, and prove๋Š” LLM ๊ธฐ๋ฐ˜์˜ ์ž๋™ ์ •๋ฆฌ ์ฆ๋ช… ์ง€์› ๋ฐฉ๋ฒ• ์ค‘ ์„œ์ˆ ์  ๋ณตํ•ฉ ์‹œ์—ฐ ๋ฐฉ์‹์— ์ง‘์ค‘ํ•˜๋ฉฐ, ๋ถ€๋ถ„๋ชฉํ‘œ ๊ธฐ๋ฐ˜ ์ฆ๋ช…๊ณผ์˜ ๋น„๊ต๊ฐ€ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM ๊ธฐ๋ฐ˜ ๊ณผํ•™ ๋ฐฉ์ •์‹ ๋ฐœ๊ฒฌ์—์„œ ๋ฐ์ดํ„ฐ์™€ ์ธ๊ฐ„ ๊ฒฝํ—˜์˜ ๊ฒฐํ•ฉ์  ์ถ”๋ก  ๋ฐฉ์‹์„ ์ ์šฉํ•˜์—ฌ ํ˜•์‹ ์ฆ๋ช… ๋„๋ฉ”์ธ ํ•™์Šต์˜ ๋Œ€์กฐ์  ์ ‘๊ทผ๋ฒ•์„ ๋ณด์—ฌ์ค€๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
๋ณด์กฐ์ •๋ฆฌ ๋ฐ ๊ธฐ์ˆ (skill) ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ ํ™œ์šฉ์„ ์ œ์‹œํ•˜๋Š” Lego-Prover ๋…ผ๋ฌธ์€, ๋ถ€๋ถ„๋ชฉํ‘œ ๊ธฐ๋ฐ˜ ์ฆ๋ช… ํ•™์Šต ํ”„๋ ˆ์ž„์›Œํฌ์™€ ์ง์ ‘ ์—ฐ๊ณ„๋œ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
Lean-star๋Š” ์ฆ๋ช… ์ค‘ ์‚ฌ๊ณ -ํ–‰๋™(interleaving) ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ์ค‘์‹ฌ์œผ๋กœ ํ•˜์—ฌ, ๋ถ€๋ถ„๋ชฉํ‘œ ํ•™์Šต์ด ์‹ค์ œ ์ •๋ฆฌ ์ฆ๋ช… ์„ฑ๊ณต๋ฅ ์— ๋ผ์น˜๋Š” ์˜ํ–ฅ์„ ์‹ค์ฆ์ ์œผ๋กœ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •