Lego-prover: Neural theorem proving with growing libraries

์ €์ž: Huajian Xin, Haiming Wang, Chuanyang Zheng, Lin Li, Zhengying Liu, Qingxing Cao, Yinya Huang, Jing Xiong, Han Shi, Enze Xie, Jian Yin, Zhenguo Li, Xiaodan Liang, Heng Liao | ๋‚ ์งœ: 2023 | DOI: N/A 📄 PDF


Essence

Figure 1(a) and (b)

LEGO-Prover์˜ ๊ตฌ์กฐ: (a) Plain prover์™€์˜ ๋น„๊ต - LEGO-Prover๋Š” ๋ชจ๋“ˆ์‹ ์ฆ๋ช… ๊ตฌ์„ฑ, (b) ํ”„๋กœ๋ฒ„(Prover)์™€ ์—๋ณผ๋ฒ„(Evolver)๋กœ ์ด๋ฃจ์–ด์ง„ ์ „์ฒด ํ”„๋ ˆ์ž„์›Œํฌ

๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ(LLM)์„ ์ด์šฉํ•œ ์‹ ๊ฒฝ ์ •๋ฆฌ ์ฆ๋ช…(Neural Theorem Proving)์—์„œ ๊ฒ€์ฆ๋œ ๋ณด์กฐ์ •๋ฆฌ(lemma)๋ฅผ ์žฌ์‚ฌ์šฉ ๊ฐ€๋Šฅํ•œ ๊ธฐ์ˆ (skill)๋กœ ํ™œ์šฉํ•˜๋Š” ์„ฑ์žฅ ๊ฐ€๋Šฅํ•œ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋ฅผ ๋„์ž…ํ•จ์œผ๋กœ์จ, ๋ชจ๋“ˆ์‹ ์ฆ๋ช… ๊ตฌ์„ฑ์„ ํ†ตํ•ด ์ฆ๋ช… ๋Šฅ๋ ฅ์„ ๋Œ€ํญ ํ–ฅ์ƒ์‹œํ‚จ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด miniF2F ๋ฒค์น˜๋งˆํฌ์—์„œ ์ตœ์ฒจ๋‹จ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•˜๊ณ  22,532๊ฐœ์˜ ๊ฒ€์ฆ๋œ ๊ธฐ์ˆ ์„ ์ž๋™ ์ƒ์„ฑํ•œ๋‹ค.

Motivation

Achievement

Figure 3

์„ฑ์žฅํ•˜๋Š” ๊ธฐ์ˆ  ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ์˜ ํšจ๊ณผ: LEGO-Prover์˜ ์ฆ๋ช… ์„ฑ๊ณต๋ฅ  ๋ณ€ํ™”

  1. ๋ฒค์น˜๋งˆํฌ ์„ฑ๋Šฅ ํ–ฅ์ƒ: miniF2F-valid์—์„œ 48.0% โ†’ 57.0%, miniF2F-test์—์„œ 45.5% โ†’ 50.0%๋กœ ๊ธฐ์กด ์ตœ์ฒจ๋‹จ ๋Œ€๋น„ ํ‰๊ท  6.75% ์ ˆ๋Œ€ ๊ฐœ์„ 
  2. ๋Œ€๊ทœ๋ชจ ๊ธฐ์ˆ  ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ ์ž๋™ ๊ตฌ์„ฑ: ์ฆ๋ช… ๊ณผ์ • ์ค‘ 20,532๊ฐœ ์ด์ƒ์˜ ๊ฒ€์ฆ๋œ ๋ณด์กฐ์ •๋ฆฌ/์ •๋ฆฌ(skill) ์ž๋™ ์ƒ์„ฑ ๋ฐ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ ๊ตฌ์ถ•
  3. ๊ธฐ์ˆ  ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ์˜ ๊ฒ€์ฆ๋œ ํšจ๊ณผ: ๊ธฐ์ˆ  ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ ํ™œ์šฉ์— ๋”ฐ๋ฅธ ์„ฑ๊ณต๋ฅ  47.1% โ†’ 50.4% ๊ฐœ์„ ์„ ํ†ตํ•ด ์ƒˆ๋กœ ์ถ”๊ฐ€๋œ ๊ธฐ์ˆ ๋“ค์˜ ์‹ค์งˆ์  ์œ ์šฉ์„ฑ ์ž…์ฆ
  4. ์ฆ๋ช… ๊ฐ„๊ทน ๊ฐ์†Œ: ์ƒ์„ฑ๋œ ๊ธฐ์ˆ  ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๊ฐ€ ์ธ๊ฐ„ ์ฆ๋ช…๊ณผ ํ˜•์‹ ์ฆ๋ช…(formal proof) ๊ฐ„ ๊ฒฉ์ฐจ๋ฅผ ์™„ํ™”ํ•˜์—ฌ ๋ˆ„๋ฝ๋œ ๋‹จ๊ณ„ ์ถ”๋ก  ์šฉ์ด์„ฑ ํ–ฅ์ƒ

How

Figure 2

LEGO-Prover์˜ ์ž‘๋™ ํ๋ฆ„: (a) ํ”„๋กœ๋ฒ„์˜ 3๋‹จ๊ณ„ ์ฆ๋ช… ๊ณผ์ • (b) ์Šคํ‚ฌ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ์™€์˜ ์ƒํ˜ธ์ž‘์šฉ

1. ํ”„๋กœ๋ฒ„(Prover) ๋ชจ๋“ˆ:

2. ์—๋ณผ๋ฒ„(Evolver) ๋ชจ๋“ˆ:

3. ๊ธฐ์ˆ  ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ(Skill Library):

4. ๊ธฐ์ˆ  ํ™œ์šฉ ๋ฐฉ์‹:

Originality

Limitation & Further Study

Evaluation

์ดํ‰: LEGO-Prover๋Š” ์‹ ๊ฒฝ ์ •๋ฆฌ ์ฆ๋ช…์— ์„ฑ์žฅ ๊ฐ€๋Šฅํ•œ ๊ฒ€์ฆ๋œ ๋ณด์กฐ์ •๋ฆฌ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋ฅผ ๋„์ž…ํ•˜๋Š” ์ฐฝ์˜์  ์ ‘๊ทผ์œผ๋กœ ๋ช…ํ™•ํ•œ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๋‹ฌ์„ฑํ•˜์˜€์œผ๋ฉฐ, ์ƒ์„ฑ๋œ ๋Œ€๊ทœ๋ชจ ๊ธฐ์ˆ  ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ์˜ ์‹ค์šฉ์  ๊ฐ€์น˜๋ฅผ ์ž…์ฆํ–ˆ๋‹ค. ๋‹ค๋งŒ ๋” ๋ณต์žกํ•œ ์ˆ˜ํ•™ ๋ฌธ์ œ๋กœ์˜ ํ™•์žฅ์„ฑ๊ณผ ๊ณ„์‚ฐ ๋น„์šฉ ํšจ์œจ์„ฑ์— ๋Œ€ํ•œ ์ถ”๊ฐ€ ๊ฒ€์ฆ์ด ํ•„์š”ํ•˜๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
LLM ๊ธฐ๋ฐ˜ ์‹ ๊ฒฝ ์ •๋ฆฌ ์ฆ๋ช…์˜ ์ด๋ก ์  ๋ฐ ์‹คํ—˜์  ์„ฑ๊ณผ๋ฅผ ์‹ฌ์ธต์ ์œผ๋กœ ์ดํ•ดํ•˜๋Š”๋ฐ ๋„์›€์ด ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๋ถ€๋ถ„๋ชฉํ‘œ ๊ธฐ๋ฐ˜ ์ฆ๋ช… ํ”„๋ ˆ์ž„์›Œํฌ ๋…ผ์˜๋Š”, ์‹ ๊ฒฝ ์ •๋ฆฌ ์ฆ๋ช…์—์„œ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ์™€ ๊ธฐ์ˆ  ์žฌ์‚ฌ์šฉ ๊ตฌ์กฐ ์„ค๊ณ„์— ํ† ๋Œ€๋ฅผ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Autonomous microscopy experiments ๋…ผ๋ฌธ์€ ์ž๋™ํ™”๋œ ๊ณผํ•™ ์‹คํ—˜ ํ™˜๊ฒฝ์—์„œ LLM ํ™œ์šฉ ๊ตฌ์กฐ๋ฅผ ์ œ์‹œํ•˜๋ฉฐ, Lego-prover์˜ ์ฆ๋ช… ์ž๋™ํ™” ๊ธฐ์ˆ  ์ ์šฉ์˜ ๊ฐœ๋…์  ํ† ๋Œ€๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
486 ๋…ผ๋ฌธ์€ ์ง€์‹ ๊ทธ๋ž˜ํ”„ ๊ธฐ๋ฐ˜ ์ถ”๋ก ๊ณผ ๊ฒ€์ฆ์„ ์ˆ˜๋ฆฌ์ ์œผ๋กœ ์„ค๋ช…ํ•˜์—ฌ, 530 ๋…ผ๋ฌธ์—์„œ ์˜๋ฃŒ ์ง€์‹ ๊ทธ๋ž˜ํ”„ ์งˆ์˜์‘๋‹ต์— ์‘์šฉ๋  ์ˆ˜ ์žˆ๋Š” ์ด๋ก ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
31(Survey on Hypothesis Generation)์€ ์ฆ๋ช…์ž๋™ํ™”์™€ LLM ๊ธฐ๋ฐ˜ ์ˆ˜ํ•™ ํƒ๊ตฌ์— ๊ด€ํ•œ ์ตœ์‹  ์—ฐ๊ตฌ๋™ํ–ฅ์„ ํฌ๊ด„์ ์œผ๋กœ ์„œ์ˆ ํ•ด 486์˜ ๋ฐฐ๊ฒฝ์ง€์‹์œผ๋กœ ์ ํ•ฉํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ˆ˜์‹ formalization์—์„œ ์ž๋™ ์ƒ์„ฑ์„ ์œ„ํ•œ LLM ํ™œ์šฉ ์ „๋žต์„ ๋‹ค๋ฃจ๋ฏ€๋กœ ํ™•์žฅ์„ฑ๊ณผ ์ ‘๊ทผ๊ด€์ ์—์„œ ๋น„๊ตํ•  ์ˆ˜ ์žˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
482(Lean-star)์€ ์‹ ๊ฒฝ ์ •๋ฆฌ ์ฆ๋ช…์—์„œ ์‚ฌ๊ณ ์™€ ์ฆ๋ช…์˜ ๋ฐ˜๋ณต์  ๊ฒฐํ•ฉ์„ ๊ฐ•์กฐํ•จ์œผ๋กœ์จ, 486(Lego-prover)์˜ ๋ชจ๋“ˆ์‹ ์ฆ๋ช… ๋Šฅ๋ ฅ ํ–ฅ์ƒ์— ๋Œ€ํ•œ ๋‹ค๋ฅธ ์ „๋žต์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Lego-prover๋Š” ์‹ ๊ฒฝ๋ง ์ •๋ฆฌ ์ฆ๋ช… ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋ฅผ ํ†ตํ•œ ์ ‘๊ทผ๋ฒ•์„ ์ œ์‹œํ•˜์—ฌ ๊ณ„์ธต์ /์žฌ๊ท€์  ์ฆ๋ช… ํƒ์ƒ‰๊ณผ ๋‹ค๋ฅธ ๋Œ€์•ˆ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
SMT-LIB์™€ ๊ฐ™์€ ๋…ผ๋ฆฌ ํ”„๋กœ๊ทธ๋žจ ์ƒ์„ฑ์—์„œ LLM ํ™œ์šฉ์˜ ๋ถˆํ™•์‹ค์„ฑ ์ •๋Ÿ‰ํ™” ์ ‘๊ทผ๊ณผ ์‹ ๊ฒฝ ์ •๋ฆฌ ์ฆ๋ช…์˜ ๋ชจ๋“ˆ์‹ ํ™•์žฅ ํŒจ๋Ÿฌ๋‹ค์ž„์„ ๋น„๊ต ๋ถ„์„ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Lego-prover๋Š” ๋ฌธ์ œ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ ์„ฑ์žฅ์— ๋”ฐ๋ผ ์‹ ๊ฒฝ ์ฆ๋ช… ๋Šฅ๋ ฅ์ด ๊ฐœ์„ ๋˜๋Š” ๊ตฌ์กฐ๋ฅผ ์ œ์•ˆํ•ด, miniF2F์˜ ํ™•์žฅ ์œตํ•ฉ์„ ์‹œ๋„ํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
๋ณด์กฐ์ •๋ฆฌ ๋ฐ ๊ธฐ์ˆ (skill) ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ ํ™œ์šฉ์„ ์ œ์‹œํ•˜๋Š” Lego-Prover ๋…ผ๋ฌธ์€, ๋ถ€๋ถ„๋ชฉํ‘œ ๊ธฐ๋ฐ˜ ์ฆ๋ช… ํ•™์Šต ํ”„๋ ˆ์ž„์›Œํฌ์™€ ์ง์ ‘ ์—ฐ๊ณ„๋œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
๋‹จ๊ณ„์  ์ฆ๋ช…(think-verify-interleave) ์ตœ์ ํ™”๊ฐ€ ์ถ”๊ฐ€๋œ ์ตœ์‹  LLM ๊ธฐ๋ฐ˜ ์ •๋ฆฌ ์ฆ๋ช… ์‹œ์Šคํ…œ๊ณผ ์„ฑ๋Šฅ์„ ๋น„๊ตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
์ˆ˜ํ•™ ์ž๋™ํ™” ๋ฐ ์ฆ๋ช… ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ ํ™•์žฅ์— ์ดˆ์ ์„ ๋งž์ถ˜ ํ”„๋ ˆ์ž„์›Œํฌ๋กœ, Lego-prover์˜ ํ™œ์šฉ๋„์™€ ๋ฒ”์œ„ ํ™•์žฅ ์‚ฌ๋ก€์— ํ•ด๋‹นํ•ฉ๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •