Proving Theorems Recursively

์ €์ž: Haiming Wang, Huajian Xin, Zhengying Liu, Wenda Li, Yinya Huang, Jianqiao Lu, Zhicheng Yang, Jing Tang, Jian Yin, Zhenguo Li, Xiaodan Liang | ๋‚ ์งœ: 2024 | DOI: arXiv:2405.14414 📄 PDF


Essence

Figure 1

๊ทธ๋ฆผ 1: ๋‹จ๊ณ„์  ์ฆ๋ช…๊ณผ ์žฌ๊ท€์  ์ฆ๋ช…์˜ ๋น„๊ต. (a) ๋‹จ๊ณ„์  ์ ‘๊ทผ์€ ์ฆ๋ช…์˜ ๊ณ„์ธต ๊ตฌ์กฐ๋ฅผ ๋ฌด์‹œํ•˜๊ณ  ์ฆ๋ช… ๋‹จ๊ณ„๋“ค์˜ ์‹œํ€€์Šค๋กœ๋งŒ ์ทจ๊ธ‰. (b) ์žฌ๊ท€์  ์ฆ๋ช…์€ ๊ฒ€์ฆ ๊ฐ€๋Šฅํ•œ ์ฆ๋ช… ์Šค์ผ€์น˜๋ฅผ ์—ฌ๋Ÿฌ ๋ ˆ๋ฒจ๋กœ ๋ถ„ํ•ดํ•˜์—ฌ ๋‹จ๊ณ„๋ณ„๋กœ ์ค‘๊ฐ„ ๋ช…์ œ ์ฆ๋ช…์„ ๋ฏธ๋ฃจ๋Š” ๋ฐฉ์‹์œผ๋กœ ์ง„ํ–‰.

์‹ ๊ฒฝ๋ง ๊ธฐ๋ฐ˜ ์ž๋™ ์ •๋ฆฌ ์ฆ๋ช…(automated theorem proving)์—์„œ ๊ธฐ์กด์˜ ๋‹จ๊ณ„์ (step-by-step) ํƒ์ƒ‰ ๋ฐฉ์‹์˜ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๊ธฐ ์œ„ํ•ด, ๋ณธ ๋…ผ๋ฌธ์€ POETRY(PrOvE Theorems RecursivelY)๋ฅผ ์ œ์•ˆํ•œ๋‹ค. ์ด๋Š” Isabelle ์ •๋ฆฌ ์ฆ๋ช…๊ธฐ์—์„œ ์žฌ๊ท€์ ์ด๊ณ  ๊ณ„์ธต์  ์ ‘๊ทผ์„ ํ†ตํ•ด ์ฆ๋ช…์„ ๋‹จ๊ณ„์ ์œผ๋กœ ๊ตฌ์„ฑํ•˜๋Š” ๋ฐฉ๋ฒ•์œผ๋กœ, ์ค‘๊ฐ„ ๋ช…์ œ๋“ค์˜ ์ฆ๋ช…์„ sorry ํ”Œ๋ ˆ์ด์Šคํ™€๋”๋กœ ๋ฏธ๋ฃจ๊ณ  ๋” ๊นŠ์€ ๋ ˆ๋ฒจ์—์„œ ํ•ด๊ฒฐํ•˜๋Š” ๋ฐฉ์‹์ด๋‹ค.

Motivation

Achievement

Figure 3

๊ทธ๋ฆผ 3: POETRY์™€ GPT-f ๊ธฐ์ค€์„  ๊ฐ„ ์ฆ๋ช… ๊ธธ์ด ๋น„๊ต. y์ถ•์€ ๋กœ๊ทธ ์Šค์ผ€์ผ๋กœ ํ‘œ์‹œ.

  1. ์ •๋Ÿ‰์  ์„ฑ๋Šฅ ํ–ฅ์ƒ: miniF2F ๋ฐ์ดํ„ฐ์…‹์—์„œ ํ‰๊ท  5.1% ์ ˆ๋Œ€ ๊ฐœ์„ ์œจ ๋‹ฌ์„ฑ (42.2% ํ†ต๊ณผ์œจ), PISA ๋ฐ์ดํ„ฐ์…‹์—์„œ ์žฌ๊ท€์  ์ฆ๋ช…์„ ํ†ตํ•ด ๋‹จ๊ณ„์  ๊ธฐ์ค€์„  ๋Œ€๋น„ 3.9% ์ ˆ๋Œ€ ๊ฐœ์„ .
  2. ์ฆ๋ช… ๊ธธ์ด ๋Œ€ํญ ํ™•์žฅ: ์ตœ๋Œ€ ์ฆ๋ช… ๊ธธ์ด๊ฐ€ ๋‹จ๊ณ„์  ๋ฐฉ์‹์˜ 10๋‹จ๊ณ„์—์„œ 262๋‹จ๊ณ„๋กœ ์ฆ๊ฐ€ (miniF2F ๊ธฐ์ค€), PISA์—์„œ๋„ 26๋‹จ๊ณ„๋กœ ํ™•์žฅ. ์ด๋Š” ๋” ๋ณต์žกํ•œ ์ •๋ฆฌ๋“ค์„ ์ฆ๋ช…ํ•  ์ˆ˜ ์žˆ์Œ์„ ์‹œ์‚ฌ.
  3. ์žฌ๊ท€์  ๊ตฌ์กฐ์˜ ์ด์ : ๊ฑฐ์ง“ ์ค‘๊ฐ„ ๋ช…์ œ๋ฅผ ํฌํ•จํ•œ ๊ฒ€์ฆ๋œ ์Šค์ผ€์น˜๋„ ๋‹ค์Œ ๋ ˆ๋ฒจ์—์„œ ์ฆ๋ช… ๋ถˆ๊ฐ€๋Šฅํ•  ๋•Œ ์ƒˆ๋กœ์šด ์Šค์ผ€์น˜ ํƒ์ƒ‰์œผ๋กœ ์ž๋™ ๋ณด์ •๋˜์–ด, ๊ฐ•๊ฑดํ•œ ํƒ์ƒ‰ ํ”„๋ ˆ์ž„์›Œํฌ ๊ตฌ์„ฑ.

How

Figure 2

๊ทธ๋ฆผ 2: ์žฌ๊ท€์  BFS(Best-First Search) ํƒ์ƒ‰์˜ ์ƒ์„ธ ์˜ˆ์‹œ. ์ฆ๋ช… ํŠธ๋ฆฌ์˜ ๊ฐ ๋…ธ๋“œ๋Š” ์ฆ๋ช… ์ƒํƒœ(proof state)๋ฅผ ๋‚˜ํƒ€๋ƒ„.

Originality

Limitation & Further Study

Evaluation

์ดํ‰: POETRY๋Š” ํ˜•์‹ ์ฆ๋ช…์˜ ์ž์—ฐ์Šค๋Ÿฌ์šด ๊ณ„์ธต ๊ตฌ์กฐ๋ฅผ ์ฒ˜์Œ ์ฒด๊ณ„์ ์œผ๋กœ ํ™œ์šฉํ•˜์—ฌ ๊ทผ์‹œ์•ˆ์  ๋‹จ๊ณ„์  ํƒ์ƒ‰์˜ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•œ ์ฐฝ์˜์  ๋ฐฉ๋ฒ•์ด๋‹ค. ํŠนํžˆ ์ฆ๋ช… ๊ธธ์ด ํ™•์žฅ๊ณผ SOTA ์„ฑ๋Šฅ ๋‹ฌ์„ฑ์€ ์ฃผ๋ชฉํ•  ๋งŒํ•˜๋‚˜, ๊ฑฐ์ง“ ๋ช…์ œ ์‚ฌ์ „ ๊ฒ€์ฆ ๋ถ€์žฌ, ๊ณ„์‚ฐ ๋น„์šฉ ๋ถ„์„ ๋ฏธํก, Isabelle ์˜์กด์„ฑ ๋“ฑ์˜ ํ•œ๊ณ„๊ฐ€ ์žˆ์œผ๋ฉฐ, ๋‹ค๋ฅธ ํ˜•์‹ ํ™˜๊ฒฝ์œผ๋กœ์˜ ์ผ๋ฐ˜์„ฑ ์ž…์ฆ์ด ํ•„์š”ํ•˜๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
์ž๋™ ์ •๋ฆฌ ์ฆ๋ช… ๋ถ„์•ผ์˜ ์ƒ์„ฑ์  ์–ธ์–ด ๋ชจ๋ธ ์ ‘๊ทผ ๋…ผ๋ฌธ์€ POETRY์˜ ๋„คํŠธ์›Œํฌ ๊ธฐ๋ฐ˜ ์ฆ๋ช… ๋ฐฉ์‹์˜ ๋ฐฐ๊ฒฝ์ด ๋˜๋Š” ์—ฐ๊ตฌ์ž…๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Think-verify-interleaving ์ฆ๋ช… ๋ฐฉ๋ฒ•์˜ ํ™•์žฅ์ด ์žฌ๊ท€์  ์ฆ๋ช… ๊ตฌ์„ฑ ๋ฐฉ์‹๊ณผ ์—ฐ๊ฒฐ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๋”ฅ๋Ÿฌ๋‹ ๊ธฐ๋ฐ˜ ์ •๋ฆฌ ์ฆ๋ช… ์„œ๋ฒ ์ด ๋…ผ๋ฌธ์œผ๋กœ, POETRY์™€ ๊ฐ™์€ ์ƒˆ๋กœ์šด ์ฆ๋ช… ์‹œ์Šคํ…œ์˜ ์ด๋ก ์  ๊ธฐ๋ฐ˜์„ ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
POETRY์˜ ์ž๋™ ์ •๋ฆฌ ์ฆ๋ช… ๋ฐฉ์‹์ด Aletheia์˜ ์ž์œจ ์ˆ˜ํ•™ ํƒ๊ตฌ AI์˜ ์ˆ˜ํ•™์  ์ฆ๋ช… ๋Šฅ๋ ฅ์˜ ์ด๋ก ์  ๊ธฐ๋ฐ˜์„ ํ˜•์„ฑํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Lego-prover๋Š” ์‹ ๊ฒฝ๋ง ์ •๋ฆฌ ์ฆ๋ช… ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋ฅผ ํ†ตํ•œ ์ ‘๊ทผ๋ฒ•์„ ์ œ์‹œํ•˜์—ฌ ๊ณ„์ธต์ /์žฌ๊ท€์  ์ฆ๋ช… ํƒ์ƒ‰๊ณผ ๋‹ค๋ฅธ ๋Œ€์•ˆ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Deepseek-prover ๋…ผ๋ฌธ์€ step-by-step ํƒ์ƒ‰ ๋ฐฉ์‹์˜ ํ•œ๊ณ„๋ฅผ ๋…ผ์˜ํ•˜๋ฉฐ, POETRY์˜ ์žฌ๊ท€์  ์ฆ๋ช… ๋ฐฉ์‹๊ณผ ๋ชจ๋ธ๋ง ์ฐจ์ด๊ฐ€ ํฝ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
์ž์œจ ์ˆ˜ํ•™ ์—ฐ๊ตฌ AI(Aletheia)๋ฅผ ํ†ตํ•ด ์ž๋™ ์ •๋ฆฌ ์ฆ๋ช… ๋ชจ๋ธ์˜ ์‹ค์งˆ์  ์—ฐ๊ตฌ ์‘์šฉ์ด ํ™•์žฅ๋ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
์ˆ˜ํ•™ยท๋ฌผ๋ฆฌยท์ปดํ“จํ„ฐ ๋ถ„์•ผ ์‹ค์ œ ์ •๋ฆฌ-๋ฌธ์ œ-๋‹ต๋ณ€ ์ž๋ฃŒ๊ฐ€ ์žฌ๊ท€์  ์ž๋™ ์ฆ๋ช… ์‹คํ—˜์˜ ๋ฒค์น˜๋งˆํฌ๋กœ ์“ฐ์ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •