Proving Theorems Recursively
์ ์: Haiming Wang, Huajian Xin, Zhengying Liu, Wenda Li, Yinya Huang, Jianqiao Lu, Zhicheng Yang, Jing Tang, Jian Yin, Zhenguo Li, Xiaodan Liang | ๋ ์ง: 2024 | DOI: arXiv:2405.14414 📄 PDF
Essence
๊ทธ๋ฆผ 1: ๋จ๊ณ์ ์ฆ๋ช
๊ณผ ์ฌ๊ท์ ์ฆ๋ช
์ ๋น๊ต. (a) ๋จ๊ณ์ ์ ๊ทผ์ ์ฆ๋ช
์ ๊ณ์ธต ๊ตฌ์กฐ๋ฅผ ๋ฌด์ํ๊ณ ์ฆ๋ช
๋จ๊ณ๋ค์ ์ํ์ค๋ก๋ง ์ทจ๊ธ. (b) ์ฌ๊ท์ ์ฆ๋ช
์ ๊ฒ์ฆ ๊ฐ๋ฅํ ์ฆ๋ช
์ค์ผ์น๋ฅผ ์ฌ๋ฌ ๋ ๋ฒจ๋ก ๋ถํดํ์ฌ ๋จ๊ณ๋ณ๋ก ์ค๊ฐ ๋ช
์ ์ฆ๋ช
์ ๋ฏธ๋ฃจ๋ ๋ฐฉ์์ผ๋ก ์งํ.
์ ๊ฒฝ๋ง ๊ธฐ๋ฐ ์๋ ์ ๋ฆฌ ์ฆ๋ช
(automated theorem proving)์์ ๊ธฐ์กด์ ๋จ๊ณ์ (step-by-step) ํ์ ๋ฐฉ์์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํด, ๋ณธ ๋
ผ๋ฌธ์ POETRY(PrOvE Theorems RecursivelY)๋ฅผ ์ ์ํ๋ค. ์ด๋ Isabelle ์ ๋ฆฌ ์ฆ๋ช
๊ธฐ์์ ์ฌ๊ท์ ์ด๊ณ ๊ณ์ธต์ ์ ๊ทผ์ ํตํด ์ฆ๋ช
์ ๋จ๊ณ์ ์ผ๋ก ๊ตฌ์ฑํ๋ ๋ฐฉ๋ฒ์ผ๋ก, ์ค๊ฐ ๋ช
์ ๋ค์ ์ฆ๋ช
์ sorry ํ๋ ์ด์คํ๋๋ก ๋ฏธ๋ฃจ๊ณ ๋ ๊น์ ๋ ๋ฒจ์์ ํด๊ฒฐํ๋ ๋ฐฉ์์ด๋ค.
Motivation
- Known: ์ ๊ฒฝ์ธ์ด๋ชจ๋ธ๊ณผ ํ์ ์๊ณ ๋ฆฌ์ฆ์ ๊ฒฐํฉํ ์ ๊ฒฝ ์ ๋ฆฌ ์ฆ๋ช
์ด ์ต๊ทผ ๋ง์ ์ง์ ์ ์ด๋ฃจ์์ผ๋ฉฐ, ๋๋ถ๋ถ์ ๋ฐฉ๋ฒ๋ค์ ๋ก๊ทธํ๋ฅ ์ด๋ ๊ฐ์นํจ์ ์ ์ ๊ฐ์ ๊ทผ์์์ (short-sighted) ํด๋ฆฌ์คํฑ์ ๊ธฐ๋ฐ์ผ๋ก ํจ.
- Gap: ๊ธฐ์กด ๋จ๊ณ์ ์ฆ๋ช
๋ฐฉ๋ฒ๋ค์ (1) ๊ทผ์์์ ํด๋ฆฌ์คํฑ์ผ๋ก ์ธํด ์ต์ ์ด ์๋ ๋๋ ์ฐ๋งํ ๋ถ๋ถ๋ชฉํ(subgoal)๋ฅผ ํ์ํ์ฌ ๊ธด ์ฆ๋ช
์ ์ฐพ๊ธฐ ์ด๋ ต๊ณ , (2) ์ฆ๋ช
๊ธธ์ด ์ฆ๊ฐ์ ๋ฐ๋ฅธ ๊ธฐํ๊ธ์์ ํ์๊ณต๊ฐ ํ์ฅ์ ๋์ํ ์ ํํ ํด๋ฆฌ์คํฑ์ด ๋ถ์กฑํจ.
- Why: ์ ๋ฆฌ ์ฆ๋ช
์ ๊ณ์ธต์ ๊ตฌ์กฐ(hierarchical structure)๋ฅผ ํ์ฉํ๋ฉด ๋ณต์กํ ๋ฌธ์ ๋ฅผ ๊ด๋ฆฌ ๊ฐ๋ฅํ ๋ถ๋ถ ๋ฌธ์ ๋ก ๋ถํดํ ์ ์๊ณ , ๊ฐ ๋ ๋ฒจ์์ ๊ฒ์ฆ ๊ฐ๋ฅํ ์ฆ๋ช
์ค์ผ์น๋ฅผ ๋จผ์ ํ๋ณดํ๋ฉด ํ์ ํจ์จ์ด ํฌ๊ฒ ํฅ์๋ ๊ฒ์ผ๋ก ์์๋จ.
- Approach: Isabelle์
sorry ํํฑ์ ํ์ฉํ์ฌ ์ค๊ฐ ๋ช
์ ์ ์ฆ๋ช
์ ์์๋ก ๊ฑด๋๋ฐ๊ณ , ๊ฐ ๋ ๋ฒจ์์ ๊ฒ์ฆ ๊ฐ๋ฅํ ์ฆ๋ช
์ค์ผ์น๋ฅผ ๋จผ์ ํ์ํ ํ, ๋ค์ ๋ ๋ฒจ์์ ๋ฏธ๋ค์ง ๋ช
์ ๋ค์ ์ฌ๊ท์ ์ผ๋ก ์ฆ๋ช
ํ๋ ๋ฐฉ์.
Achievement
๊ทธ๋ฆผ 3: POETRY์ GPT-f ๊ธฐ์ค์ ๊ฐ ์ฆ๋ช
๊ธธ์ด ๋น๊ต. y์ถ์ ๋ก๊ทธ ์ค์ผ์ผ๋ก ํ์.
- ์ ๋์ ์ฑ๋ฅ ํฅ์: miniF2F ๋ฐ์ดํฐ์
์์ ํ๊ท 5.1% ์ ๋ ๊ฐ์ ์จ ๋ฌ์ฑ (42.2% ํต๊ณผ์จ), PISA ๋ฐ์ดํฐ์
์์ ์ฌ๊ท์ ์ฆ๋ช
์ ํตํด ๋จ๊ณ์ ๊ธฐ์ค์ ๋๋น 3.9% ์ ๋ ๊ฐ์ .
- ์ฆ๋ช
๊ธธ์ด ๋ํญ ํ์ฅ: ์ต๋ ์ฆ๋ช
๊ธธ์ด๊ฐ ๋จ๊ณ์ ๋ฐฉ์์ 10๋จ๊ณ์์ 262๋จ๊ณ๋ก ์ฆ๊ฐ (miniF2F ๊ธฐ์ค), PISA์์๋ 26๋จ๊ณ๋ก ํ์ฅ. ์ด๋ ๋ ๋ณต์กํ ์ ๋ฆฌ๋ค์ ์ฆ๋ช
ํ ์ ์์์ ์์ฌ.
- ์ฌ๊ท์ ๊ตฌ์กฐ์ ์ด์ : ๊ฑฐ์ง ์ค๊ฐ ๋ช
์ ๋ฅผ ํฌํจํ ๊ฒ์ฆ๋ ์ค์ผ์น๋ ๋ค์ ๋ ๋ฒจ์์ ์ฆ๋ช
๋ถ๊ฐ๋ฅํ ๋ ์๋ก์ด ์ค์ผ์น ํ์์ผ๋ก ์๋ ๋ณด์ ๋์ด, ๊ฐ๊ฑดํ ํ์ ํ๋ ์์ํฌ ๊ตฌ์ฑ.
How
๊ทธ๋ฆผ 2: ์ฌ๊ท์ BFS(Best-First Search) ํ์์ ์์ธ ์์. ์ฆ๋ช
ํธ๋ฆฌ์ ๊ฐ ๋
ธ๋๋ ์ฆ๋ช
์ํ(proof state)๋ฅผ ๋ํ๋.
- ์ฆ๋ช
์ค์ผ์น ์ถ์ถ(Proof Sketch Extraction): ๊ธฐ์กด ์์ ์ฆ๋ช
(complete proof)์ ๋ฐ์ดํฐ์์ Isabelle์
proof level ์ ๋ณด๋ฅผ ํ์ฉํ์ฌ ๊ณ์ธต ๊ตฌ์กฐ๋ฅผ ์ถ์ถ. Algorithm 1์ EXTRACTPROOFSKETCH ํจ์๊ฐ ์ฆ๋ช
๋จ๊ณ๋ค์ ์ฌ๊ท์ ์ผ๋ก ์ฒ๋ฆฌํ๋ฉฐ, ๊น์ด๊ฐ ์ฆ๊ฐํ๋ ์ง์ ์์ sorry๋ก ์ค๊ฐ ์ฆ๋ช
์ ๋์ฒด.
- ์ฌ๊ท์ ๋ฐ์ดํฐ ๊ตฌ์ฑ: ๊ฐ ์์ ์ฆ๋ช
์ผ๋ก๋ถํฐ ๋ค์ค ๋ ๋ฒจ์ ์ฆ๋ช
์ค์ผ์น๋ค์ ์ถ์ถํ์ฌ ํ๋ จ ๋ฐ์ดํฐ ๊ตฌ์ฑ. ์ด๋ฅผ ํตํด ์ธ์ด๋ชจ๋ธ์ด ๊ฐ ๋ ๋ฒจ์์ ์ค์ผ์น๋ฅผ ์์ฑํ๋ ๋ฒ์ ํ์ต.
- ์ฌ๊ท์ ํ์ ์๊ณ ๋ฆฌ์ฆ: BFS ๊ธฐ๋ฐ ํ์์์ (1) ๋ชฉํ ์ ๋ฆฌ/์ค๊ฐ ๋ช
์ ์ ๋ํด ๊ฒ์ฆ ๊ฐ๋ฅํ ์ค์ผ์น๋ฅผ ๋จผ์ ํ์, (2) ์ค์ผ์น ๋ด ๋ชจ๋
sorry๋ฅผ ํด๊ฒฐํ ๋๊น์ง ๋ค์ ๋ ๋ฒจ์ ๋ช
์ ๋ค์ ๋ํด ๋์ผํ ์ฌ๊ท์ ํ์ ์ํ.
- ์ธ์ด๋ชจ๋ธ ํ์ฉ: ํ์ค GPT-f ํ์์ ์ฌ์ ํ๋ จ ์ธ์ด๋ชจ๋ธ ์ฌ์ฉ. ์
๋ ฅ์ผ๋ก ์ปจํ
์คํธ์ ํ์ฌ ์ฆ๋ช
์ํ๋ฅผ ๋ฐ์ ๋ค์ ์ฆ๋ช
๋จ๊ณ(๋๋ ์ฆ๋ช
์ค์ผ์น)๋ฅผ ์ํ๋ง.
Originality
- ๊ณ์ธต์ ์ฌ๊ท ๊ตฌ์กฐ์ ๋์
: ์ ๋ฆฌ ์ฆ๋ช
์ ์ฆ๋ช
๋ ๋ฒจ์ด๋ผ๋ ์์ฐ์ค๋ฌ์ด ๊ณ์ธต ๊ตฌ์กฐ๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ํ์ฉํ ์ต์ด์ ์ ๊ฒฝ ์ฆ๋ช
๋ฐฉ๋ฒ. ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ด ์ฆ๋ช
์ ์ผ๋ ฌ์ ๋จ๊ณ๋ค๋ก๋ง ์ทจ๊ธํ ๊ฒ๊ณผ ๋๋น.
- ๊ทผ์์์ฑ ๊ทน๋ณต: ๊ทผ์์์ ํด๋ฆฌ์คํฑ ๋์ , ๊ฐ ๋ ๋ฒจ์์ ๊ฒ์ฆ ๊ฐ๋ฅํ ์ค์ผ์น(complete outline)๋ฅผ ์ฐพ์์ผ๋ก์จ ๋ ์ ๋ณด ํ๋ถํ ์ ํธ๋ฅผ ์ ๊ณตํ๋ ์๋ก์ด ํ์ ํจ๋ฌ๋ค์.
- ๋ฐ์ดํฐ ์ฌ๊ตฌ์ฑ ๋ฐฉ๋ฒ๋ก : ๊ธฐ์กด ์์ ์ฆ๋ช
์ผ๋ก๋ถํฐ ์๋์ผ๋ก ๋ค์ค ๋ ๋ฒจ ์ฆ๋ช
์ค์ผ์น๋ฅผ ์ถ์ถํ๋ ์๊ณ ๋ฆฌ์ฆ ์ ์. ๊ธฐ์กด ์ฆ๋ช
๋ฐ์ดํฐ๋ฅผ ํจ์จ์ ์ผ๋ก ์ฌํ์ฉ.
sorry ํํฑ์ ์ฐฝ์์ ํ์ฉ: Isabelle์ ๊ธฐ๋ณธ ๊ธฐ๋ฅ์ธ sorry๋ฅผ ์ ๊ฒฝ ์ฆ๋ช
์ ํต์ฌ ๋ฉ์ปค๋์ฆ์ผ๋ก ์ฌํด์. ์ด๋ฅผ ํตํด ๊ฑฐ์ง ์ค๊ฐ ๋ช
์ ์ ๊ฒฝ์ฐ ์๋์ผ๋ก ๋ค์ ํ์ํ๋ ์์ (self-correction) ๋ฉ์ปค๋์ฆ ๊ตฌํ.
Limitation & Further Study
- ๊ฑฐ์ง ๋ช
์ ์ ๋ถ์์ ํ ์ฒ๋ฆฌ: ๊ฒ์ฆ๋ ์ค์ผ์น๊ฐ ๊ฑฐ์ง ์ค๊ฐ ๋ช
์ ๋ฅผ ํฌํจํ ๊ฒฝ์ฐ, ๋ค์ ๋ ๋ฒจ์์ ์ฆ๋ช
๋ถ๊ฐ๋ฅํ ๋๊น์ง ๊นจ๋ซ์ง ๋ชปํจ. ์ฌ์ ์ ๋ช
์ ์ฌ๋ฐ๋ฆ์ ๊ฒ์ฆํ๋ ๋ฉ์ปค๋์ฆ ๋ถ์ฌ.
- Isabelle์ ํ์ ๋ ๊ตฌํ: ํ์ฌ Isabelle์
proof level๊ณผ sorry ํํฑ์ ๊ฐํ๊ฒ ์์กด. Lean, Coq, HOL ๋ฑ ๋ค๋ฅธ ํ์ ํ๊ฒฝ์ผ๋ก์ ํ์ฅ์ ์ถ๊ฐ ๊ณตํ์ ๋
ธ๋ ฅ์ด ํ์ํ๋ฉฐ, ์ ์๋ค๋ ์ด๋ฅผ ํฅํ ๊ณผ์ ๋ก ๋ช
์.
- ์ธ์ด๋ชจ๋ธ ํฌ๊ธฐ/๋ฅ๋ ฅ ์์กด์ฑ ๋ฏธ๋ถ์: ์ฌ๊ท์ ์ ๊ทผ์ ์ด์ ์ด ์ธ์ด๋ชจ๋ธ ํฌ๊ธฐ๋ ์ฌ์ ํ๋ จ ๋ฐ์ดํฐ์ ์ผ๋ง๋ ๋ฏผ๊ฐํ์ง ์์ธ ๋ถ์ ๋ถ์กฑ. ์ํ ๋ชจ๋ธ์์์ ์ฑ๋ฅ์ ๋ฏธ๊ฒ์ฆ.
- ๊ณ์ฐ ๋น์ฉ ๋ถ์ ๋ถ์ฌ: ์ฌ๊ท์ ํ์์ด ๋ ๊ธด ์ฆ๋ช
์ ์ฐพ๋ ๋์ , ํ์ ๋น์ฉ(GPU์๊ฐ, ํ์ ๋
ธ๋ ์)์ด ์ผ๋ง๋ ์ฆ๊ฐํ๋์ง์ ๋ํ ์ ๋ ๋ถ์ ๋ฏธ์ ์.
- ๋ค๋ฅธ ํ์ ํ๊ฒฝ๊ณผ์ ๋น๊ต ํ์: Lean ๊ธฐ๋ฐ์ ์ต์ ์ ๊ฒฝ ์ ๋ฆฌ ์ฆ๋ช
๋ฐฉ๋ฒ๋ค๊ณผ์ ์ง์ ๋น๊ต ์์. ์ฌ๊ท์ ์ ๊ทผ์ ์ผ๋ฐ์ฑ์ ๋ํ ์๋ฌธ ์กด์ฌ.
Evaluation
์ดํ: POETRY๋ ํ์ ์ฆ๋ช
์ ์์ฐ์ค๋ฌ์ด ๊ณ์ธต ๊ตฌ์กฐ๋ฅผ ์ฒ์ ์ฒด๊ณ์ ์ผ๋ก ํ์ฉํ์ฌ ๊ทผ์์์ ๋จ๊ณ์ ํ์์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ ์ฐฝ์์ ๋ฐฉ๋ฒ์ด๋ค. ํนํ ์ฆ๋ช
๊ธธ์ด ํ์ฅ๊ณผ SOTA ์ฑ๋ฅ ๋ฌ์ฑ์ ์ฃผ๋ชฉํ ๋งํ๋, ๊ฑฐ์ง ๋ช
์ ์ฌ์ ๊ฒ์ฆ ๋ถ์ฌ, ๊ณ์ฐ ๋น์ฉ ๋ถ์ ๋ฏธํก, Isabelle ์์กด์ฑ ๋ฑ์ ํ๊ณ๊ฐ ์์ผ๋ฉฐ, ๋ค๋ฅธ ํ์ ํ๊ฒฝ์ผ๋ก์ ์ผ๋ฐ์ฑ ์
์ฆ์ด ํ์ํ๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
์๋ ์ ๋ฆฌ ์ฆ๋ช
๋ถ์ผ์ ์์ฑ์ ์ธ์ด ๋ชจ๋ธ ์ ๊ทผ ๋
ผ๋ฌธ์ POETRY์ ๋คํธ์ํฌ ๊ธฐ๋ฐ ์ฆ๋ช
๋ฐฉ์์ ๋ฐฐ๊ฒฝ์ด ๋๋ ์ฐ๊ตฌ์
๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Think-verify-interleaving ์ฆ๋ช
๋ฐฉ๋ฒ์ ํ์ฅ์ด ์ฌ๊ท์ ์ฆ๋ช
๊ตฌ์ฑ ๋ฐฉ์๊ณผ ์ฐ๊ฒฐ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๋ฅ๋ฌ๋ ๊ธฐ๋ฐ ์ ๋ฆฌ ์ฆ๋ช
์๋ฒ ์ด ๋
ผ๋ฌธ์ผ๋ก, POETRY์ ๊ฐ์ ์๋ก์ด ์ฆ๋ช
์์คํ
์ ์ด๋ก ์ ๊ธฐ๋ฐ์ ์ค๋ช
ํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
POETRY์ ์๋ ์ ๋ฆฌ ์ฆ๋ช
๋ฐฉ์์ด Aletheia์ ์์จ ์ํ ํ๊ตฌ AI์ ์ํ์ ์ฆ๋ช
๋ฅ๋ ฅ์ ์ด๋ก ์ ๊ธฐ๋ฐ์ ํ์ฑํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
Lego-prover๋ ์ ๊ฒฝ๋ง ์ ๋ฆฌ ์ฆ๋ช
๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ํตํ ์ ๊ทผ๋ฒ์ ์ ์ํ์ฌ ๊ณ์ธต์ /์ฌ๊ท์ ์ฆ๋ช
ํ์๊ณผ ๋ค๋ฅธ ๋์์ ์ ๊ณตํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
Deepseek-prover ๋
ผ๋ฌธ์ step-by-step ํ์ ๋ฐฉ์์ ํ๊ณ๋ฅผ ๋
ผ์ํ๋ฉฐ, POETRY์ ์ฌ๊ท์ ์ฆ๋ช
๋ฐฉ์๊ณผ ๋ชจ๋ธ๋ง ์ฐจ์ด๊ฐ ํฝ๋๋ค.
ํ์ ์ฐ๊ตฌ
์์จ ์ํ ์ฐ๊ตฌ AI(Aletheia)๋ฅผ ํตํด ์๋ ์ ๋ฆฌ ์ฆ๋ช
๋ชจ๋ธ์ ์ค์ง์ ์ฐ๊ตฌ ์์ฉ์ด ํ์ฅ๋ฉ๋๋ค.
์์ฉ ์ฌ๋ก
์ํยท๋ฌผ๋ฆฌยท์ปดํจํฐ ๋ถ์ผ ์ค์ ์ ๋ฆฌ-๋ฌธ์ -๋ต๋ณ ์๋ฃ๊ฐ ์ฌ๊ท์ ์๋ ์ฆ๋ช
์คํ์ ๋ฒค์น๋งํฌ๋ก ์ฐ์ผ ์ ์์ต๋๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์