์ ์: Huajian Xin, Haiming Wang, Chuanyang Zheng, Lin Li, Zhengying Liu, Qingxing Cao, Yinya Huang, Jing Xiong, Han Shi, Enze Xie, Jian Yin, Zhenguo Li, Xiaodan Liang, Heng Liao | ๋ ์ง: 2023 | DOI: N/A 📄 PDF
Essence
LEGO-Prover์ ๊ตฌ์กฐ: (a) Plain prover์์ ๋น๊ต - LEGO-Prover๋ ๋ชจ๋์ ์ฆ๋ช
๊ตฌ์ฑ, (b) ํ๋ก๋ฒ(Prover)์ ์๋ณผ๋ฒ(Evolver)๋ก ์ด๋ฃจ์ด์ง ์ ์ฒด ํ๋ ์์ํฌ
๋๊ท๋ชจ ์ธ์ด๋ชจ๋ธ(LLM)์ ์ด์ฉํ ์ ๊ฒฝ ์ ๋ฆฌ ์ฆ๋ช
(Neural Theorem Proving)์์ ๊ฒ์ฆ๋ ๋ณด์กฐ์ ๋ฆฌ(lemma)๋ฅผ ์ฌ์ฌ์ฉ ๊ฐ๋ฅํ ๊ธฐ์ (skill)๋ก ํ์ฉํ๋ ์ฑ์ฅ ๊ฐ๋ฅํ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ๋์
ํจ์ผ๋ก์จ, ๋ชจ๋์ ์ฆ๋ช
๊ตฌ์ฑ์ ํตํด ์ฆ๋ช
๋ฅ๋ ฅ์ ๋ํญ ํฅ์์ํจ๋ค. ์ด๋ฅผ ํตํด miniF2F ๋ฒค์น๋งํฌ์์ ์ต์ฒจ๋จ ์ฑ๋ฅ์ ๋ฌ์ฑํ๊ณ 22,532๊ฐ์ ๊ฒ์ฆ๋ ๊ธฐ์ ์ ์๋ ์์ฑํ๋ค.
How
LEGO-Prover์ ์๋ ํ๋ฆ: (a) ํ๋ก๋ฒ์ 3๋จ๊ณ ์ฆ๋ช
๊ณผ์ (b) ์คํฌ ๋ผ์ด๋ธ๋ฌ๋ฆฌ์์ ์ํธ์์ฉ
1. ํ๋ก๋ฒ(Prover) ๋ชจ๋:
- ํ์ ์ ๋ฆฌ ๋ช
์ (formal statement)๋ก๋ถํฐ ๋นํ์ ์ฆ๋ช
(informal proof) ๊ธฐ๋ฐ ๋ณด์กฐ์ ๋ฆฌ ํ์์ฑ ์๋ณ
- ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ก๋ถํฐ ๊ด๋ จ ๊ธฐ์ ๊ฒ์ ๋ฐ ๊ฒ์๋ ๊ธฐ์ ํ์ฉํ์ฌ ๋ชจ๋์ ์ฆ๋ช
๊ตฌ์ฑ
- ์ฆ๋ช
๊ณผ์ ์์ ์๋ก์ด ๋ณด์กฐ์ ๋ฆฌ ์๋ ์์ฑ ๋ฐ ๋ผ์ด๋ธ๋ฌ๋ฆฌ์ ๋์
2. ์๋ณผ๋ฒ(Evolver) ๋ชจ๋:
- ํ๋ก๋ฒ์์ ์์ฑ๋ ๋ฌธ์ ๋ณ ๊ธฐ์ ๋ค์ ์ผ๋ฐ์ฑ(generality) ํฅ์
- ๋ฐฉํฅ์ฑ ๋ณํ(directional transformer)์ ํตํด ๊ธฐ์ ์ ์ฌ์ฌ์ฉ์ฑ ๋ฐ ๋ณต์ก๋ ๊ฐ์
- ๊ฒ์ฆ๋ ๋ฐ์ ๊ธฐ์ ์ ๋ผ์ด๋ธ๋ฌ๋ฆฌ์ ์ญํผ๋๋ฐฑ
3. ๊ธฐ์ ๋ผ์ด๋ธ๋ฌ๋ฆฌ(Skill Library):
- ๊ฒ์ฆ๋ ๋ณด์กฐ์ ๋ฆฌ/์ ๋ฆฌ ์ ์ฅ์๋ก ๊ธฐ๋ฅ
- ์๋ฒ ๋ฉ ๊ธฐ๋ฐ ์ ์ฌ์ฑ ๊ฒ์(embedding-based similarity search)์ผ๋ก ๊ด๋ จ ๊ธฐ์ ํจ์จ์ ๊ฒ์
- ์ง์์ ์ผ๋ก ์ฑ์ฅํ๋ฉฐ ์๋ก์ด ์ฆ๋ช
๋ฌธ์ ์ ํ์ฉ
4. ๊ธฐ์ ํ์ฉ ๋ฐฉ์:
- ์ง์ ์ฌ์ฉ(Direct use): ๊ฒ์๋ ๊ธฐ์ ์ ์ฆ๋ช
์ ์ง์ ๋ณต์ฌ ์ฌ์ฉ
- ์ฐธ์กฐ(Referee): ๊ฒ์๋ ๊ธฐ์ ์ ๋ชจ๋ธ์ ์ถ๋ก ๊ฐ์ด๋๋ก ํ์ฉ
Evaluation
์ดํ: LEGO-Prover๋ ์ ๊ฒฝ ์ ๋ฆฌ ์ฆ๋ช
์ ์ฑ์ฅ ๊ฐ๋ฅํ ๊ฒ์ฆ๋ ๋ณด์กฐ์ ๋ฆฌ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ๋์
ํ๋ ์ฐฝ์์ ์ ๊ทผ์ผ๋ก ๋ช
ํํ ์ฑ๋ฅ ํฅ์์ ๋ฌ์ฑํ์์ผ๋ฉฐ, ์์ฑ๋ ๋๊ท๋ชจ ๊ธฐ์ ๋ผ์ด๋ธ๋ฌ๋ฆฌ์ ์ค์ฉ์ ๊ฐ์น๋ฅผ ์
์ฆํ๋ค. ๋ค๋ง ๋ ๋ณต์กํ ์ํ ๋ฌธ์ ๋ก์ ํ์ฅ์ฑ๊ณผ ๊ณ์ฐ ๋น์ฉ ํจ์จ์ฑ์ ๋ํ ์ถ๊ฐ ๊ฒ์ฆ์ด ํ์ํ๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
LLM ๊ธฐ๋ฐ ์ ๊ฒฝ ์ ๋ฆฌ ์ฆ๋ช
์ ์ด๋ก ์ ๋ฐ ์คํ์ ์ฑ๊ณผ๋ฅผ ์ฌ์ธต์ ์ผ๋ก ์ดํดํ๋๋ฐ ๋์์ด ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๋ถ๋ถ๋ชฉํ ๊ธฐ๋ฐ ์ฆ๋ช
ํ๋ ์์ํฌ ๋
ผ์๋, ์ ๊ฒฝ ์ ๋ฆฌ ์ฆ๋ช
์์ ๋ผ์ด๋ธ๋ฌ๋ฆฌ์ ๊ธฐ์ ์ฌ์ฌ์ฉ ๊ตฌ์กฐ ์ค๊ณ์ ํ ๋๋ฅผ ์ ๊ณตํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Autonomous microscopy experiments ๋
ผ๋ฌธ์ ์๋ํ๋ ๊ณผํ ์คํ ํ๊ฒฝ์์ LLM ํ์ฉ ๊ตฌ์กฐ๋ฅผ ์ ์ํ๋ฉฐ, Lego-prover์ ์ฆ๋ช
์๋ํ ๊ธฐ์ ์ ์ฉ์ ๊ฐ๋
์ ํ ๋๊ฐ ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
486 ๋
ผ๋ฌธ์ ์ง์ ๊ทธ๋ํ ๊ธฐ๋ฐ ์ถ๋ก ๊ณผ ๊ฒ์ฆ์ ์๋ฆฌ์ ์ผ๋ก ์ค๋ช
ํ์ฌ, 530 ๋
ผ๋ฌธ์์ ์๋ฃ ์ง์ ๊ทธ๋ํ ์ง์์๋ต์ ์์ฉ๋ ์ ์๋ ์ด๋ก ์ ๊ธฐ๋ฐ์ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
31(Survey on Hypothesis Generation)์ ์ฆ๋ช
์๋ํ์ LLM ๊ธฐ๋ฐ ์ํ ํ๊ตฌ์ ๊ดํ ์ต์ ์ฐ๊ตฌ๋ํฅ์ ํฌ๊ด์ ์ผ๋ก ์์ ํด 486์ ๋ฐฐ๊ฒฝ์ง์์ผ๋ก ์ ํฉํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
์์ formalization์์ ์๋ ์์ฑ์ ์ํ LLM ํ์ฉ ์ ๋ต์ ๋ค๋ฃจ๋ฏ๋ก ํ์ฅ์ฑ๊ณผ ์ ๊ทผ๊ด์ ์์ ๋น๊ตํ ์ ์๋ค.
๋ค๋ฅธ ์ ๊ทผ
482(Lean-star)์ ์ ๊ฒฝ ์ ๋ฆฌ ์ฆ๋ช
์์ ์ฌ๊ณ ์ ์ฆ๋ช
์ ๋ฐ๋ณต์ ๊ฒฐํฉ์ ๊ฐ์กฐํจ์ผ๋ก์จ, 486(Lego-prover)์ ๋ชจ๋์ ์ฆ๋ช
๋ฅ๋ ฅ ํฅ์์ ๋ํ ๋ค๋ฅธ ์ ๋ต์ ๋ณด์ฌ์ค๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
Lego-prover๋ ์ ๊ฒฝ๋ง ์ ๋ฆฌ ์ฆ๋ช
๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ํตํ ์ ๊ทผ๋ฒ์ ์ ์ํ์ฌ ๊ณ์ธต์ /์ฌ๊ท์ ์ฆ๋ช
ํ์๊ณผ ๋ค๋ฅธ ๋์์ ์ ๊ณตํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
SMT-LIB์ ๊ฐ์ ๋
ผ๋ฆฌ ํ๋ก๊ทธ๋จ ์์ฑ์์ LLM ํ์ฉ์ ๋ถํ์ค์ฑ ์ ๋ํ ์ ๊ทผ๊ณผ ์ ๊ฒฝ ์ ๋ฆฌ ์ฆ๋ช
์ ๋ชจ๋์ ํ์ฅ ํจ๋ฌ๋ค์์ ๋น๊ต ๋ถ์ํ ์ ์์ต๋๋ค.
ํ์ ์ฐ๊ตฌ
Lego-prover๋ ๋ฌธ์ ๋ผ์ด๋ธ๋ฌ๋ฆฌ ์ฑ์ฅ์ ๋ฐ๋ผ ์ ๊ฒฝ ์ฆ๋ช
๋ฅ๋ ฅ์ด ๊ฐ์ ๋๋ ๊ตฌ์กฐ๋ฅผ ์ ์ํด, miniF2F์ ํ์ฅ ์ตํฉ์ ์๋ํ๋ค.
ํ์ ์ฐ๊ตฌ
๋ณด์กฐ์ ๋ฆฌ ๋ฐ ๊ธฐ์ (skill) ๋ผ์ด๋ธ๋ฌ๋ฆฌ ํ์ฉ์ ์ ์ํ๋ Lego-Prover ๋
ผ๋ฌธ์, ๋ถ๋ถ๋ชฉํ ๊ธฐ๋ฐ ์ฆ๋ช
ํ์ต ํ๋ ์์ํฌ์ ์ง์ ์ฐ๊ณ๋๋ค.
ํ์ ์ฐ๊ตฌ
๋จ๊ณ์ ์ฆ๋ช
(think-verify-interleave) ์ต์ ํ๊ฐ ์ถ๊ฐ๋ ์ต์ LLM ๊ธฐ๋ฐ ์ ๋ฆฌ ์ฆ๋ช
์์คํ
๊ณผ ์ฑ๋ฅ์ ๋น๊ตํ ์ ์์ต๋๋ค.
ํ์ ์ฐ๊ตฌ
์ํ ์๋ํ ๋ฐ ์ฆ๋ช
๋ผ์ด๋ธ๋ฌ๋ฆฌ ํ์ฅ์ ์ด์ ์ ๋ง์ถ ํ๋ ์์ํฌ๋ก, Lego-prover์ ํ์ฉ๋์ ๋ฒ์ ํ์ฅ ์ฌ๋ก์ ํด๋นํฉ๋๋ค.