Essence
๊ทธ๋ฆผ 1: ์ผ์ชฝ์ ๋นํ์์ ์ฆ๋ช
๊ณผ ๋ถ๋ถ๋ชฉํ ๊ธฐ๋ฐ ์ฆ๋ช
์ ์์, ์ค๋ฅธ์ชฝ์ ํ์ฐ ๋ชจ๋ธ์ ์ฌ์ฉํ ์์ฐ ์์ ์ ์ต์ ๋ถ๋ถ์งํฉ๊ณผ ์์ ๊ฒฐ์
๋ํ ์ธ์ด ๋ชจ๋ธ(LLM)์ ํ์ ์ ๋ฆฌ ์ฆ๋ช
(formal theorem proving)์ ํ์ฉํ ๋, ์์ฐ ์์ ์ ๊ตฌ์กฐํ์ ์กฐ์งํ ๋ฐฉ์์ ๊ฐ์ ํจ์ผ๋ก์จ ์ฆ๋ช
์ฑ๊ณต๋ฅ ์ 38.9%์์ 45.5%๋ก ํฅ์์ํค๋ ๋ถ๋ถ๋ชฉํ ๊ธฐ๋ฐ ํ์ต ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค.
How
๊ทธ๋ฆผ 3: ์ ์๋ ๋ฐฉ๋ฒ์ผ๋ก ์์ฑํ ํ์ ์ค์ผ์น
๋ถ๋ถ๋ชฉํ ๊ธฐ๋ฐ ์ฆ๋ช
๊ตฌ์ฑ:
- ์๋ ์์ฑ๋ ๋นํ์์ ์ฆ๋ช
์ผ๋ก๋ถํฐ ์์ํ์ฌ ์ด๊ธฐ ๋ถ๋ถ๋ชฉํ ์งํฉ ์์ฑ
- ๊ฐ ๋ถ๋ถ๋ชฉํ๊ฐ ์ด๊ธฐ ์ํ(statement)์ ์ต์ข
์ํ(์ฆ๋ช
ํต๊ณผ) ๋ชจ๋์์ ๋๋ฌ ๊ฐ๋ฅํ์ง ๊ฒ์ฆ
- ์๋ ์ ๋ฆฌ ๋ณด์กฐ๊ธฐ(proof assistant)๋ฅผ ์ฌ๊ท์ ์ผ๋ก ํธ์ถํ์ฌ ๋ถ๋ถ๋ชฉํ์ ์ ํจ์ฑ ํ์ธ ๋ฐ ๋ฐ๋ณต ์ ์
- k๋ฒ์ ๋ฐ๋ณต์ ํตํด ๋ถ๋ถ๋ชฉํ์ ์คํ์ผ ์ผ๊ด์ฑ ๊ฐ์
ํ์ฐ ๋ชจ๋ธ ๊ธฐ๋ฐ ์์ฐ ์กฐ์งํ:
- ๋ฌธ์ ๋ฅผ ๊ทธ๋ํ์์ (๋ถ๋ถ)ํด๋ฐํด ๊ฒฝ๋ก ์ฐพ๊ธฐ๋ก ๊ณต์ํ (๋
ธ๋=์์ฐ ์์ , ๊ฒฝ๋ก=์ ํ ๋ฐ ์์)
- ์ฆ๋ช
์ฑ๊ณตํ ์์ฐ ์์ ์กฐ์ง์ ํ๋ จ ๋ฐ์ดํฐ๋ก ์์ง
- ๊ทธ๋ํ ์ ๊ฒฝ๋ง(GNN)์ ์ด์ฉํ ์ด์ฐ ํ์ฐ ๋ชจ๋ธ(discrete diffusion model) ํ๋ จ
- ์กฐ๊ฑด๋ถ ๋ถํฌ p_ฮธ(ฯโ|x)๋ฅผ ํ์ตํ์ฌ ์ฃผ์ด์ง ์ ๋ฆฌ ๋ฌธ์ฅ x์ ๋ํ ์ต์ ์กฐ์ง ์์ธก
- ์ถ๋ก ์ ๋ณ๋ ฌ ์ฒ๋ฆฌ ๊ฐ๋ฅํ์ฌ ๊ณ์ฐ ํจ์จ์ฑ ํฅ์
Evaluation
Novelty: 4.5/5 Technical Soundness: 4/5 Significance: 4.5/5 Clarity: 4/5 Overall: 4.2/5
์ดํ: ํ์ ์ ๋ฆฌ ์ฆ๋ช
์์ LLM์ ํจ์จ์ฑ์ ๋์ด๊ธฐ ์ํด ๋ถ๋ถ๋ชฉํ ๋ถํด์ ํ์ฐ ๋ชจ๋ธ ๊ธฐ๋ฐ ์์ฐ ์กฐ์งํ๋ผ๋ ๋ ๊ฐ์ง ์ฐฝ์์ ์ ๊ทผ์ ๊ฒฐํฉํ ์ฐ์ํ ์ฐ๊ตฌ์ด๋ค. ์ค์ฆ์ ์ฑ๊ณผ(45.5%)๊ฐ ์๋ฏธ ์์ผ๋ฉฐ, ๋ฐ๋ณต์ ๊ฒ์ฆ ๊ธฐ๋ฐ์ ๋ถ๋ถ๋ชฉํ ์ ์ ์๊ณ ๋ฆฌ์ฆ์ ์๋ํ ์์ค์ ๋์ธ ์ ์ด ์ธ์ ๋๋ค. ๋ค๋ง ์ด๊ธฐ ๋ถ๋ถ๋ชฉํ์ ์๋ ๊ตฌ์ฑ, ํ์ฐ ๋ชจ๋ธ ํ์ต ๋ฐ์ดํฐ์ ์ ์ฝ์ฑ, ๊ทธ๋ฆฌ๊ณ miniF2F์ ๊ตญํ๋ ํ๊ฐ๋ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ์ ๋ํ ์๋ฌธ์ ๋จ๊ธด๋ค. ์ถ๊ฐ๋ก ํ์ฐ ๋ชจ๋ธ์ ์์ฌ๊ฒฐ์ ์๋ฆฌ์ ๋ํ ์ฌ์ธต ๋ถ์๊ณผ ๋ค์ํ ์ ๋ฆฌ ์ฆ๋ช
ํ๊ฒฝ์ผ๋ก์ ํ์ฅ์ด ํฅํ ์ฐ๊ตฌ๋ก ๊ธฐ๋๋๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
๋ถ๋ถ๋ชฉํ ๊ธฐ๋ฐ ์ฆ๋ช
ํ๋ ์์ํฌ ๋
ผ์๋, ์ ๊ฒฝ ์ ๋ฆฌ ์ฆ๋ช
์์ ๋ผ์ด๋ธ๋ฌ๋ฆฌ์ ๊ธฐ์ ์ฌ์ฌ์ฉ ๊ตฌ์กฐ ์ค๊ณ์ ํ ๋๋ฅผ ์ ๊ณตํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
Generative language modeling for automated theorem proving ๋
ผ๋ฌธ์ ์์ฑ์ ์ธ์ด๋ชจ๋ธ ๊ธฐ๋ฐ ์ฆ๋ช
๋ฐฉ๋ฒ์ ์ ์ํ์ฌ ๋ถ๋ถ๋ชฉํ ๊ธฐ๋ฐ LLM ์ฆ๋ช
ํ์ต๊ณผ ๋๋น๋ฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
Draft, sketch, and prove๋ LLM ๊ธฐ๋ฐ์ ์๋ ์ ๋ฆฌ ์ฆ๋ช
์ง์ ๋ฐฉ๋ฒ ์ค ์์ ์ ๋ณตํฉ ์์ฐ ๋ฐฉ์์ ์ง์คํ๋ฉฐ, ๋ถ๋ถ๋ชฉํ ๊ธฐ๋ฐ ์ฆ๋ช
๊ณผ์ ๋น๊ต๊ฐ ๊ฐ๋ฅํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM ๊ธฐ๋ฐ ๊ณผํ ๋ฐฉ์ ์ ๋ฐ๊ฒฌ์์ ๋ฐ์ดํฐ์ ์ธ๊ฐ ๊ฒฝํ์ ๊ฒฐํฉ์ ์ถ๋ก ๋ฐฉ์์ ์ ์ฉํ์ฌ ํ์ ์ฆ๋ช
๋๋ฉ์ธ ํ์ต์ ๋์กฐ์ ์ ๊ทผ๋ฒ์ ๋ณด์ฌ์ค๋ค.
ํ์ ์ฐ๊ตฌ
๋ณด์กฐ์ ๋ฆฌ ๋ฐ ๊ธฐ์ (skill) ๋ผ์ด๋ธ๋ฌ๋ฆฌ ํ์ฉ์ ์ ์ํ๋ Lego-Prover ๋
ผ๋ฌธ์, ๋ถ๋ถ๋ชฉํ ๊ธฐ๋ฐ ์ฆ๋ช
ํ์ต ํ๋ ์์ํฌ์ ์ง์ ์ฐ๊ณ๋๋ค.
์์ฉ ์ฌ๋ก
Lean-star๋ ์ฆ๋ช
์ค ์ฌ๊ณ -ํ๋(interleaving) ๋ฉ์ปค๋์ฆ์ ์ค์ฌ์ผ๋ก ํ์ฌ, ๋ถ๋ถ๋ชฉํ ํ์ต์ด ์ค์ ์ ๋ฆฌ ์ฆ๋ช
์ฑ๊ณต๋ฅ ์ ๋ผ์น๋ ์ํฅ์ ์ค์ฆ์ ์ผ๋ก ๋ณด์ฌ์ค๋๋ค.