Essence
ํธ๋์คํฌ๋จธ ๊ธฐ๋ฐ ์์ฑ ์ธ์ด ๋ชจ๋ธ์ ์๋ ์ ๋ฆฌ ์ฆ๋ช
(automated theorem proving)์ ์ ์ฉํ์ฌ, ์ ๊ฒฝ๋ง์ด ํ์ ์ํ ์ถ๋ก ์์
์ ์ํํ ์ ์์์ ์ต์ด๋ก ์
์ฆํ ์ฐ๊ตฌ์ด๋ค. GPT-f ์์คํ
์ Metamath ๋ผ์ด๋ธ๋ฌ๋ฆฌ์ ์ฑํ๋ ์๋ก์ด ์ฆ๋ช
๋ค์ ์์ฑํจ์ผ๋ก์จ, ๋ฅ๋ฌ๋ ๊ธฐ๋ฐ ์์คํ
์ด ๊ณต์ ์ํ ์ปค๋ฎค๋ํฐ์ ๊ธฐ์ฌํ ์ฒซ ์ฌ๋ก๊ฐ ๋์๋ค.
Evaluation
Novelty: 5/5 Technical Soundness: 4/5 Significance: 5/5 Clarity: 4/5 Overall: 4.5/5
์ดํ: ์ ๊ฒฝ๋ง ๊ธฐ๋ฐ ์ ๋ฆฌ ์ฆ๋ช
์ฐ๊ตฌ์ ์์ด ํ๊ธฐ์ ์ธ ๋
ผ๋ฌธ์ผ๋ก, ํธ๋์คํฌ๋จธ์ ํ์ ์ถ๋ก ๋ฅ๋ ฅ์ ์ค์ฆํ์ผ๋ฉฐ ์ค์ ์ํ ์ปค๋ฎค๋ํฐ ๊ธฐ์ฌ๊น์ง ๋ฌ์ฑํ๋ค. ๋ค๋ง Metamath ์ ํ์ผ๋ก ์ธํ ์ ์์ค ํน์ฑ๊ณผ ๋ค๋ฅธ ํ์ ์์คํ
์ผ๋ก์ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ ๊ฒ์ฆ์ด ํฅํ ๊ณผ์ ์ด๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
GPT-f๋ ์ ๊ฒฝ ์ ๋ฆฌ ์ฆ๋ช
์ ์ ๊ตฌ์ ์ฐ๊ตฌ๋ก, miniF2F ๋ฒค์น๋งํฌ๊ฐ ํ๊ฐํ๋ ์ ๊ฒฝ ์ ๋ฆฌ ์ฆ๋ช
์์คํ
๋ค์ ์ด๋ก ์ ํ ๋๋ฅผ ์ ๊ณตํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
์๋ ์ฆ๋ช
, ํนํ ์์ฐ์ด-ํ์ ์ฆ๋ช
์ ํ์ ์์ด ์์ฑํ ์ธ์ด ๋ชจ๋ธ ๊ธฐ๋ฐ ์ฆ๋ช
๊ธฐ ์ฐ๊ตฌ์ ์ด๋ก ์ ํ ๋๋ฅผ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
LLM ๊ธฐ๋ฐ ์ ๊ฒฝ ์ ๋ฆฌ ์ฆ๋ช
์ ์ด๋ก ์ ๋ฐ ์คํ์ ์ฑ๊ณผ๋ฅผ ์ฌ์ธต์ ์ผ๋ก ์ดํดํ๋๋ฐ ๋์์ด ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
379๋ LLM์ ํ์ฉํ ์๋ ์ ๋ฆฌ ์ฆ๋ช
(generative theorem proving)์ ๊ธฐ์ด๋ฅผ ์ ๊ณตํ๋ฉฐ, 808์ ์ ๋ฆฌ ์ค์ฌ QA ๋ฒค์น๋งํฌ ์ค์ ์ ๊ธฐ๋ฐ์ด ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
์๋ ์ ๋ฆฌ ์ฆ๋ช
๋ถ์ผ์ ํธ๋์คํฌ๋จธ ๊ธฐ๋ฐ ์ธ์ด์์ฑ ๋ชจ๋ธ ์ฐ๊ตฌ๊ฐ SciBench ๋ฒค์น๋งํฌ ์์ฉ์ ์ด๋ก ์ ๊ธฐ๋ฐ์
๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Lean-star ๋
ผ๋ฌธ์ ์ฌ๊ณ ์ ์ฆ๋ช
ํ์ต์ ์ํธ์์ฉ ๋ฉ์ปค๋์ฆ์ ๋ค๋ฃจ์ด ๋ณธ ๋
ผ๋ฌธ์ ์๋ ์ฆ๋ช
์์ฑ ๋ฐฉ์์ ์ด๋ก ์ ๋ฐํ์ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
์๋ ์ ๋ฆฌ ์ฆ๋ช
๋ถ์ผ์ ์์ฑ์ ์ธ์ด ๋ชจ๋ธ ์ ๊ทผ ๋
ผ๋ฌธ์ POETRY์ ๋คํธ์ํฌ ๊ธฐ๋ฐ ์ฆ๋ช
๋ฐฉ์์ ๋ฐฐ๊ฒฝ์ด ๋๋ ์ฐ๊ตฌ์
๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
์ฆ๋ช
์์ฑ ๋ฐ ์๋ํ ๊ด๋ จ LLM์ ์ ๊ฒฝ์ฌ๋ณผ๋ฆญ ์ ๊ทผ์ ์ด์ ์ ๋ง์ถฐ Lean Copilot์ ์ด๋ก ์ ๊ธฐ๋ฐ๊ณผ ์ฐจ๋ณ์ ์ ์ดํดํ ์ ์์ต๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Generative language modeling for automated theorem proving ๋
ผ๋ฌธ์ ์ฒด์ธ์ค๋ธ์ํธ์ LLM ๊ธฐ๋ฐ ์ํ ์ฆ๋ช
์์ฑ์ด๋ผ๋ ์ฃผ์ ์์ 833 ๋
ผ๋ฌธ์ ํต์ฌ ๋
ผ์์ ์ด๋ก ์ ๊ธฐ๋ฐ์ด ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
์ ๊ฒฝ ์ ๋ฆฌ ์ฆ๋ช
์ ์ด๊ธฐ ์ฐ๊ตฌ๋ LLM์ด ํ์์ ์ถ๋ก ์ ์ํํ ์ ์์์ ๋ณด์ฌ์ฃผ์ด, ๊ฐ์ค ๋ฐ๊ฒฌ๊ณผ ๊ท์น ํ์ต์ ์ด๋ก ์ ๊ธฐ๋ฐ์ ์ ๊ณตํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
์ ๊ฒฝ ์ ๋ฆฌ ์ฆ๋ช
๊ธฐ์ ์ LLM์ด ๊ธฐํธ์ ์ธ๊ณ ๋ชจ๋ธ์ ํ์์ ์ผ๋ก ๊ฒ์ฆํ๊ณ ์์ฑํ๋ ๋ฐ ํ์ํ ํ์ ์ถ๋ก ๋ฅ๋ ฅ์ ์ด๋ก ์ ๊ธฐ๋ฐ์ด ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
GPT-f๋ ์ ๊ฒฝ๋ง ๊ธฐ๋ฐ ์ ๋ฆฌ ์ฆ๋ช
์ ์ต์ด ์๋๋ก, M2F์ LLM ๊ธฐ๋ฐ ์๋ ํ์ํ ํ๋ ์์ํฌ์ ์ด๋ก ์ ๊ธฐ๋ฐ์ด ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
์๋ํ๋ ์ ๋ฆฌ ์ฆ๋ช
๋ฐ LLM์ ์๋ ํ์ํ ๊ธฐ์ด ์๊ณ ๋ฆฌ์ฆ์ ๋ํ ์ด๋ก ์ ๋ฐํ์ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
์ ๊ฒฝ ์ ๋ฆฌ ์ฆ๋ช
๊ธฐ์ ์ SEVerA์ ํ์์ ๊ณ์ฝ ๊ธฐ๋ฐ ๊ฒ์ฆ์์ LLM ์ถ๋ ฅ์ ํ์์ ์ผ๋ก ๋ณด์ฆํ๋ ์ด๋ก ์ ๊ธฐ๋ฐ์ ์ ๊ณตํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
์๋ ์ ๋ฆฌ ์ฆ๋ช
๊ณผ ์ํ ๋ฌธ์ ํด๊ฒฐ์ ์ํ ์์ฑํ LLM์ ๊ธฐ์ด ๋ชจ๋ธ๋ง๊ณผ ์ํฌํ๋ก์ฐ ๊ฐ์ ๋ฐฉํฅ์ด ๋
ผ์๋จ.
๊ธฐ๋ฐ ์ฐ๊ตฌ
์์ฑํ ์ธ์ด๋ชจ๋ธ ๊ธฐ๋ฐ ์์น/์์ ๋ฌธ์ ํด๊ฒฐ์ ์๋ฆฌ๋ฅผ formalized perspective์์ ์ค๋ช
ํ์ฌ, GQKAE ์ํคํ
์ฒ์ ์์ฑํ ์์๊ณ ์ ๊ฐ ์ ๊ทผ ๋
ผ๋ฆฌ๋ฅผ ์ดํดํ๋ ๋ฐ ํ ๋๋ฅผ ์ ๊ณตํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
Generative language modeling for automated theorem proving ๋
ผ๋ฌธ์ ์์ฑ์ ์ธ์ด๋ชจ๋ธ ๊ธฐ๋ฐ ์ฆ๋ช
๋ฐฉ๋ฒ์ ์ ์ํ์ฌ ๋ถ๋ถ๋ชฉํ ๊ธฐ๋ฐ LLM ์ฆ๋ช
ํ์ต๊ณผ ๋๋น๋ฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
SciBench์ ๊ฐ์ด ๋ํ ์์ค์ ๊ณผํ ๋ฌธ์ ํด๊ฒฐ ๋ฅ๋ ฅ ํ๊ฐ ๋ฒค์น๋งํฌ๋ ์๋ ์ ๋ฆฌ ์ฆ๋ช
์์คํ
์ ํญ๋์ ์ ์ฉ ๊ฐ๋ฅ์ฑ์ ๊ฒํ ํ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
379๋ฒ ๋
ผ๋ฌธ์ ์๋ ์ฆ๋ช
์ ์์ฑํ ์ธ์ด๋ชจ๋ธ์ ์ ์ฉํ ์ฌ๋ก๋ก, ์ฆ๋ช
๋ฐ์ดํฐ์
๊ตฌ์ฑ๊ณผ ํ๊ฐ ๋ฐฉ๋ฒ์ ํ๊ณ๋ฅผ ๋ค๋ฅด๊ฒ ์กฐ๋ช
ํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
379๋ ๋๊ท๋ชจ ์ธ์ด๋ชจ๋ธ์ ์๋ ์ ๋ฆฌ ์ฆ๋ช
์ ์ฌ์ฉํ๋ ์ ๊ทผ ๋ฐฉ์์ผ๋ก, ๋ฐ์ดํฐ ํฉ์ฑ๋ณด๋ค๋ ์๊ณ์ด์ ์ธ์ด๋ชจ๋ธ์ ํตํ ๋ฌธ์ ํด๊ฒฐ์ ์ด์ ์ ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
030์ ๋ฅ๋ฌ๋ ์ฆ๋ช
์๋ํ ์๋ฒ ์ด์ 379์ ์ฆ๋ช
์์ฑ ์ธ์ด๋ชจ๋ธ ์ฐ๊ตฌ๋ ๊ฐ์ ๋ฌธ์ ๋ฅผ ๊ฐ๊ธฐ ๋ฐฉ๋ฒ๋ก ยท๋ชจ๋ธ ๊ฐ๋ฐ ๊ด์ ์์ ๋ค๋ฃน๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
์์ฑ์ ์ธ์ด๋ชจ๋ธ์ด ์๋ํ๋ ์ํ ์ ๋ฆฌ ์ฆ๋ช
์ ์ด๋ป๊ฒ ์ ์ฉ๋๋์ง ์๋ก ๋ค๋ฅธ ๋ฐฉํฅ์ฑ์ ๋น๊ตํด๋ณผ ์ ์๋ค.
๋ค๋ฅธ ์ ๊ทผ
์๋ ์ ๋ฆฌ ์ฆ๋ช
์์ ์์ฑ ๊ธฐ๋ฐ ์ธ์ด๋ชจ๋ธ์ ์ฌ์ฉํ๋ ๋ ๋ค๋ฅธ ๋ฐฉ์์ผ๋ก ๋ณธ ๋
ผ๋ฌธ๊ณผ 3372๊ฐ ๋ฐฉ๋ฒ๋ก ์ ์ผ๋ก ๋น๊ต๋ ์ ์๋ค.
๋ค๋ฅธ ์ ๊ทผ
379 ๋
ผ๋ฌธ์ ์์ฑ์ ์ธ์ด ๋ชจ๋ธ๋ง์ ํตํ ์๋ํ๋ ์๋ฆฌ๋ฌผ๋ฆฌ ์ฆ๋ช
๋ฐ ์์ธก์ ๋ค๋ฃจ์ด, 3165์ ์ ๊ฒฝ ์ฐ์ฐ์ ๊ธฐ๋ฐ ์์คํ
๊ณผ ์ ๊ทผ๋ฒ์ ๊ต์ฐจ ๋น๊ตํ ๋งํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
miniF2F๋ ์ฌ๋ฌ ํ์ ์์คํ
์์ ์ฌ๋ฆผํผ์๋ ์์ค ๋ฌธ์ ๋ฅผ ํ์คํํ ๋ฒค์น๋งํฌ๋ก, ์ ๊ฒฝ ์ ๋ฆฌ ์ฆ๋ช
ํ๊ฐ๋ฅผ ์ฒด๊ณํํ์ฌ GPT-f ์ฐ๊ตฌ๋ฅผ ๋ฐ์ ์ํจ๋ค.
ํ์ ์ฐ๊ตฌ
FIMO์ IMO ์ํ ๋ฌธ์ ๋ฅผ ๋์์ผ๋ก LLM ๊ธฐ๋ฐ ์๋์ ๋ฆฌ์ฆ๋ช
์ฑ๋ฅ์ ๋ถ์ํ๋ฉฐ, ํ์ ๋ฐฉ๋ฒ๋ก ์ฐ๊ตฌ์ ๊ฒ์ฆ ๊ธฐ์ค์ด ๋๋ค.
ํ์ ์ฐ๊ตฌ
DeepSeek-Prover๋ ๋๊ท๋ชจ ํฉ์ฑ ๋ฐ์ดํฐ๋ฅผ ํตํด LLM ๊ธฐ๋ฐ ์ ๋ฆฌ ์ฆ๋ช
๋ฅ๋ ฅ์ ํฅ์์ํค๋ฉฐ, GPT-f์ ์ด๊ธฐ ์ ๊ฒฝ ์ ๋ฆฌ ์ฆ๋ช
์ ๊ทผ์ ๋ฐ์ ์ํจ ์ฐ๊ตฌ๋ค.
ํ์ ์ฐ๊ตฌ
Towards large language models as copilots for theorem proving ๋
ผ๋ฌธ์ LLM์ด ์ฆ๋ช
๋ณด์กฐ ๋๊ตฌ๋ก ์งํ๋ ํ์ฅ ์ฌ๋ก๋ฅผ ๋ค๋ฃน๋๋ค.
ํ์ ์ฐ๊ตฌ
M2F๋ ์ํ ๋ฌธํ์ Lean์ผ๋ก ์๋ ํ์ํํ๋ ์์ด์ ํธ ํ๋ ์์ํฌ๋ก, GPT-f์ ์ ๊ฒฝ ์ ๋ฆฌ ์ฆ๋ช
์ ๋๊ท๋ชจ ์๋ ํ์ํ๋ก ํ์ฅํ๋ค.
์์ฉ ์ฌ๋ก
TheoremQA ๋
ผ๋ฌธ์ ์ ๋ฆฌ ๊ธฐ๋ฐ ์ง์์๋ต ๋ฐ์ดํฐ์
์ ํตํด ์๋์ ๋ฆฌ์ฆ๋ช
LLM์ ์ค์ ๋ฌธ์ ํ์ด ๋ฅ๋ ฅ์ ํ๊ฐํฉ๋๋ค.
์์ฉ ์ฌ๋ก
379๋ฒ ๋
ผ๋ฌธ์ LLM์ ํ์ฉํ ์๋ ์ ๋ฆฌ ์ฆ๋ช
์ฌ๋ก๋ฅผ ๋ณด์ฌ์ฃผ์ด์, 467๋ฒ์ ์ด๋ก ์ ๋ฐฐ๊ฒฝ์ด ์ค์ ์ด๋ค ์ํ ๋ฌธ์ ํด๊ฒฐ๋ก ์ด์ด์ง๋์ง ์ฐ๊ฒฐํด์ค๋๋ค.
์์ฉ ์ฌ๋ก
379๋ ์๋ ์ฆ๋ช
์ ์ํ ์์ฑํ ์ธ์ด ๋ชจ๋ธ๋ง์ ๋ค๋ฃจ์ด, 568์์ ์์ฑ๋ ์ ๋ฆฌ/์ฆ๋ช
๋ฐ์ดํฐ๋ฅผ ์ค์ ๋ชจ๋ธ ํ์ต์ ์ด๋ป๊ฒ ์ ์ฉํ๋์ง ๋ณด์ฌ์ค๋ค.
์์ฉ ์ฌ๋ก
379 ๋
ผ๋ฌธ์ ์์ฑ ์ธ์ด๋ชจ๋ธ์ ํ์ฉํ ์๋ ์ ๋ฆฌ ์ฆ๋ช
์ ๋ค๋ฃจ๋ฉฐ, 489 ๋
ผ๋ฌธ์ ๊ณ ์ฐจ ๋
ผ๋ฆฌ ์ฒด๊ณ(Lf)๋ฅผ ์ค์ ์ฆ๋ช
์์
์ ์ด๋ป๊ฒ ์ ์ฉํ ์ ์๋์ง ์์ฌํฉ๋๋ค.
์์ฉ ์ฌ๋ก
๊ธฐ์ด ๋
ผ๋ฆฌ ๊ฒ์ฆ ๋ถ์ผ์์ Generative language modeling์ ํ์ฉํ ์๋ ์ฆ๋ช
๋
ผ๋ฌธ(379)์ self-critique ๊ธฐ๋ฐ ๋ฐ๋ณต์ ์ถ๋ก ์ ์ผ๋ฐํ ๋ฐ ์ํ์ ๋ฌธ์ ํ์ด์ ๋ํ ์ ์ฉ ์ฌ๋ก๋ก ์ฐธ๊ณ ํ ๋งํฉ๋๋ค.