Essence
๋ณธ ๋
ผ๋ฌธ์ ์ ๊ฒฝ ์ ๋ฆฌ ์ฆ๋ช
(neural theorem proving) ๋ถ์ผ๋ฅผ ์ํ ์ต์ด์ ํตํฉ ํฌ๋ก์ค ์์คํ
๋ฒค์น๋งํฌ์ธ miniF2F๋ฅผ ์ ์ํ๋ค. ์ด๋ 488๊ฐ์ ์ฌ๋ฆผํผ์๋ ์์ค ์ํ ๋ฌธ์ (IMO, AIME, AMC)๋ฅผ Metamath, Lean, Isabelle, HOL Light ๋ฑ ๋ค์ํ ํ์ ์์คํ
์์ ํ์คํ๋ ํ์์ผ๋ก ์ ๊ณตํจ์ผ๋ก์จ, ์ ๊ฒฝ ์ ๋ฆฌ ์ฆ๋ช
์์คํ
์ ์ํ์ ์ถ๋ก ๋ฅ๋ ฅ์ ๊ณต์ ํ๊ฒ ๋น๊ตํ ์ ์๋ ๊ณตํต ์์์ ์ ๊ณตํ๋ค.
Evaluation
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ ์ ๊ฒฝ ์ ๋ฆฌ ์ฆ๋ช
์ปค๋ฎค๋ํฐ์ ์ค๋ซ๋์์ ํ์๋ฅผ ์ถฉ์กฑ์ํค๋ ์ฒซ ๋ฒ์งธ ํตํฉ ๋ฒค์น๋งํฌ๋ฅผ ์ ๊ณตํจ์ผ๋ก์จ, ์์คํ
๊ฐ ๊ณต์ ํ ๋น๊ต์ ์ง์ ๊ฐ๋ฅํ ์ฐ๊ตฌ ์ํ๊ณ ๊ตฌ์ถ์ ๋งค์ฐ ํฐ ์์๊ฐ ์๋ ์์
์ด๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
GPT-f๋ ์ ๊ฒฝ ์ ๋ฆฌ ์ฆ๋ช
์ ์ ๊ตฌ์ ์ฐ๊ตฌ๋ก, miniF2F ๋ฒค์น๋งํฌ๊ฐ ํ๊ฐํ๋ ์ ๊ฒฝ ์ ๋ฆฌ ์ฆ๋ช
์์คํ
๋ค์ ์ด๋ก ์ ํ ๋๋ฅผ ์ ๊ณตํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
TheoremQA ๋
ผ๋ฌธ์ ์ ๋ฆฌ ๊ตฌ๋ ๋ฌธ์ ํด๊ฒฐ ๋ฐ์ดํฐ๋ฅผ ๋ค๋ฃจ์ด ์๋ฆฌ์ ๋
ผ์ฆ/์ฆ๋ช
ํ์คํฌ์ ๋๋ค๋ฅธ ํ๊ฐ ๋์์ ์ ์ํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
SciBench๋ ๋ํ ์์ค ๊ณผํ ๋ฌธ์ ํด๊ฒฐ ๋ฅ๋ ฅ์ ํ๊ฐํ๋ ๋ฒค์น๋งํฌ๋ก, miniF2F์ ์ฌ๋ฆผํผ์๋ ์ํ ์ค์ฌ ํ์ ์ฆ๋ช
ํ๊ฐ์ ๋ค๋ฅธ ๊ณผํ์ ์ถ๋ก ํ๊ฐ ์ ๊ทผ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
482 ๋
ผ๋ฌธ์ ์๋ ์ ๋ฆฌ ์ฆ๋ช
๊ณผ์ ๋ฅผ ํ์ต๊ณผ ์ถ๋ก ์ ์ธํฐ๋ฆฌ๋น ๋ฐฉ์์ผ๋ก ์ ๊ทผํ์ฌ, ํ์์ ์ฆ๋ช
์ ๋ํ ๋ค์ํ ์๋ํ ์ ๋ต์ ๋น๊ตํ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
์๋ ์ ๋ฆฌ ์ฆ๋ช
์ ์ํ ์ ๊ฒฝ๋ง ๊ธฐ๋ฐ ์ ๊ทผ๋ฒ์ ๋ค๋ฃจ๋ ์ ์ฌํ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
neuro-symbolic ์ฆ๋ช
ํ์์ ๋์์ ๋ฐฉ๋ฒ๋ก ์ ์ ์ํ๋ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
miniF2F๋ ์ฌ๋ฌ ํ์ ์์คํ
์ ํ์ค ๋ฒค์น๋งํฌ๋ฅผ ์ ๊ณตํ์ฌ, M2F์ ๋๊ท๋ชจ ์๋ ํ์ํ ์ฑ๋ฅ์ ํ๊ฐํ๋ ๋ฐ ํ์ฉํ ์ ์๋ ๋์์ ํ๊ฐ ์ฒด๊ณ๋ค.
ํ์ ์ฐ๊ตฌ
miniF2F๋ ์ฌ๋ฌ ํ์ ์์คํ
์์ ์ฌ๋ฆผํผ์๋ ์์ค ๋ฌธ์ ๋ฅผ ํ์คํํ ๋ฒค์น๋งํฌ๋ก, ์ ๊ฒฝ ์ ๋ฆฌ ์ฆ๋ช
ํ๊ฐ๋ฅผ ์ฒด๊ณํํ์ฌ GPT-f ์ฐ๊ตฌ๋ฅผ ๋ฐ์ ์ํจ๋ค.
ํ์ ์ฐ๊ตฌ
Lego-prover๋ ๋ฌธ์ ๋ผ์ด๋ธ๋ฌ๋ฆฌ ์ฑ์ฅ์ ๋ฐ๋ผ ์ ๊ฒฝ ์ฆ๋ช
๋ฅ๋ ฅ์ด ๊ฐ์ ๋๋ ๊ตฌ์กฐ๋ฅผ ์ ์ํด, miniF2F์ ํ์ฅ ์ตํฉ์ ์๋ํ๋ค.
ํ์ ์ฐ๊ตฌ
Deepseek-prover ๋
ผ๋ฌธ์ LLM ๊ธฐ๋ฐ ์ฆ๋ช
์์คํ
์ฐ๊ตฌ์์ ์ฑ๋ฅ ๊ฐ์ ์๋ ์ฆ๋ช
์๋ํ๋ฅผ ์ค์ฆํ์ฌ ๋ฒค์น๋งํฌ์ ํ์ฉ์ ํ์ฅํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
M2F๋ miniF2F์ ํ๊ฐ ์ฒด๊ณ๋ฅผ ๋์ด ๊ต๊ณผ์ ๊ท๋ชจ์ ์ํ ๋ฌธํ์ ์๋ ํ์ํํ๋ ์ค์ฉ์ ํ์ฅ์ ์ ์ํ๋ค.
์์ฉ ์ฌ๋ก
์ฌ๋ฆผํผ์๋ ์์ค ์ ๋ฆฌ ์ฆ๋ช
์์ ํฌ๋ก์ค-์์คํ
์๋ ์ฆ๋ช
์ ๋ฒค์น๋งํนํด, ๋ณธ ๋
ผ๋ฌธ์ ๋ฐฉ๋ฒ๋ก ์ค์ง์ ์ ์ฉ ์ฌ๋ก๋ฅผ ๋ณด์ฌ์ค๋๋ค.
์์ฉ ์ฌ๋ก
Minif2f: a cross-system benchmark for formal olympiad-level proving ๋
ผ๋ฌธ์ IMO ์์ค์ ํ์ ๋ฌธ์ ๋ฅผ ๋ค์ํ ์์คํ
์์ ํ๊ฐํจ์ผ๋ก์จ FIMO์ ์ํธ ์ฐธ๊ณ ๊ฐ๋ฅํฉ๋๋ค.