Essence
MerLean ์ํคํ
์ฒ: LaTeX ๋
ผ๋ฌธ์์ ๋ช
์ ๋ฅผ ์ถ์ถํ๊ณ Lean 4๋ก ํ์ํํ ํ ๋ค์ LaTeX๋ก ๋ณํํ๋ ์๋ฐฉํฅ ์๋ํ์ํ ํ๋ ์์ํฌ
๋ณธ ๋
ผ๋ฌธ์ ์์๊ณ์ฐ ์ด๋ก ๋
ผ๋ฌธ์ ์๋์ผ๋ก ๊ธฐ๊ณ๊ฒ์ฆ ๊ฐ๋ฅํ Lean 4 ์ฝ๋๋ก ๋ณํํ๋ ์์ ์๋ํ ์์ด์ ํธ ํ๋ ์์ํฌ MerLean์ ์ ์ํ๋ค. 3๊ฐ ์์๊ณ์ฐ ๋
ผ๋ฌธ์์ 114๊ฐ ๋ช
์ ๋ก๋ถํฐ 2,050๊ฐ Lean ์ ์ธ์ ์์ฑํ๋ฉฐ ์ ์ฒด ๋
ผ๋ฌธ์ ์๋ํ์ํ์ ์ฑ๊ณตํ๋ค.
Evaluation
์ดํ: MerLean์ LLM ์์ด์ ํธ๊ฐ ์ธ๊ฐ ๊ฐ์
์์ด ์ค์ ์ฐ๊ตฌ ๋
ผ๋ฌธ์ ๋๊ท๋ชจ๋ก ํ์ํํ ์ ์์์ ์ต์ด๋ก ์
์ฆํ ์ฃผ๋ชฉํ ๋งํ ์ฐ๊ตฌ๋ค. ์๋ฐฉํฅ ์ค๊ณ๋ก ๊ธฐ๊ณ๊ฒ์ฆ๊ณผ ์ธ๊ฐ๊ฒ์ฆ์ ๊ฒฐํฉํ๋ ์ค์ฉ์ ์ ๊ทผ์ด ์ธ์์ ์ด๋ฉฐ, ์์๊ณ์ฐ์ ๋์ด ์ํยท๋ฌผ๋ฆฌ ์ ๋ฐ์ผ๋ก์ ํ์ฅ ๊ฐ๋ฅ์ฑ๋ ๋๋ค. ๋ค๋ง ์๋ก์ด ์ ์/๊ณต๋ฆฌ์ ์ธ๊ฐ ๊ฒํ ํ์์ฑ, ์ ํ๋ ํ๊ฐ ๋ฒ์, ๋ฏธ๋ช
ํํ ๊ธฐ์ ์์ธ์ฌํญ์ด ๋ณด์ ํ์ ์์ญ์ด๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
์๋ํ๋ ์ ๋ฆฌ ์ฆ๋ช
๋ฐ LLM์ ์๋ ํ์ํ ๊ธฐ์ด ์๊ณ ๋ฆฌ์ฆ์ ๋ํ ์ด๋ก ์ ๋ฐํ์ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
์์๊ณ์ฐ ๊ณผํ๋ฌธ์์ ์๋ํ์ํ(Lean)์์ ํ์ฅํ์ฌ, ์ ์ฒด ์์์ํ๊ตฐ์ ์ค๊ณ๋ฒ์น๊ณผ ๋ฉํ-์คํ ์๋ํ๋ฅผ ์คํํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
313๋ฒ ๋
ผ๋ฌธ์ AI Scientist์ ํ์ ์ธ์ ๋ฉ์ปค๋์ฆ ํ๊ฐ๋ฅผ ๋ค๋ฃจ๋ฉฐ, ์๋ํ์ํ ๋
ผ๋ฌธ์ ๊ฐ์น์ ๊ฒ์ฆ ๊ธฐ์ค ๋
ผ์์ ์ด๋ก ์ ๋ฐฐ๊ฒฝ์ ์ ๊ณตํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๊ณผํ ๋ฌธํ์์ ๋ฏธ๋ ์ฐ๊ตฌ ๋ํฅ์ ์์ธกํ๋ ๋ค๋ฅธ ๋ฐฉ๋ฒ๋ก ์ ์ฌ์ฉํ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
532๋ ์์์ปดํจํ
๋
ผ๋ฌธ์ ์๋ Lean ์ฝ๋ ๋ณํ, 501์ ์์ ์ผ์ ์คํ ์๋ํ ์์คํ
์ผ๋ก, ๋ชจ๋ LLM ๊ธฐ๋ฐ์ ์์๋ถ์ผ ๊ณผํ์๋ํ์ ๋ค๋ฅธ ์์ฉ์ฌ๋ก์
๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋ฉํฐ LLM ๋๋ specialist ํ์ฉํ์ฌ ๊ณต์ ์ํ(์๋ฆฌ ๋
ผ์ฆ) ์๋ํ ๋ฌธ์ ์ ์ ๊ทผํ ๋์์ ๋ฐฉ์์
๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
MerLean ๋
ผ๋ฌธ์ ์ํ ํ์์ฃผ์์ ๋ฐฉ๋ฒ์ผ๋ก ๊ณผํ์ ๊ฐ๋
๊ณผ ์ฐ๊ตฌ์ ์๋ํ ๋ฐ ์๊ธฐ-๊ณต์ํ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ์ฌ, ๋ฒ์ฃผ๋ก ๊ธฐ๋ฐ ๊ณผํ ์๋ํ ์ ๊ทผ ๋ฒ๊ณผ ๋์กฐ์ ์ผ๋ก ์ดํด๋ณผ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
513๋ฒ ๋
ผ๋ฌธ์ ์ํ ๋
ผ๋ฌธ ์๋ํ์ํ(Mizar ๋ฑ)์ ๋ค๋ฃจ๋ฉฐ ๊ฑฐ์ ๋ถ์ผ ์ฐจ์ด์๋ ๋ถ๊ตฌํ๊ณ ์๋ํ ํ๋ ์์ํฌ์ ๊ธฐ์ ์ ์ฐจ๋ณ์ ์ ์ ์ํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
AI๋ฅผ ์ด์ฉํ ๋ฏธํด๊ฒฐ ๊ณผํ ๋ฌธ์ ์ ๊ทผ์ ๋ค๋ฅธ ๋ถ์ผ์์ ๋ค๋ฃจ๋ ์ฐ๊ตฌ์ด๋ค.
ํ์ ์ฐ๊ตฌ
LLM ๊ธฐ๋ฐ์ ์๋ ํฌ๋ฉ๋ผ์ด์ ์ด์
ํ๋ ์์ํฌ๋ก, IMO ์์ค ๋ฌธ์ ์ฆ๋ช
์๋ํ์ ๋์ ๊ณผ ์ค์ ๊ตฌํ ๋ฐ์ ์ ๋ณด์ฌ์ค๋ค.
ํ์ ์ฐ๊ตฌ
์ํ ์๋ํ ๋ฐ ์ฆ๋ช
๋ผ์ด๋ธ๋ฌ๋ฆฌ ํ์ฅ์ ์ด์ ์ ๋ง์ถ ํ๋ ์์ํฌ๋ก, Lego-prover์ ํ์ฉ๋์ ๋ฒ์ ํ์ฅ ์ฌ๋ก์ ํด๋นํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
532๊ฐ ๋
ผ๋ฌธโํ์ Lean ์ฝ๋ ์๋ํ๋ผ๋ฉด, 533์ LLM์ ํตํ ์์์คํ ๋ฉํ-์๋ฃจ์
์์ฑ๊ณผ ํด๋ฒ ํ์ฅ์ฑ์ ์ค์ ์ ๋ ํ์ ์ ๊ทผ์
๋๋ค.
ํ์ ์ฐ๊ตฌ
834๋ฒ ๋
ผ๋ฌธ์ ๊ณผํ ๋ฐ๊ฒฌ ์๋ํ์์ ์ํยท์ด๋ก ์ ์๋ฐ์ฑ์ ์ญํ ๋ฐ ํ๊ณ๋ฅผ ํฌ๊ด์ ์ผ๋ก ๋
ผ์ํ์ฌ, 532๋ฒ์ ์๋ฏธ๋ฅผ ๋ํ์ค๋๋ค.
์์ฉ ์ฌ๋ก
์ํ ๊ธฐ๋ฐ ์ง์์๋ต(Automated Theorem-driven QA)์ ์ญ๋์ด ์ค์ ์ฆ๋ช
์๋ํ ํ๋ ์์ํฌ์์ ์ด๋ป๊ฒ ํ๊ฐ๋๋์ง ํ์ธํ ์ ์์ต๋๋ค.