์ ์: George Tsoukalas, Anton Kovsharov, Sergey Shirobokov, Anja Surina, Moritz Firsching, Gergely Bรฉrczi, Francisco J. R. Ruiz, Arun Suggala, Adam Zsolt Wagner, Eric Wieser, Lei Yu, Aja Huang, Miklรณs Z. Horvรกth, Andrew Ferrauiolo, Henryk Michalewski, Codrut Grosu, Thomas Hubert, Matej Balog, Pushmeet Kohli, Swarat Chaudhuri | ๋ ์ง: 2026/05/21 | URL: https://arxiv.org/abs/2605.22763v1 📄 PDF
Essence
Figure 1 | Example inputs/outputs for an AlphaProof-equipped agent (applied to Erdลs
์ด ๋
ผ๋ฌธ์ LLM์ ํ์ฉํ ํ์ ์ฆ๋ช
ํ์(formal proof search)์ผ๋ก ๊ฐ๋ฐฉํ ์ํ ๋ฌธ์ ๋ฅผ ์๋์ผ๋ก ํด๊ฒฐํ๋ ๋ฐฉ๋ฒ์ ์ ์ํ๋ค. AlphaProof Nexus ํ๋ ์์ํฌ๋ฅผ ํตํด Lean ์ฆ๋ช
์ด์์คํดํธ์ LLM์ ํตํฉํ์ฌ Erdลs ๋ฌธ์ 353๊ฐ ์ค 9๊ฐ, OEIS ์ถ์ธก 492๊ฐ ์ค 44๊ฐ๋ฅผ ์ฆ๋ช
ํ์ฌ, AI ๊ธฐ๋ฐ ํ์ ์ฆ๋ช
์ ์ค์ง์ ๊ฐ์น๋ฅผ ์
์ฆํ๋ค.
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ์ด ๋
ผ๋ฌธ์ LLM ๊ธฐ๋ฐ ํ์ ์ฆ๋ช
์ด ์ค์ ๊ฐ๋ฐฉํ ์ฐ๊ตฌ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ ์ ์์์ ์ฒ์ ๋๊ท๋ชจ๋ก ์
์ฆํ ์ค์ํ ์ฐ๊ตฌ์ด๋ค. ํ์ ์ ์ธ ์์ด์ ํธ ์ํคํ
์ฒ์ ์ค์ง์ ์ธ ์ํ ์ฐ๊ตฌ ์ฑ๊ณผ(Erdลs ๋ฌธ์ ํด๊ฒฐ, OEIS ์ถ์ธก ์ฆ๋ช
)๋ AI์ ์ํ ์ฐ๊ตฌ ๊ธฐ์ฌ๋ฅผ ๊ตฌ์ฒด์ ์ผ๋ก ๋ณด์ฌ์ค๋ค. ๋ค๋ง ๋น์ฉ ํจ์จ์ฑ ๊ฐ์ ํ์ ๋ฐ ๊ธฐ๋ณธ ์์ด์ ํธ๋ ๋๋ฑํ ์ฑ๋ฅ์ ๋ณด์ธ ์ ์ ์ ํ์ฌํญ์ด๋, ์ ๋ฐ์ ์ผ๋ก ํ์ ์ฆ๋ช
๊ธฐ๋ฐ AI ํ์ฉ์ ๊ฐ๋ฅ์ฑ์ ๊ฐํ๊ฒ ์
์ฆํ๋ ์๋ฏธ ์๋ ๋
ผ๋ฌธ์ด๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
FIMO ๋ฐ์ดํฐ์
์ ๋๊ท๋ชจ ์ธ์ด๋ชจ๋ธ์ ์ํ ์๋์ ๋ฆฌ์ฆ๋ช
์ฑ๋ฅ์ ํ๊ณ๋ฅผ ์ง์ ํ๋ฉฐ, 3372์ ํ์ ์ฆ๋ช
์๋ํ ์ฐ๊ตฌ์ ํ์์ฑ์ ์ด๋ก ์ ์ผ๋ก ๋ท๋ฐ์นจํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๋ฅ๋ฌ๋์ ํตํ ์ ๋ฆฌ ์ฆ๋ช
์๋ํ ๊ด๋ จ ์๋ฒ ์ด๋ก์ ๋ณธ ๋
ผ๋ฌธ์ ์ด๋ก ์ ํ ๋๋ฅผ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
504๋ ๊ณผํ ๋ฐฉ์ ์ ์๋ ๋ฐ๊ฒฌ ๋ฒค์น๋งํฌ/๋ฐฉ๋ฒ๋ก ์ ์ ๊ณตํ๋ฉฐ, 3372์ LLM+Lean ๊ธฐ๋ฐ ์ํ ์ ๋ฆฌ ๋ฐ๊ฒฌ์ ์ค์ง์ ํ๊ฐ ์งํ์ ๋น๊ต๊ตฐ์ ๋ง๋ จํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
์ํ ๋ฐ ๊ณผํ ๋ถ์ผ์์ AI ๊ธฐ๋ฐ ๊ณต์ ์ฆ๋ช
๋ฐ ์๊ฐํ ์๋ํ์ ๊ธฐ๋ฐ์ ๋ค๋ฃจ๋ ๋
ผ๋ฌธ์ผ๋ก PaperBanana์ ๊ธฐ์ ์ ํ ๋๊ฐ ๋ฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
์๋ ์ ๋ฆฌ ์ฆ๋ช
์์ ์์ฑ ๊ธฐ๋ฐ ์ธ์ด๋ชจ๋ธ์ ์ฌ์ฉํ๋ ๋ ๋ค๋ฅธ ๋ฐฉ์์ผ๋ก ๋ณธ ๋
ผ๋ฌธ๊ณผ 3372๊ฐ ๋ฐฉ๋ฒ๋ก ์ ์ผ๋ก ๋น๊ต๋ ์ ์๋ค.
๋ค๋ฅธ ์ ๊ทผ
Deepseek-prover๋ LLM ๊ธฐ๋ฐ ์๋ ์ ๋ฆฌ ์ฆ๋ช
๋ถ์ผ์์ ๋๊ท๋ชจ ์ฆ๋ช
๋ผ์ด๋ธ๋ฌ๋ฆฌ ๊ตฌ์ถ์ ์ฃผ๋ชฉํ๋ ๋์์ ๋ฐฉ๋ฒ์ ์ ์ํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
AI ๊ธฐ๋ฐ ์ํ ์ ๋ฆฌ ์ฆ๋ช
์๋ํ์ ๋์์ ์๋๋ก, AI-๊ตฌ๋ ๊ณต์ ์ฆ๋ช
ํ๋ ์์ํฌ๋ฅผ ๋ค๋ฃน๋๋ค.
ํ์ ์ฐ๊ตฌ
AI-๊ธฐ๋ฐ ์ํ ๊ณต์ํ ์ฐ๊ตฌ์์ TheoremQA ๋ฐ์ดํฐ์
ํ์ฉ ๋ฐ ํ์ฅ ์ฌ๋ก๋ฅผ ํ์ธํ ์ ์์ต๋๋ค.
ํ์ ์ฐ๊ตฌ
3372 ๋
ผ๋ฌธ์ ์๋ฆฌ์ ๊ณต์์ฆ๋ช
์์ AI ๊ธฐ๋ฐ ํฌ๋ฉ๋ฆฌ์ฆ ํ์ฅ ์ฌ๋ก๋ฅผ ์๊ฐํ๋ฉฐ, 568์์ ์์ฑ๋๋ ๋๊ท๋ชจ ๋ฐ์ดํฐ์
ํ์ฉ๋ฒ๊ณผ ์ฐ๊ฒฐ๋๋ค.
ํ์ ์ฐ๊ตฌ
3372 ๋
ผ๋ฌธ์ AI ๊ธฐ๋ฐ ์ํ ์ฐ๊ตฌ์ ์๋ ํ์ ์ฆ๋ช
์์คํ
์ ์ต์ ๋ฐ์ ์ ๋ค๋ฃจ๋ฉฐ, 489์ ๋
ผ๋ฆฌ์ ๊ธฐ์ด๋ฅผ ์ค์ ์ฐ๊ตฌ์ ํ์ฅ ์ ์ฉํ ์ฌ๋ก๋ฅผ ์ ์ํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
์ด ๋
ผ๋ฌธ ์ญ์ ์ธ๊ณต์ง๋ฅ์ ํตํ ์์จ ์ํ ์ฐ๊ตฌ์ ์ ๋ฐ์ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ฉฐ, 3372์ ์๋ ์ฆ๋ช
ํ์์ ์ํ ์ ์ฒด๋ก ํ์ฅํ๋ค.
ํ์ ์ฐ๊ตฌ
3372๋ ์ํ ์ฐ๊ตฌ ๋ถ๋ฌธ์์ ์์ด์ ํธ ๊ธฐ๋ฐ ์๋ํยทํ๋ ฅ ํ๋ ์์ํฌ๋ฅผ ๋ค๋ฃจ์ด, AI Co-Mathematician์ ์ ์ฒด ์์คํ
์ SOTA๋ก ํ์ฅํฉ๋๋ค.