AI Co-Mathematician: Accelerating Mathematicians with Agentic AI
๐ง Audio Overview ์์ฑ
์ ์ : Daniel Zheng, Ingrid von Glehn, Yori Zwols, Iuliya Beloshapka, Lars Buesing, Daniel M. Roy, Martin Wattenberg, Bogdan Georgiev, Tatiana Schmidt, Andrew Cowie, Fernanda Viegas, Dimitri Kanevsky, Vineet Kahlon, Hartmut Maennel, Sophia Alj, George Holland, Alex Davies, Pushmeet Kohli | ๋ ์ง : 2026-05-07 | URL : https://arxiv.org/abs/2605.06651 📄 PDF
Essence
Figure 1 | A simplified diagram of the organization of agents in a typical AI co-mathematician
์ํ ์ฐ๊ตฌ์ ์ ์ฒด ์ํฌํ๋ก์ฐ๋ฅผ ์ง์ํ๋ ์ํํ ์์ด์ ํธ ์์คํ
AI co-mathematician์ ์ ์ํ๋ค. ํ๋ก์ ํธ ์ฝ๋๋ค์ดํฐ ์์ด์ ํธ๊ฐ ์ฌ๋ฌ ์ ๋ฌธํ๋ ์์ด์ ํธ๋ฅผ ์กฐ์จํ์ฌ ์ด์๋ฐ์, ๋ฌธํ๊ฒ์, ๊ณ์ฐํ์, ์ ๋ฆฌ์ฆ๋ช
, ์ด๋ก ๊ตฌ์ถ์ ํฌ๊ดํ๋ ์ํธ์์ฉํ ์ํ ์ฐ๊ตฌ ํ๊ฒฝ์ ์ ๊ณตํ๋ฉฐ, FrontierMath Tier 4์์ 48% ์ ํ๋๋ก SOTA๋ฅผ ๋ฌ์ฑํ๋ค.
Motivation
Known : ์ต๊ทผ AI-for-mathematics ๋ถ์ผ๋ autonomous reasoning (Minerva, Aletheia), exploratory search (AlphaEvolve), formalized mathematics (AlphaProof) ๋ฑ ์ฌ๋ฌ ์ฐจ์์์ ๊ธ์ํ ๋ฐ์ ์ ์ด๋ค์๋ค. ๊ทธ๋ฌ๋ ์ด๋ฌํ ๊ธฐ๋ฅ๋ค์ ์ฅ๊ธฐ์ ์ธ ์ํํ ํ์
์ํฌํ๋ก์ฐ๋ก ์กฐ์จํ๋ ์ฐจ์์ ์ฌ์ ํ ๋ถ์กฑํ๋ค.
Gap : ๊ธฐ์กด AI ์ํ ์์คํ
๋ค์ ๊ณ ๋ฆฝ๋ ์ฟผ๋ฆฌ๋ ๊ฐ๋ณ ๊ธฐ๋ฅ์ ์ต์ ํ๋์ด ์์ผ๋, ์ค์ ์ํ ์ฐ๊ตฌ๋ ๋ถํ์ค์ฑ ๊ด๋ฆฌ, ๋ฌธํ ์ข
ํฉ, ์ค๊ฐ ์ฐ์ถ๋ฌผ ์์ฑ, ๋ณต์กํ ๊ฐ์ค ์ถ์ ๋ฑ ๋ค์ธต์ ์ธ ํ์
ํ๋์ ํ์๋ก ํ๋ค. ์ํํธ์จ์ด ์์ง๋์ด๋ง ๋ถ์ผ์ agentic AI ํ๊ฒฝ๊ณผ ๋ฌ๋ฆฌ, ์ํ ์ฐ๊ตฌ๋ฅผ ์ํ native orchestration layer๊ฐ ๋ถ์ฌํ๋ค.
Why : ์ํ ์ฐ๊ตฌ๋ ๋จ์ํ ์ ๋ฆฌ์ฆ๋ช
์ ๋์ด ํ์์ ์ด๊ณ ๋ฐ๋ณต์ ์ธ ๋ค์ํ ํ๋์ ํฌํจํ๋ค. ์ด๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์ง์ํ๋ ค๋ฉด ์ํ๋ฅผ ์ ์งํ๋ฉด์ ๋น๋๊ธฐ ํ์
์ด ๊ฐ๋ฅํ ์์คํ
์ด ํ์์ ์ด๋ฉฐ, ์ด๋ ๊ถ๊ทน์ ์ผ๋ก ์ํ์์ ๋ฐ๊ฒฌ ์๋๋ฅผ ํฌ๊ฒ ๊ฐ์ํํ ์ ์๋ค.
Approach : ์ผ๊ณฑ ๊ฐ์ง ์ค๊ณ ์์น์ ์๋ฆฝํ๋ค: (1) ์ ๋ฆฌ์ฆ๋ช
์ ๋๋ ์ํ ํ๋ ์ง์, (2) ์๋์ ๋ฐ๋ณต์ ์ ์ , (3) native ์ํ ์ฐ์ถ๋ฌผ ์์ฑ, (4) ๋น๋๊ธฐ ์ํธ์์ฉ๊ณผ ์ ์ฐํ ์กฐํฅ, (5) ํ๋ก๊ทธ๋๋งคํฑ ์ ์ฝ๊ณผ adversarial review loop๋ก ๊ฒฌ๊ณ ์ฑ ํ๋ณด, (6) ๋ณ๋ ฌ ์ํฌ์คํธ๋ฆผ์ ํตํ ๋ค์ธต์ ์ฐ๊ตฌ, (7) ๋ช
ํํ ์ฅ๊ธฐ ์ํ ์ถ์ . ํ๋ก์ ํธ ์ฝ๋๋ค์ดํฐ ์์ด์ ํธ๊ฐ ์ฌ๋ฌ ์ ๋ฌธํ๋ ์์ด์ ํธ๋ฅผ ์กฐ์จํ๋ฉฐ, Gemini ์ธ์ด ๋ชจ๋ธ ๊ธฐ๋ฐ์ผ๋ก ๊ตฌํ๋์๋ค.
Achievement
Figure 5 | Accuracy scores for Gemini 3.1 Pro, Gemini 3.1 Deep Think, and the AI co-mathematician
AI co-mathematician์ ์ค๊ณ ๋ฐ ๊ตฌํ : ์ํธ์์ฉํ ์ํ ์ฐ๊ตฌ ์ํฌ๋ฒค์น ์์คํ
๊ฐ๋ฐ. ์ํํ ํ์
์ํคํ
์ฒ : ํ๋ก์ ํธ ์ฝ๋๋ค์ดํฐ ์์ด์ ํธ์ ๋ณ๋ ฌ ์ํฌ์คํธ๋ฆผ์ผ๋ก ์ฅ๊ธฐ ์ฐ๊ตฌ ๊ด๋ฆฌ. Native ์ํ ์ฐ์ถ๋ฌผ : ์์
๋
ผ๋ฌธ, ์ฃผ์, ์ฆ๋ช
์ถ์ ๋ฑ ์ํ ๊ณต๋์ฒด์ ์น์ํ ์ํฐํฉํธ ์์ฑ. ๋ฒค์น๋งํฌ ์ฑ๊ณผ : FrontierMath Tier 4์์ 48% ์ ํ๋ ๋ฌ์ฑ (SOTA). ์ ์ฑ์ ๊ฒ์ฆ : ์ค์ ์ํ์๋ค์ด ๋ฏธํด๊ฒฐ ๋ฌธ์ ํด๊ฒฐ, ์ ์ฐ๊ตฌ ๋ฐฉํฅ ๋ฐ๊ฒฌ, ๊ฐ๊ณผ๋ ๋ฌธํ ์ฐธ๊ณ ๋ฑ์ ํ์ฉํ ์ฌ๋ก ์ ์.
How
Figure 4 | A single workstream consists of a sequence of actions taken by a workstream coordinator
ํ๋ก์ ํธ ์ฝ๋๋ค์ดํฐ ์์ด์ ํธ๊ฐ ๋ณต์กํ ์์
์ ์ฌ๋ฌ ์ ๋ฌธํ๋ ์์ด์ ํธ๋ก ์์ํ๊ณ ์กฐ์จ
๋น๋๊ธฐ ๋ฉ์์ง ์์คํ
์ผ๋ก ์ฌ๋ฌ ์์ด์ ํธ์ ๋ณ๋ ฌ ์์
์ง์
์ฌ์ฉ์๋ ์ธ์ ๋ ํ๋ก์ ํธ ์ฝ๋๋ค์ดํฐ ์์ด์ ํธ์ ํต์ ํ์ฌ ์งํ ์ค์ธ ์ฐ๊ตฌ์ ๊ฐ์
, ์ ์ฝ ์ฐํ, ์ฐ๊ตฌ ๋ฐฉํฅ ์กฐ์ ๊ฐ๋ฅ
์ค๊ฐ ์ฐ์ถ๋ฌผ๊ณผ ์ฃผ์์ ํตํด AI์ ํ์ ๊ณผ์ ์ native ์ํ ํ์์ผ๋ก ์๊ฐํ
Programmatic constraints์ adversarial review loop๋ก ์์คํ
์ด ๊ฑด๋ฐฉ์ ธ ๊ฒฐ๋ก ์ ๋๋ฌํ๋ ๊ฒ์ ๋ฐฉ์ง
์คํจํ ๊ฐ์ค ์ถ์ ๋ฐ ๋งฅ๋ฝ ์ ์ง๋ก ์ฅ๊ธฐ ์ฐ๊ตฌ ์ํ ๊ด๋ฆฌ
Originality
์ํ ์ฐ๊ตฌ์ ์ ์ฒด ์ํฌํ๋ก์ฐ๋ฅผ ์ง์ํ๋ stateful agent ์์คํ
: ๊ธฐ์กด ๋๋ถ๋ถ์ AI ์ํ ๋๊ตฌ๋ค์ ๊ฐ๋ณ ๊ธฐ๋ฅ(์ฆ๋ช
, ํ์ ๋ฑ)์ ํนํ๋์ด ์์ผ๋, ๋ณธ ์์คํ
์ ์ฅ๊ธฐ์ ํ์
์ํฌํ๋ก์ฐ๋ฅผ nativeํ๊ฒ ์ง์ํ๋ ์ธํฐํ์ด์ค์ ์ํคํ
์ฒ ์ค๊ณ
์ํํธ์จ์ด ์์ง๋์ด๋ง์ agentic paradigm์ ์ํ ์ฐ๊ตฌ์ ์ ์ฉ: ๋ฒ์ ๊ด๋ฆฌ, ์ง์์ ํ
์คํธ, ๋น๋๊ธฐ ์์
๋ฑ์ ๊ฐ๋
์ ์ํ ์ฐ๊ตฌ ๋งฅ๋ฝ์ ๋ง๊ฒ ์ฌํด์
Native ์ํ ์ํฐํฉํธ ์ค์ฌ์ ์ค๊ณ ์ฒ ํ: ์ฑ ๋ก๊ทธ ๋์ working paper, inline comments, margin notes๋ก ์ํ์ ์ปค๋ฎค๋ํฐ์ ์์ฐ์ค๋ฌ์ด ํ์ ์ ์
Limitation & Further Study
์์คํ
์ด ํ์ฌ ์ ํ๋ ์ด๊ธฐ ๋ฆด๋ฆฌ์ค ์ํ๋ก, ๊ด๋ฒ์ํ ์ ๊ทผ์ฑ ๋ถ์ฌ. ๊ธฐ์ ์ธ์ด ๋ชจ๋ธ์ reasoning ๋ฅ๋ ฅ์ ๋ณธ์ง์ ์ผ๋ก ์์กดํ๋ฏ๋ก, ๋ชจ๋ธ์ ์ฝ์ ์ด ์์คํ
์ฑ๋ฅ์ ์ ํ. FrontierMath Tier 4์์ 48% ์ ํ๋๋ ๋์ง๋ง, ์ฌ์ ํ ์ ๋ฐ์ ๋ฌธ์ ๋ ํด๊ฒฐํ์ง ๋ชปํจ. Programmatic constraints์ adversarial review์ ์ค์ ์ด ๋ฌธ์ ๋์ด๋๋ ๋๋ฉ์ธ์ ๋ฐ๋ผ ํฌ๊ฒ ๋ฌ๋ผ์ง ์ ์์ผ๋ฉฐ, ๋ฒ์ฉ์ ์ ์ฉ์ ์ด๋ ค์ ์กด์ฌ. ํ์ ์ฐ๊ตฌ๋ก๋: (1) AlphaProof, Aletheia ๊ฐ์ frontier reasoning ์์คํ
๊ณผ์ ๋์ ํตํฉ ์ฌํ, (2) ๋ ๋ค์ํ ์ํ ๋ถ์ผ ๋ฐ ์ฐ๊ตฌ ์คํ์ผ์ ๋ํ ํ๊ฐ, (3) ์ฌ์ฉ์ ํผ๋๋ฐฑ ๊ธฐ๋ฐ ์ธํฐํ์ด์ค ๊ฐ์ .
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ : ๋ณธ ๋
ผ๋ฌธ์ ์ํ ์ฐ๊ตฌ์ ์ ์ฒด ์ํฌํ๋ก์ฐ๋ฅผ ์ง์ํ๋ ํ์ ์ ์ธ ์ํํ agent ์์คํ
์ ์ ์ํ๋ฉฐ, ์ค๊ณ ์์น์ ์ฒ ํ์ ๊ทผ๊ฑฐ๊ฐ ํํํ๊ณ , FrontierMath Tier 4์์ SOTA ์ฑ๊ณผ๋ฅผ ๋ฌ์ฑํ๋ค. ๋ค๋ง ํ์ฌ ์ ํ๋ ๋ฆด๋ฆฌ์ค ์ํ์ด๊ณ , ์ ์ฑ์ ๊ฒ์ฆ ์ฌ๋ก๋ ํ๋ถํ์ง๋ง ๊ด๋ฒ์ํ ์ ๋์ ํ๊ฐ๊ฐ ์ถ๊ฐ์ ์ผ๋ก ํ์ํ๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ ๊ธฐ๋ฐ ์ฐ๊ตฌ
์๋ ์ ๋ฆฌ ์ฆ๋ช
๊ณผ ์ํ ๋ฌธ์ ํด๊ฒฐ์ ์ํ ์์ฑํ LLM์ ๊ธฐ์ด ๋ชจ๋ธ๋ง๊ณผ ์ํฌํ๋ก์ฐ ๊ฐ์ ๋ฐฉํฅ์ด ๋
ผ์๋จ.
๊ธฐ๋ฐ ์ฐ๊ตฌ
133 ๋
ผ๋ฌธ์ ์คํ๋ฌผ๋ฆฌ ์ฐ๊ตฌ ์๋ํ์ ์ฌ๋ก์ด์ง๋ง, ๋ณต์ก ์ด๋ก ๊ณผ ์คํ ์ํฌํ๋ก์ฐ ์๋ํ์ ์๋ฆฌ์ ๊ตฌ์กฐ๊ฐ ์ํ ์ฐ๊ตฌ ์์ด์ ํธ ์ค๊ณ์๋ ๊ฐ๋
์ ๊ธฐ๋ฐ์ด ๋ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
482๋ฒ ๋
ผ๋ฌธ์ ์๊ฐ-์ฆ๋ช
์ ์ํธ ๊ต์ฐจ ๋ฐฉ์์ ํ์ตํ๋ ์๋ก์ด ์ ๊ฒฝ ์ ๋ฆฌ์ฆ๋ช
ํต์ฌ ์ ๋ต์ ์ ์ํ์ฌ, ์ํธ์์ฉ์ ์ํ ์๋ํ์ ๋ค์ํ ์ค๊ณ์์ ๋น๊ตํ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
AI๊ฐ ์ํ ์ฐ๊ตฌ ์ ๋ฐ์ ๊ฑธ์ณ ์ด๋ค ์ญํ ์ ํ๋์ง, co-mathematician๊ณผ ์ ์ฌํ๊ฒ ์์ด์ ํธ ๊ธฐ๋ฐ ์ ๊ทผ์ ๋
ผํจ.
ํ์ ์ฐ๊ตฌ
3372๋ ์ํ ์ฐ๊ตฌ ๋ถ๋ฌธ์์ ์์ด์ ํธ ๊ธฐ๋ฐ ์๋ํยทํ๋ ฅ ํ๋ ์์ํฌ๋ฅผ ๋ค๋ฃจ์ด, AI Co-Mathematician์ ์ ์ฒด ์์คํ
์ SOTA๋ก ํ์ฅํฉ๋๋ค.
์์ฉ ์ฌ๋ก
AI Co-Mathematician ๋
ผ๋ฌธ์ MUSTARD์์ ๋ค๋ฃฌ LLM ๊ธฐ๋ฐ ์ํ ๋ฐ์ดํฐ ์์ฑ์ ์ค์ ์ํ์ ์ง์ ์์คํ
์ ์์ฉํ ๊ตฌ์ฒด์ ์ฌ๋ก๋ฅผ ์ ์ํ๋ค.
์์ฉ ์ฌ๋ก
ํํ ๋ถ์ผ์์ LLM ๊ธฐ๋ฐ ๊ณผํ์ ์ถ๋ก ์ ํ์ฅํด ์ํ์ AI ์์คํ
์ ๋ฒ์ฉ์ฑ๊ณผ ํ๊ณ๋ฅผ ๋น๊ต ๋ถ์ํ ์ ์์.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
๋์ ์ฒญ์ค
์ผ๋ฐ์ธ
๋ํ์ยท๋ํ์์
์ ๋ฌธ๊ฐ
ํค
์น๊ทผํ
ํ์ ์
ํ๊ธฐ์ฐฌ
์ฃผ์์ (์ ํ)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์
๋ซ๊ธฐ
์์ฑ
Developed by Jehyun Lee, KIST AIX Strategy Department | jehyun.lee@gmail.com