์ ์: Yinya Huang, Xiaohan Lin, Zhengying Liu, Qingxing Cao, Huajian Xin, Haiming Wang, Zhenguo Li, Linqi Song, Xiaodan Liang | ๋ ์ง: 2024 | DOI: ๋ฏธ์ ๊ณต 📄 PDF
Essence
๋ค์ํ ์ค๊ฐ ์ถ๋ก ๋จ๊ณ ์์ฑ ๋ฐ ๊ฒ์ฆ ๋ฐฉ๋ฒ ๋น๊ต
๋ณธ ๋
ผ๋ฌธ์ ๋๊ท๋ชจ์ธ์ด๋ชจ๋ธ(LLM)๊ณผ ํ์ ์ ๋ฆฌ ์ฆ๋ช
๊ธฐ(formal theorem prover)์ ์ํธ์์ฉ์ ํตํด ๊ณ ํ์ง์ ์ํ ์ ๋ฆฌ์ ์ฆ๋ช
๋ฐ์ดํฐ๋ฅผ ๋๊ท๋ชจ๋ก ์์ฑํ๋ MUSTARD ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค. ์์ฑ๋ 5,866๊ฐ์ ๊ฒ์ฆ๋ ๋ฐ์ดํฐ๋ก ๊ตฌ์ฑ๋ MUSTARDSAUCE ๋ฒค์น๋งํฌ๋ฅผ ํตํด ๋ฏธ์ธ์กฐ์ ๋ ์ธ์ด๋ชจ๋ธ์ ์ํ์ ์ถ๋ก ๋ฅ๋ ฅ์ ํ๊ท 15.41% ์๋์ฑ๋ฅ ํฅ์์ผ๋ก ์
์ฆํ๋ค.
Evaluation
์ดํ: MUSTARD๋ LLM๊ณผ ํ์ ์ ๋ฆฌ ์ฆ๋ช
๊ธฐ์ ์ํธ์์ฉ์ ํตํด ๋๊ท๋ชจ ๊ณ ํ์ง ์ํ ๋ฐ์ดํฐ๋ฅผ ์๋ ์์ฑํ๋ ํจ๊ณผ์ ์ธ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ฉฐ, ๊ณต๊ฐ ๋ฒค์น๋งํฌ MUSTARDSAUCE์ ์ค์ ์ฑ๋ฅ ํฅ์์ผ๋ก ์ค์ฉ์ฑ์ ์
์ฆํ ์ฐ์ํ ๋
ผ๋ฌธ์ด๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
568๋ฒ ๋
ผ๋ฌธ์ ์ํ ์ ๋ฆฌ์ ์ฆ๋ช
๋ฐ์ดํฐ์ ๋๋ ํฉ์ฑ ์์คํ
์ ์๊ฐํ์ฌ, 543๋ฒ์ ๋ฐ์ดํฐ ๊ธฐ๋ฐ ์๋ฃจ์
์ ์ ๋ฐ ์๋ํ์ ํ์ํ ๋ฐ์ดํฐ ์ด์ฉ ๊ธฐ๋ฐ์ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
LLM์ ์ํ ์ ๋ฆฌ ์ฆ๋ช
๋ถ์ผ์ ๋์
ํ ์ด๊ธฐ ์ฐ๊ตฌ๋ก, 568์ ์ฆ๋ช
๋ฐ์ดํฐ ์์ฑ ๋ฐฉ์์ ์ด๋ก ์ ์๊ฐ์ ์ค๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
MUSTARD์ ์๋ ์ฆ๋ช
ํฉ์ฑยท๋ฐ์ดํฐ ํ๋ณด ๋ฐฉ๋ฒ๋ก ์ด Deepseek-prover์ ๋๊ท๋ชจ Lean ์ฆ๋ช
์ ํฉ์ฑ๊ณผ LLM ๋ฏธ์ธ์กฐ์ ์ ์ด๋ก ์ ๊ธฐ์ด๋ฅผ ์ ๊ณตํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
568์ด LLM๊ณผ ์ ๋ฆฌ ์ฆ๋ช
๊ธฐ์ ์ํธ์์ฉ ํตํ ์๋ ์ฆ๋ช
๋ฐ์ดํฐ ํฉ์ฑ์ ๊ฐ์กฐํ๋ ๋ฐ๋ฉด, 288์ ๋นํ์โํ์ ์ฆ๋ช
์ ํ์ ํตํ ์๋ ์ฆ๋ช
์ ๋๋ฒ์ ์ง์คํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
ํ์ ์ํ ๋ฌธ์ ์ ์ ๋ฆฌ-์ฆ๋ช
๋ฐ์ดํฐ ์์ฑ ๋ฐ ํฉ์ฑ ๋ฐฉ๋ฒ์ ์ค์ ์ ๋ ๋๋ค๋ฅธ ์ดํ๋ก์น.
๋ค๋ฅธ ์ ๊ทผ
030 ๋
ผ๋ฌธ์ ๋ฅ๋ฌ๋ ๊ธฐ๋ฐ ์ ๋ฆฌ ์๋ ์ฆ๋ช
(ATP)์ ๋ค์ํ ์ ๊ทผ๊ณผ 568์ ๊ณ ์ฐจ๋
ผ๋ฆฌ ์ ๋ฆฌ/์ฆ๋ช
๋ฐ์ดํฐ ํฉ์ฑ ๋ฐฉ์์ ์ฐจ์ด๋ฅผ ๋น๊ตํ ์ ์๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM-SRBench๋ ๊ณผํ ๋ฐฉ์ ์ ๋ฐ๊ฒฌ์ ๋ฒค์น๋งํฌ, MUSTARD๋ ํ์ ์ํ ์ฆ๋ช
๋ฐ์ดํฐ ์๋์์ฑ์ผ๋ก ์ํ์ reasoning ํ๊ฐ ๊ด์ ์ด ๋ค๋ฅด๋ค.
๋ค๋ฅธ ์ ๊ทผ
M2F ๋
ผ๋ฌธ์ MUSTARD์ ์ ์ฌํ๊ฒ ์ํ ์ ๋ฆฌ ์๋ ์์ฑ ๋ฐ ํ์์ฆ๋ช
๋ฐ์ดํฐ์
๊ตฌ์ถ์ ์ด์ ์ ๋ ๋์ฒด ์ ๊ทผ๋ฒ์
๋๋ค.
ํ์ ์ฐ๊ตฌ
Mustard ๋
ผ๋ฌธ์ ๊ธฐ๊ณ ์์ฑ ์ํ ์ ๋ฆฌยท์ฆ๋ช
๋ฐ์ดํฐ ํ์ฅ ๋ฐ ๋ฒค์น๋งํฌ ๊ฐ๋ฐ๋ก TheoremQA ๋ฐ์ดํฐ์
์ ํ์ฉ์ฑ์ ํ์ฅํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
568์ ์๋ ์์ฑ ์ฆ๋ช
๋ฐ์ดํฐ ์์ฐ ํ๋ ์์ํฌ(MUSTARD)๋ฅผ, 264๊ฐ ๋๊ท๋ชจ Lean 4 ์ฆ๋ช
์ ํฉ์ฑยทLLM ๋ฏธ์ธ์กฐ์ ๋ฑ์ผ๋ก ์์ฉ/ํ์ฅํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
251์ด ์ํ์ ์ฝํ์ผ๋ฟ ํ๋ จ ๋ฐ์ดํฐ์ ์ฆ๋ช
๊ณผ์ ๋ค์ํ ํ์์ฑ์ ์ง์ ํ ํ ์งํ, 568์ ์์ง์ ์ฆ๋ช
/์ ๋ฆฌ ๋ฐ์ดํฐ ๋ฒค์น๋งํฌ(MUSTARDSAUCE)๋ก ์ค์ง์ ๋ณด์์ ์๋ํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
Mustard์์๋ ๋ค์ํ ๊ณผํ ์๋ฎฌ๋ ์ด์
์์
์ ์ผ๊ด๋ ์๋ํ์ ํ๊ฐ ๋ฐฉ๋ฒ์ ๋ณด์ฌ์ค MooseAgent ๋ฐฉ์์ ์ ์ฉ ๊ฐ๋ฅ์ฑ์ ํ์ฅํ๋ค.
ํ์ ์ฐ๊ตฌ
3372 ๋
ผ๋ฌธ์ ์๋ฆฌ์ ๊ณต์์ฆ๋ช
์์ AI ๊ธฐ๋ฐ ํฌ๋ฉ๋ฆฌ์ฆ ํ์ฅ ์ฌ๋ก๋ฅผ ์๊ฐํ๋ฉฐ, 568์์ ์์ฑ๋๋ ๋๊ท๋ชจ ๋ฐ์ดํฐ์
ํ์ฉ๋ฒ๊ณผ ์ฐ๊ฒฐ๋๋ค.
์์ฉ ์ฌ๋ก
379๋ ์๋ ์ฆ๋ช
์ ์ํ ์์ฑํ ์ธ์ด ๋ชจ๋ธ๋ง์ ๋ค๋ฃจ์ด, 568์์ ์์ฑ๋ ์ ๋ฆฌ/์ฆ๋ช
๋ฐ์ดํฐ๋ฅผ ์ค์ ๋ชจ๋ธ ํ์ต์ ์ด๋ป๊ฒ ์ ์ฉํ๋์ง ๋ณด์ฌ์ค๋ค.
์์ฉ ์ฌ๋ก
TheoremQA ๋
ผ๋ฌธ์ MUSTARD ๋ฑ ์๋ ์์ฐ๋ ๋ฐ์ดํฐ๋ก ๋ฏธ์ธ์กฐ์ ๋ LLM์ ํ์ ์ํ ๋ฌธ์ ํด๊ฒฐ ๋ฅ๋ ฅ์ ์ค์ ํ๊ฐํฉ๋๋ค.
์์ฉ ์ฌ๋ก
MUSTARD ํ๋ ์์ํฌ๋ LLM ๊ธฐ๋ฐ์์ ์ํ ์ ๋ฆฌ์ ์ฆ๋ช
๋ฐ์ดํฐ ์์ฑ์ ์ง์คํด LLM์ ๊ณผํ์ ์ถ๋ก ๋ฅ๋ ฅ ํ๊ฐ์ ์ค์ง์ ์ฌ๋ก๋ก ์ฐ๊ฒฐ๋๋ค.
์์ฉ ์ฌ๋ก
AI Co-Mathematician ๋
ผ๋ฌธ์ MUSTARD์์ ๋ค๋ฃฌ LLM ๊ธฐ๋ฐ ์ํ ๋ฐ์ดํฐ ์์ฑ์ ์ค์ ์ํ์ ์ง์ ์์คํ
์ ์์ฉํ ๊ตฌ์ฒด์ ์ฌ๋ก๋ฅผ ์ ์ํ๋ค.