Data for mathematical copilots: Better ways of presenting proofs for machine learning

์ €์ž: Simon Frieder, Jonas Bayer, Sam Looi, Jacob Loader, Julius Berner, Katherine M. Collins ์™ธ | ๋‚ ์งœ: 2024 | DOI: arXiv:2412.15184 📄 PDF


Essence

ํ˜„์žฌ ์ˆ˜ํ•™ AI ๋ชจ๋ธ(ํŠนํžˆ ๋Œ€ํ˜• ์–ธ์–ด ๋ชจ๋ธ)์„ ํ›ˆ๋ จํ•˜๊ณ  ํ‰๊ฐ€ํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋˜๋Š” ๋ฐ์ดํ„ฐ์…‹๊ณผ ๋ฒค์น˜๋งˆํฌ๋Š” ์ˆ˜ํ•™ ์ •๋ฆฌ์˜ ์ตœ์ข… ์ฆ๋ช…๋งŒ์„ ๋‹ค๋ฃจ๋ฉฐ, ์ฆ๋ช…์˜ ๋™๊ธฐ, ๋ฐœ๊ฒฌ ๊ณผ์ •, ์ˆ˜ํ•™์ž์˜ ์‚ฌ๊ณ  ๊ณผ์ • ๋“ฑ ๋” ํ’๋ถ€ํ•œ ์ธก๋ฉด์„ ๋‹ด์ง€ ๋ชปํ•˜๊ณ  ์žˆ๋‹ค. ๋ณธ ๋…ผ๋ฌธ์€ ์ˆ˜ํ•™์  ์ฝ”ํŒŒ์ผ๋Ÿฟ(mathematical copilots)์˜ ๋Šฅ๋ ฅ ํ–ฅ์ƒ์„ ์œ„ํ•ด ๋ฐ์ดํ„ฐ์…‹ ์„ค๊ณ„์™€ ํ‰๊ฐ€ ๊ธฐ์ค€์˜ ๊ทผ๋ณธ์ ์ธ ๊ฐœ์„ ์ด ํ•„์š”ํ•จ์„ ์ฃผ์žฅํ•œ๋‹ค.

Motivation

Achievement

  1. 3๊ฐ€์ง€ ๋ชจ๋ธ ๋ถ„๋ฅ˜ ์ฒด๊ณ„ ์ œ์‹œ:
    • ์ข์€(narrow) ๋ชจ๋ธ: ํŠน์ • ์ˆ˜ํ•™ ์˜์—ญ ์ „๋ฌธํ™”, ํ˜•์‹ ์–ธ์–ด ํ•„์š” (์˜ˆ: AlphaGeometry, Newclid)
    • ๊ด‘๋ฒ”์œ„(broad) ๋ชจ๋ธ: ์ผ๋ฐ˜ ๋ชฉ์ ์˜ ์ˆ˜ํ•™ ์ฝ”ํŒŒ์ผ๋Ÿฟ, ์ž์—ฐ์–ธ์–ด ์ƒํ˜ธ์ž‘์šฉ, LLM ๊ธฐ๋ฐ˜
    • ๋ณดํŽธ(universal) ๋ชจ๋ธ: ์™„์ „ ์ž๋™ํ™”, ํ–ฅํ›„ "AI ์ˆ˜ํ•™์ž"๋กœ ์ง„ํ™” ๊ฐ€๋Šฅ
  2. ํ˜„์žฌ ๋ฐ์ดํ„ฐ์…‹์˜ 4๊ฐ€์ง€ ์ฒด๊ณ„์  ๋ฌธ์ œ์  ๊ทœ๋ช…:
    • GSM8K ๊ฐ™์€ ํŠน์ • ๋ฐ์ดํ„ฐ์…‹ ๊ณผ๋„ ์—ฐ๊ตฌ
    • ๊ณ ๊ธ‰ ์ˆ˜ํ•™, ๋„๊ตฌ ์‚ฌ์šฉ ๊ด€๋ จ ๋ฐ์ดํ„ฐ ๋ถ€์กฑ
    • ํ˜•์‹ ์–ธ์–ด vs. ์ž์—ฐ์–ธ์–ด ํ‘œํ˜„์˜ ๋ถˆ์ผ์น˜
    • ํ‰๊ฐ€์˜ ํ™•์žฅ์„ฑ ๋ฌธ์ œ
  3. ์ˆ˜ํ•™ AI๋ฅผ ์œ„ํ•œ ๋ฐ์ดํ„ฐ ๊ฐ์‚ฌ ํ•„์š”์„ฑ ์ œ๊ธฐ: ์œค๋ฆฌ, ๋ฐ์ดํ„ฐ ๊ด€๋ฆฌ, ํ™˜๊ฒฝ ๋ฐœ์ž๊ตญ ๋“ฑ ๋„๋ฉ”์ธ ํŠนํ™” ํ‰๊ฐ€ ๊ธฐ์ค€ ๋ถ€์žฌ๋ฅผ ์ง€์ 

How

Originality

Limitation & Further Study

Evaluation

์ดํ‰: ์ˆ˜ํ•™ AI ๋ถ„์•ผ์˜ ๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜ ๋ฐœ์ „์— ๋Œ€ํ•œ ์ค‘์š”ํ•œ ์„ฑ์ฐฐ์„ ์ œ๊ณตํ•˜๋ฉฐ, Pรณlya์˜ "motivated proof"๋ฅผ ํ†ตํ•ด ์‹ค์งˆ์  ๊ฐœ์„  ๋ฐฉํ–ฅ์„ ์ œ์‹œํ•œ ์ ์ด ์šฐ์ˆ˜ํ•˜๋‚˜, ๊ตฌ์ฒด์  ๊ตฌํ˜„ ๋ฐ ์‹ค์ฆ ๊ฒ€์ฆ ๋ถ€์กฑ์ด ํ•œ๊ณ„์ด๋‹ค. ํ•™๊ณ„์™€ ์‚ฐ์—…๊ณ„ ๋ชจ๋‘์— ์˜ํ–ฅ๋ ฅ ๋†’์€ ๋ฌธ์ œ ์ œ๊ธฐ ๋…ผ๋ฌธ์ด๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
482๋ฒˆ ๋…ผ๋ฌธ์€ '์ƒ๊ฐ๊ณผ ์ฆ๋ช…'์„ ๊ต์ฐจ์  ํ•™์Šตํ•˜๋Š” ์ ‘๊ทผ๋ฒ•์œผ๋กœ, ์ˆ˜ํ•™ ์ฆ๋ช… ๋ฐ์ดํ„ฐ์˜ ํ‘œํ˜„ ๋ฐฉ์‹ ๊ฐœ์„  ๋…ผ์˜์— ์ด๋ก ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
379๋ฒˆ ๋…ผ๋ฌธ์€ ์ž๋™ ์ฆ๋ช…์— ์ƒ์„ฑํ˜• ์–ธ์–ด๋ชจ๋ธ์„ ์ ์šฉํ•œ ์‚ฌ๋ก€๋กœ, ์ฆ๋ช… ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์„ฑ๊ณผ ํ‰๊ฐ€ ๋ฐฉ๋ฒ•์˜ ํ•œ๊ณ„๋ฅผ ๋‹ค๋ฅด๊ฒŒ ์กฐ๋ช…ํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
TheoremQA ๋…ผ๋ฌธ์€ ์ˆ˜ํ•™์  ์งˆ๋ฌธ-์ฆ๋ช… ์—ฐ์‡„์— ์ดˆ์ ์„ ๋งž์ถฐ, ์ฆ๋ช… ๋™๊ธฐ๋‚˜ ์‚ฌ๊ณ  ๊ณผ์ •์ด ์•„๋‹Œ ์ตœ์ข… ์ •๋‹ต๊ณผ ๊ทธ ํ•ด์„ค๋งŒ์„ ๋‹ค๋ฃธ์œผ๋กœ์จ ์ƒ๋ฐ˜๋œ ํ‰๊ฐ€ ๊ธฐ์ค€์„ ๋ณด์—ฌ์ค€๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋ฐ์ดํ„ฐ ์‚ฌ์ด์–ธ์Šค ์—์ด์ „ํŠธ์˜ ๋ฐ์ดํ„ฐ์…‹ ํ’ˆ์งˆ/์„ค๊ณ„ ์ธก๋ฉด์„ ์ง‘์ค‘ ํ‰๊ฐ€ํ•˜์—ฌ, AI ๊ธฐ๋ฐ˜ ์ˆ˜ํ•™ ์ง€์› ๋ฐ์ดํ„ฐ์˜ ๋‹ค์–‘์„ฑ ์ธก๋ฉด์—์„œ ์ฐธ๊ณ ํ•  ์ˆ˜ ์žˆ๋Š” ๋…ผ๋ฌธ์ž…๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ˆ˜ํ•™์  ์ฝ”ํŒŒ์ผ๋Ÿฟ์šฉ ๋ฐ์ดํ„ฐ ์กฐ์ง๊ณผ ํ‘œํ˜„์— ๊ด€ํ•œ ๋…ผ์˜๋Š”, ๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜ ์›Œํฌํ”Œ๋กœ์šฐ ์ตœ์ ํ™”์˜ ์ด๋ก ์  ์ธก๋ฉด์„ ๋ณด์™„ํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
251์ด ์ˆ˜ํ•™์  ์ฝ”ํŒŒ์ผ๋Ÿฟ ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์˜ ์ฆ๋ช… ๊ณผ์ • ๋‹ค์–‘ํ™” ํ•„์š”์„ฑ์„ ์ง€์ ํ•œ ํ˜„ ์งํ›„, 568์€ ์–‘์งˆ์˜ ์ฆ๋ช…/์ •๋ฆฌ ๋ฐ์ดํ„ฐ ๋ฒค์น˜๋งˆํฌ(MUSTARDSAUCE)๋กœ ์‹ค์งˆ์  ๋ณด์™„์„ ์‹œ๋„ํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
834๋ฒˆ ๋…ผ๋ฌธ์€ ์ˆ˜ํ•™ ์ฆ๋ช… ๋“ฑ ๊ณผํ•™์  ๊ณผ์ œ์˜ ๋ฐ์ดํ„ฐ ๋ฐ ํ‰๊ฐ€ ๋ฐฉ๋ฒ• ๊ฐœ์„  ํ•„์š”์„ฑ์„ ํฌ๊ด„์ ์œผ๋กœ ๋…ผ์˜ํ•˜์—ฌ 251๋ฒˆ ๋…ผ๋ฌธ์˜ ๊ฐœ์„  ๋ฐฉํ–ฅ์„ ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
์ƒ์„ฑ๋œ ์žฅ๋ฌธ๋งฅ ๋ฐ์ดํ„ฐ์…‹์˜ ํšจ๊ณผ๋Š” ์ˆ˜ํ•™์  ์ฝ”ํŒŒ์ผ๋Ÿฟ์˜ ์ฆ๋ช… ๋ฐ์ดํ„ฐ ๊ฐœ์„ ๊ณผ ์ง์ ‘์ ์œผ๋กœ ์—ฐ๊ฒฐ๋ฉ๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •