Minif2f: a cross-system benchmark for formal olympiad-level mathematics

์ €์ž: Kunhao Zheng, Jesse Michael Han, Stanislas Polu | ๋‚ ์งœ: 2021 | DOI: N/A 📄 PDF


Essence

๋ณธ ๋…ผ๋ฌธ์€ ์‹ ๊ฒฝ ์ •๋ฆฌ ์ฆ๋ช…(neural theorem proving) ๋ถ„์•ผ๋ฅผ ์œ„ํ•œ ์ตœ์ดˆ์˜ ํ†ตํ•ฉ ํฌ๋กœ์Šค ์‹œ์Šคํ…œ ๋ฒค์น˜๋งˆํฌ์ธ miniF2F๋ฅผ ์ œ์‹œํ•œ๋‹ค. ์ด๋Š” 488๊ฐœ์˜ ์˜ฌ๋ฆผํ”ผ์•„๋“œ ์ˆ˜์ค€ ์ˆ˜ํ•™ ๋ฌธ์ œ(IMO, AIME, AMC)๋ฅผ Metamath, Lean, Isabelle, HOL Light ๋“ฑ ๋‹ค์–‘ํ•œ ํ˜•์‹ ์‹œ์Šคํ…œ์—์„œ ํ‘œ์ค€ํ™”๋œ ํ˜•์‹์œผ๋กœ ์ œ๊ณตํ•จ์œผ๋กœ์จ, ์‹ ๊ฒฝ ์ •๋ฆฌ ์ฆ๋ช… ์‹œ์Šคํ…œ์˜ ์ˆ˜ํ•™์  ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ๊ณต์ •ํ•˜๊ฒŒ ๋น„๊ตํ•  ์ˆ˜ ์žˆ๋Š” ๊ณตํ†ต ์ž์›์„ ์ œ๊ณตํ•œ๋‹ค.

Motivation

Achievement

Figure 1

Figure 1: miniF2F์—์„œ ์„ฑ๊ณต์ ์œผ๋กœ ์ฆ๋ช…๋œ ๋ช…์ œ์˜ ๊ฐœ์ˆ˜ ๋น„๊ต. ์ดˆ๋ก์ƒ‰ ๋ง‰๋Œ€๋Š” Lean GPT-f์˜ ๊ฒฐ๊ณผ

  1. ๋ฒค์น˜๋งˆํฌ ๊ตฌ์„ฑ: ์ด 488๊ฐœ์˜ ์ˆ˜๋™ ํ˜•์‹ํ™”๋œ ๋ช…์ œ(244๊ฐœ ํ…Œ์ŠคํŠธ์…‹, 244๊ฐœ ๊ฒ€์ฆ์…‹)๋ฅผ IMO(20+20), AIME(15+15), AMC(45+45), MATH ๋‚œ์ด๋„๋ณ„(70+70), ์‚ฌ์šฉ์ž์ •์˜(34+34)๋กœ ๊ตฌ์„ฑํ•˜์—ฌ ๋‹ค์–‘ํ•œ ๋‚œ์ด๋„์™€ ์ฃผ์ œ๋ฅผ ํฌ๊ด„.
  2. ํฌ๋กœ์Šค ์‹œ์Šคํ…œ ํ˜ธํ™˜: Metamath, Lean, Isabelle(๋ถ€๋ถ„), HOL Light(๋ถ€๋ถ„)์˜ 4๊ฐœ ํ˜•์‹ ์‹œ์Šคํ…œ์—์„œ ๋™์ผํ•œ ๋ฌธ์ œ๋ฅผ ํ˜•์‹ํ™”ํ•˜์—ฌ ์‹œ์Šคํ…œ ๊ฐ„ ๋น„๊ต ๊ฐ€๋Šฅ์„ฑ ํ™•๋ณด.
  3. ๊ธฐ์„  ๊ฒฐ๊ณผ ์ œ์‹œ: GPT-f์™€ GPT-f/PACT๋ฅผ ์‚ฌ์šฉํ•œ ์‹ ๊ฒฝ ์ •๋ฆฌ ์ฆ๋ช… ์„ฑ๋Šฅ ์ธก์ •(Metamath, Lean)๊ณผ tidy ๊ธฐ์„  ํ”„๋กœ๋ฒ„ ๊ตฌํ˜„์œผ๋กœ ํ–ฅํ›„ ๋น„๊ต ๊ธฐ์ค€์  ์ œ์‹œ.
  4. ์‚ฌ์šฉ์ž ์นœํ™”์  ์„ค๊ณ„: MIT/Apache ๋ผ์ด์„ ์Šค, ๊ณต๊ฐœ ์ €์žฅ์†Œ, ๋ฒ„์ „ ๊ด€๋ฆฌ(v1), ์ปค๋ฎค๋‹ˆํ‹ฐ ๊ธฐ์—ฌ ์žฅ๋ ค ๋ฉ”์ปค๋‹ˆ์ฆ˜์œผ๋กœ ์ง€์† ๊ฐ€๋Šฅํ•œ ๋ฒค์น˜๋งˆํฌ ๊ตฌ์ถ•.

How

Originality

Limitation & Further Study

Evaluation

์ดํ‰: ๋ณธ ๋…ผ๋ฌธ์€ ์‹ ๊ฒฝ ์ •๋ฆฌ ์ฆ๋ช… ์ปค๋ฎค๋‹ˆํ‹ฐ์˜ ์˜ค๋žซ๋™์•ˆ์˜ ํ•„์š”๋ฅผ ์ถฉ์กฑ์‹œํ‚ค๋Š” ์ฒซ ๋ฒˆ์งธ ํ†ตํ•ฉ ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ๊ณตํ•จ์œผ๋กœ์จ, ์‹œ์Šคํ…œ ๊ฐ„ ๊ณต์ •ํ•œ ๋น„๊ต์™€ ์ง€์† ๊ฐ€๋Šฅํ•œ ์—ฐ๊ตฌ ์ƒํƒœ๊ณ„ ๊ตฌ์ถ•์— ๋งค์šฐ ํฐ ์˜์˜๊ฐ€ ์žˆ๋Š” ์ž‘์—…์ด๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
GPT-f๋Š” ์‹ ๊ฒฝ ์ •๋ฆฌ ์ฆ๋ช…์˜ ์„ ๊ตฌ์  ์—ฐ๊ตฌ๋กœ, miniF2F ๋ฒค์น˜๋งˆํฌ๊ฐ€ ํ‰๊ฐ€ํ•˜๋Š” ์‹ ๊ฒฝ ์ •๋ฆฌ ์ฆ๋ช… ์‹œ์Šคํ…œ๋“ค์˜ ์ด๋ก ์  ํ† ๋Œ€๋ฅผ ์ œ๊ณตํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
TheoremQA ๋…ผ๋ฌธ์€ ์ •๋ฆฌ ๊ตฌ๋™ ๋ฌธ์ œํ•ด๊ฒฐ ๋ฐ์ดํ„ฐ๋ฅผ ๋‹ค๋ฃจ์–ด ์ˆ˜๋ฆฌ์  ๋…ผ์ฆ/์ฆ๋ช… ํƒœ์Šคํฌ์˜ ๋˜๋‹ค๋ฅธ ํ‰๊ฐ€ ๋Œ€์ƒ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
SciBench๋Š” ๋Œ€ํ•™ ์ˆ˜์ค€ ๊ณผํ•™ ๋ฌธ์ œ ํ•ด๊ฒฐ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ๋ฒค์น˜๋งˆํฌ๋กœ, miniF2F์˜ ์˜ฌ๋ฆผํ”ผ์•„๋“œ ์ˆ˜ํ•™ ์ค‘์‹ฌ ํ˜•์‹ ์ฆ๋ช… ํ‰๊ฐ€์™€ ๋‹ค๋ฅธ ๊ณผํ•™์  ์ถ”๋ก  ํ‰๊ฐ€ ์ ‘๊ทผ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
482 ๋…ผ๋ฌธ์€ ์ž๋™ ์ •๋ฆฌ ์ฆ๋ช… ๊ณผ์ œ๋ฅผ ํ•™์Šต๊ณผ ์ถ”๋ก ์˜ ์ธํ„ฐ๋ฆฌ๋น™ ๋ฐฉ์‹์œผ๋กœ ์ ‘๊ทผํ•˜์—ฌ, ํ˜•์‹์  ์ฆ๋ช…์— ๋Œ€ํ•œ ๋‹ค์–‘ํ•œ ์ž๋™ํ™” ์ „๋žต์„ ๋น„๊ตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ž๋™ ์ •๋ฆฌ ์ฆ๋ช…์„ ์œ„ํ•œ ์‹ ๊ฒฝ๋ง ๊ธฐ๋ฐ˜ ์ ‘๊ทผ๋ฒ•์„ ๋‹ค๋ฃจ๋Š” ์œ ์‚ฌํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
neuro-symbolic ์ฆ๋ช… ํƒ์ƒ‰์˜ ๋Œ€์•ˆ์  ๋ฐฉ๋ฒ•๋ก ์„ ์ œ์‹œํ•˜๋Š” ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
miniF2F๋Š” ์—ฌ๋Ÿฌ ํ˜•์‹ ์‹œ์Šคํ…œ์˜ ํ‘œ์ค€ ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ๊ณตํ•˜์—ฌ, M2F์˜ ๋Œ€๊ทœ๋ชจ ์ž๋™ ํ˜•์‹ํ™” ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ๋ฐ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ๋Š” ๋Œ€์•ˆ์  ํ‰๊ฐ€ ์ฒด๊ณ„๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
miniF2F๋Š” ์—ฌ๋Ÿฌ ํ˜•์‹ ์‹œ์Šคํ…œ์—์„œ ์˜ฌ๋ฆผํ”ผ์•„๋“œ ์ˆ˜์ค€ ๋ฌธ์ œ๋ฅผ ํ‘œ์ค€ํ™”ํ•œ ๋ฒค์น˜๋งˆํฌ๋กœ, ์‹ ๊ฒฝ ์ •๋ฆฌ ์ฆ๋ช… ํ‰๊ฐ€๋ฅผ ์ฒด๊ณ„ํ™”ํ•˜์—ฌ GPT-f ์—ฐ๊ตฌ๋ฅผ ๋ฐœ์ „์‹œํ‚จ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Lego-prover๋Š” ๋ฌธ์ œ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ ์„ฑ์žฅ์— ๋”ฐ๋ผ ์‹ ๊ฒฝ ์ฆ๋ช… ๋Šฅ๋ ฅ์ด ๊ฐœ์„ ๋˜๋Š” ๊ตฌ์กฐ๋ฅผ ์ œ์•ˆํ•ด, miniF2F์˜ ํ™•์žฅ ์œตํ•ฉ์„ ์‹œ๋„ํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Deepseek-prover ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜ ์ฆ๋ช… ์‹œ์Šคํ…œ ์—ฐ๊ตฌ์—์„œ ์„ฑ๋Šฅ ๊ฐ์‡  ์—†๋Š” ์ฆ๋ช… ์ž๋™ํ™”๋ฅผ ์‹ค์ฆํ•˜์—ฌ ๋ฒค์น˜๋งˆํฌ์˜ ํ™œ์šฉ์„ ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
M2F๋Š” miniF2F์˜ ํ‰๊ฐ€ ์ฒด๊ณ„๋ฅผ ๋„˜์–ด ๊ต๊ณผ์„œ ๊ทœ๋ชจ์˜ ์ˆ˜ํ•™ ๋ฌธํ—Œ์„ ์ž๋™ ํ˜•์‹ํ™”ํ•˜๋Š” ์‹ค์šฉ์  ํ™•์žฅ์„ ์ œ์‹œํ•œ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
์˜ฌ๋ฆผํ”ผ์•„๋“œ ์ˆ˜์ค€ ์ •๋ฆฌ ์ฆ๋ช…์—์„œ ํฌ๋กœ์Šค-์‹œ์Šคํ…œ ์ž๋™ ์ฆ๋ช…์„ ๋ฒค์น˜๋งˆํ‚นํ•ด, ๋ณธ ๋…ผ๋ฌธ์˜ ๋ฐฉ๋ฒ•๋ก  ์‹ค์งˆ์  ์ ์šฉ ์‚ฌ๋ก€๋ฅผ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
Minif2f: a cross-system benchmark for formal olympiad-level proving ๋…ผ๋ฌธ์€ IMO ์ˆ˜์ค€์˜ ํ˜•์‹ ๋ฌธ์ œ๋ฅผ ๋‹ค์–‘ํ•œ ์‹œ์Šคํ…œ์—์„œ ํ‰๊ฐ€ํ•จ์œผ๋กœ์จ FIMO์™€ ์ƒํ˜ธ ์ฐธ๊ณ  ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •