Generative language modeling for automated theorem proving

์ €์ž: Stanislas Polu, I. Sutskever | ๋‚ ์งœ: 2020 | DOI: arXiv:2009.03393 📄 PDF


Essence

ํŠธ๋žœ์Šคํฌ๋จธ ๊ธฐ๋ฐ˜ ์ƒ์„ฑ ์–ธ์–ด ๋ชจ๋ธ์„ ์ž๋™ ์ •๋ฆฌ ์ฆ๋ช…(automated theorem proving)์— ์ ์šฉํ•˜์—ฌ, ์‹ ๊ฒฝ๋ง์ด ํ˜•์‹ ์ˆ˜ํ•™ ์ถ”๋ก  ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ์Œ์„ ์ตœ์ดˆ๋กœ ์ž…์ฆํ•œ ์—ฐ๊ตฌ์ด๋‹ค. GPT-f ์‹œ์Šคํ…œ์€ Metamath ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ์— ์ฑ„ํƒ๋œ ์ƒˆ๋กœ์šด ์ฆ๋ช…๋“ค์„ ์ƒ์„ฑํ•จ์œผ๋กœ์จ, ๋”ฅ๋Ÿฌ๋‹ ๊ธฐ๋ฐ˜ ์‹œ์Šคํ…œ์ด ๊ณต์‹ ์ˆ˜ํ•™ ์ปค๋ฎค๋‹ˆํ‹ฐ์— ๊ธฐ์—ฌํ•œ ์ฒซ ์‚ฌ๋ก€๊ฐ€ ๋˜์—ˆ๋‹ค.

Motivation

Achievement

  1. ์„ฑ๊ณผ1 - ์ตœ๊ณ  ์„ฑ๋Šฅ ๋‹ฌ์„ฑ: Metamath ํ™˜๊ฒฝ์—์„œ ์ƒˆ๋กœ์šด ์ตœ๊ณ  ์„ฑ๋Šฅ ๊ธฐ๋ก (56.22% vs ๊ธฐ์กด 21.16%)
  2. ์„ฑ๊ณผ2 - ์‹ค์ œ ์ปค๋ฎค๋‹ˆํ‹ฐ ๊ธฐ์—ฌ: ์ƒ์„ฑ๋œ ์ฆ๋ช…์ด Metamath ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ์— ์ฑ„ํƒ๋จ (์‹ ๊ฒฝ๋ง ์‹œ์Šคํ…œ ์ตœ์ดˆ)
  3. ์„ฑ๊ณผ3 - ํ•™์Šต ํšจ๊ณผ ๊ฒ€์ฆ:
    • ์ˆ˜ํ•™ ๋ฐ์ดํ„ฐ(arXiv) ์‚ฌ์ „ํ•™์Šต์ด ์ผ๋ฐ˜ ์›น ๋ฐ์ดํ„ฐ๋ณด๋‹ค ์šฐ์ˆ˜
    • ๋ชจ๋ธ ํฌ๊ธฐ ์ฆ๊ฐ€๊ฐ€ ์„ฑ๋Šฅ ํ–ฅ์ƒ๊ณผ ์ •์ƒ ์ƒ๊ด€๊ด€๊ณ„ (์ž‘์€ ๋ฐ์ดํ„ฐ์…‹์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ )
    • ๊ฐ€์น˜ํ•จ์ˆ˜(value function) ๋ฐ˜๋ณต ํ•™์Šต์ด ์„ฑ๋Šฅ ๊ฐœ์„  ๋‹ฌ์„ฑ

How

Figure 1

์ฆ๋ช… ํƒ์ƒ‰(proof search)์€ ๋‹ค์–‘ํ•œ ์ „์ˆ (tactics)์„ ํƒ์ƒ‰ํ•˜๋Š” ์ฆ๋ช… ํŠธ๋ฆฌ๋ฅผ ์œ ์ง€

ํ•ต์‹ฌ ๋ฐฉ๋ฒ•๋ก :

Originality

Limitation & Further Study

ํ•œ๊ณ„:

ํ›„์† ์—ฐ๊ตฌ ๋ฐฉํ–ฅ:

Evaluation

Novelty: 5/5 Technical Soundness: 4/5 Significance: 5/5 Clarity: 4/5 Overall: 4.5/5

์ดํ‰: ์‹ ๊ฒฝ๋ง ๊ธฐ๋ฐ˜ ์ •๋ฆฌ ์ฆ๋ช… ์—ฐ๊ตฌ์— ์žˆ์–ด ํš๊ธฐ์ ์ธ ๋…ผ๋ฌธ์œผ๋กœ, ํŠธ๋žœ์Šคํฌ๋จธ์˜ ํ˜•์‹ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ์‹ค์ฆํ–ˆ์œผ๋ฉฐ ์‹ค์ œ ์ˆ˜ํ•™ ์ปค๋ฎค๋‹ˆํ‹ฐ ๊ธฐ์—ฌ๊นŒ์ง€ ๋‹ฌ์„ฑํ–ˆ๋‹ค. ๋‹ค๋งŒ Metamath ์„ ํƒ์œผ๋กœ ์ธํ•œ ์ €์ˆ˜์ค€ ํŠน์„ฑ๊ณผ ๋‹ค๋ฅธ ํ˜•์‹ ์‹œ์Šคํ…œ์œผ๋กœ์˜ ์ผ๋ฐ˜ํ™” ๊ฐ€๋Šฅ์„ฑ ๊ฒ€์ฆ์ด ํ–ฅํ›„ ๊ณผ์ œ์ด๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
GPT-f๋Š” ์‹ ๊ฒฝ ์ •๋ฆฌ ์ฆ๋ช…์˜ ์„ ๊ตฌ์  ์—ฐ๊ตฌ๋กœ, miniF2F ๋ฒค์น˜๋งˆํฌ๊ฐ€ ํ‰๊ฐ€ํ•˜๋Š” ์‹ ๊ฒฝ ์ •๋ฆฌ ์ฆ๋ช… ์‹œ์Šคํ…œ๋“ค์˜ ์ด๋ก ์  ํ† ๋Œ€๋ฅผ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
์ž๋™ ์ฆ๋ช…, ํŠนํžˆ ์ž์—ฐ์–ด-ํ˜•์‹ ์ฆ๋ช… ์ „ํ™˜์— ์žˆ์–ด ์ƒ์„ฑํ˜• ์–ธ์–ด ๋ชจ๋ธ ๊ธฐ๋ฐ˜ ์ฆ๋ช…๊ธฐ ์—ฐ๊ตฌ์˜ ์ด๋ก ์  ํ† ๋Œ€๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
LLM ๊ธฐ๋ฐ˜ ์‹ ๊ฒฝ ์ •๋ฆฌ ์ฆ๋ช…์˜ ์ด๋ก ์  ๋ฐ ์‹คํ—˜์  ์„ฑ๊ณผ๋ฅผ ์‹ฌ์ธต์ ์œผ๋กœ ์ดํ•ดํ•˜๋Š”๋ฐ ๋„์›€์ด ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
379๋Š” LLM์„ ํ™œ์šฉํ•œ ์ž๋™ ์ •๋ฆฌ ์ฆ๋ช…(generative theorem proving)์˜ ๊ธฐ์ดˆ๋ฅผ ์ œ๊ณตํ•˜๋ฉฐ, 808์˜ ์ •๋ฆฌ ์ค‘์‹ฌ QA ๋ฒค์น˜๋งˆํฌ ์„ค์ •์— ๊ธฐ๋ฐ˜์ด ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
์ž๋™ ์ •๋ฆฌ ์ฆ๋ช… ๋ถ„์•ผ์˜ ํŠธ๋žœ์Šคํฌ๋จธ ๊ธฐ๋ฐ˜ ์–ธ์–ด์ƒ์„ฑ ๋ชจ๋ธ ์—ฐ๊ตฌ๊ฐ€ SciBench ๋ฒค์น˜๋งˆํฌ ์‘์šฉ์˜ ์ด๋ก ์  ๊ธฐ๋ฐ˜์ž…๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Lean-star ๋…ผ๋ฌธ์€ ์‚ฌ๊ณ ์™€ ์ฆ๋ช… ํ•™์Šต์˜ ์ƒํ˜ธ์ž‘์šฉ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ๋‹ค๋ฃจ์–ด ๋ณธ ๋…ผ๋ฌธ์˜ ์ž๋™ ์ฆ๋ช… ์ƒ์„ฑ ๋ฐฉ์‹์— ์ด๋ก ์  ๋ฐ”ํƒ•์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
์ž๋™ ์ •๋ฆฌ ์ฆ๋ช… ๋ถ„์•ผ์˜ ์ƒ์„ฑ์  ์–ธ์–ด ๋ชจ๋ธ ์ ‘๊ทผ ๋…ผ๋ฌธ์€ POETRY์˜ ๋„คํŠธ์›Œํฌ ๊ธฐ๋ฐ˜ ์ฆ๋ช… ๋ฐฉ์‹์˜ ๋ฐฐ๊ฒฝ์ด ๋˜๋Š” ์—ฐ๊ตฌ์ž…๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
์ฆ๋ช… ์ƒ์„ฑ ๋ฐ ์ž๋™ํ™” ๊ด€๋ จ LLM์˜ ์‹ ๊ฒฝ์‹ฌ๋ณผ๋ฆญ ์ ‘๊ทผ์— ์ดˆ์ ์„ ๋งž์ถฐ Lean Copilot์˜ ์ด๋ก ์  ๊ธฐ๋ฐ˜๊ณผ ์ฐจ๋ณ„์ ์„ ์ดํ•ดํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Generative language modeling for automated theorem proving ๋…ผ๋ฌธ์€ ์ฒด์ธ์˜ค๋ธŒ์˜ํŠธ์™€ LLM ๊ธฐ๋ฐ˜ ์ˆ˜ํ•™ ์ฆ๋ช… ์ƒ์„ฑ์ด๋ผ๋Š” ์ฃผ์ œ์—์„œ 833 ๋…ผ๋ฌธ์˜ ํ•ต์‹ฌ ๋…ผ์˜์˜ ์ด๋ก ์  ๊ธฐ๋ฐ˜์ด ๋œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
์‹ ๊ฒฝ ์ •๋ฆฌ ์ฆ๋ช…์˜ ์ดˆ๊ธฐ ์—ฐ๊ตฌ๋Š” LLM์ด ํ˜•์‹์  ์ถ”๋ก ์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ฃผ์–ด, ๊ฐ€์„ค ๋ฐœ๊ฒฌ๊ณผ ๊ทœ์น™ ํ•™์Šต์˜ ์ด๋ก ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
์‹ ๊ฒฝ ์ •๋ฆฌ ์ฆ๋ช… ๊ธฐ์ˆ ์€ LLM์ด ๊ธฐํ˜ธ์  ์„ธ๊ณ„ ๋ชจ๋ธ์„ ํ˜•์‹์ ์œผ๋กœ ๊ฒ€์ฆํ•˜๊ณ  ์ƒ์„ฑํ•˜๋Š” ๋ฐ ํ•„์š”ํ•œ ํ˜•์‹ ์ถ”๋ก  ๋Šฅ๋ ฅ์˜ ์ด๋ก ์  ๊ธฐ๋ฐ˜์ด ๋œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
GPT-f๋Š” ์‹ ๊ฒฝ๋ง ๊ธฐ๋ฐ˜ ์ •๋ฆฌ ์ฆ๋ช…์˜ ์ตœ์ดˆ ์‹œ๋„๋กœ, M2F์˜ LLM ๊ธฐ๋ฐ˜ ์ž๋™ ํ˜•์‹ํ™” ํ”„๋ ˆ์ž„์›Œํฌ์˜ ์ด๋ก ์  ๊ธฐ๋ฐ˜์ด ๋œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
์ž๋™ํ™”๋œ ์ •๋ฆฌ ์ฆ๋ช… ๋ฐ LLM์˜ ์ž๋™ ํ˜•์‹ํ™” ๊ธฐ์ดˆ ์•Œ๊ณ ๋ฆฌ์ฆ˜์— ๋Œ€ํ•œ ์ด๋ก ์  ๋ฐ”ํƒ•์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
์‹ ๊ฒฝ ์ •๋ฆฌ ์ฆ๋ช… ๊ธฐ์ˆ ์€ SEVerA์˜ ํ˜•์‹์  ๊ณ„์•ฝ ๊ธฐ๋ฐ˜ ๊ฒ€์ฆ์—์„œ LLM ์ถœ๋ ฅ์„ ํ˜•์‹์ ์œผ๋กœ ๋ณด์ฆํ•˜๋Š” ์ด๋ก ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
์ž๋™ ์ •๋ฆฌ ์ฆ๋ช…๊ณผ ์ˆ˜ํ•™ ๋ฌธ์ œ ํ•ด๊ฒฐ์„ ์œ„ํ•œ ์ƒ์„ฑํ˜• LLM์˜ ๊ธฐ์ดˆ ๋ชจ๋ธ๋ง๊ณผ ์›Œํฌํ”Œ๋กœ์šฐ ๊ฐœ์„  ๋ฐฉํ–ฅ์ด ๋…ผ์˜๋จ.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
์ƒ์„ฑํ˜• ์–ธ์–ด๋ชจ๋ธ ๊ธฐ๋ฐ˜ ์ˆ˜์น˜/์–‘์ž ๋ฌธ์ œ ํ•ด๊ฒฐ์˜ ์›๋ฆฌ๋ฅผ formalized perspective์—์„œ ์„ค๋ช…ํ•˜์—ฌ, GQKAE ์•„ํ‚คํ…์ฒ˜์˜ ์ƒ์„ฑํ˜• ์–‘์ž๊ณ ์œ ๊ฐ’ ์ ‘๊ทผ ๋…ผ๋ฆฌ๋ฅผ ์ดํ•ดํ•˜๋Š” ๋ฐ ํ† ๋Œ€๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Generative language modeling for automated theorem proving ๋…ผ๋ฌธ์€ ์ƒ์„ฑ์  ์–ธ์–ด๋ชจ๋ธ ๊ธฐ๋ฐ˜ ์ฆ๋ช… ๋ฐฉ๋ฒ•์„ ์ œ์‹œํ•˜์—ฌ ๋ถ€๋ถ„๋ชฉํ‘œ ๊ธฐ๋ฐ˜ LLM ์ฆ๋ช… ํ•™์Šต๊ณผ ๋Œ€๋น„๋ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
SciBench์™€ ๊ฐ™์ด ๋Œ€ํ•™ ์ˆ˜์ค€์˜ ๊ณผํ•™ ๋ฌธ์ œ ํ•ด๊ฒฐ ๋Šฅ๋ ฅ ํ‰๊ฐ€ ๋ฒค์น˜๋งˆํฌ๋Š” ์ž๋™ ์ •๋ฆฌ ์ฆ๋ช… ์‹œ์Šคํ…œ์˜ ํญ๋„“์€ ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ์„ ๊ฒ€ํ† ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
379๋ฒˆ ๋…ผ๋ฌธ์€ ์ž๋™ ์ฆ๋ช…์— ์ƒ์„ฑํ˜• ์–ธ์–ด๋ชจ๋ธ์„ ์ ์šฉํ•œ ์‚ฌ๋ก€๋กœ, ์ฆ๋ช… ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์„ฑ๊ณผ ํ‰๊ฐ€ ๋ฐฉ๋ฒ•์˜ ํ•œ๊ณ„๋ฅผ ๋‹ค๋ฅด๊ฒŒ ์กฐ๋ช…ํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
379๋Š” ๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ์„ ์ž๋™ ์ •๋ฆฌ ์ฆ๋ช…์— ์‚ฌ์šฉํ•˜๋Š” ์ ‘๊ทผ ๋ฐฉ์‹์œผ๋กœ, ๋ฐ์ดํ„ฐ ํ•ฉ์„ฑ๋ณด๋‹ค๋Š” ์‹œ๊ณ„์—ด์  ์–ธ์–ด๋ชจ๋ธ์„ ํ†ตํ•œ ๋ฌธ์ œ ํ•ด๊ฒฐ์— ์ดˆ์ ์„ ๋‘”๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
030์˜ ๋”ฅ๋Ÿฌ๋‹ ์ฆ๋ช… ์ž๋™ํ™” ์„œ๋ฒ ์ด์™€ 379์˜ ์ฆ๋ช… ์ƒ์„ฑ ์–ธ์–ด๋ชจ๋ธ ์—ฐ๊ตฌ๋Š” ๊ฐ™์€ ๋ฌธ์ œ๋ฅผ ๊ฐ๊ธฐ ๋ฐฉ๋ฒ•๋ก ยท๋ชจ๋ธ ๊ฐœ๋ฐœ ๊ด€์ ์—์„œ ๋‹ค๋ฃน๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ƒ์„ฑ์  ์–ธ์–ด๋ชจ๋ธ์ด ์ž๋™ํ™”๋œ ์ˆ˜ํ•™ ์ •๋ฆฌ ์ฆ๋ช…์— ์–ด๋–ป๊ฒŒ ์ ์šฉ๋˜๋Š”์ง€ ์„œ๋กœ ๋‹ค๋ฅธ ๋ฐฉํ–ฅ์„ฑ์„ ๋น„๊ตํ•ด๋ณผ ์ˆ˜ ์žˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ž๋™ ์ •๋ฆฌ ์ฆ๋ช…์—์„œ ์ƒ์„ฑ ๊ธฐ๋ฐ˜ ์–ธ์–ด๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜๋Š” ๋˜ ๋‹ค๋ฅธ ๋ฐฉ์‹์œผ๋กœ ๋ณธ ๋…ผ๋ฌธ๊ณผ 3372๊ฐ€ ๋ฐฉ๋ฒ•๋ก ์ ์œผ๋กœ ๋น„๊ต๋  ์ˆ˜ ์žˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
379 ๋…ผ๋ฌธ์€ ์ƒ์„ฑ์  ์–ธ์–ด ๋ชจ๋ธ๋ง์„ ํ†ตํ•œ ์ž๋™ํ™”๋œ ์ˆ˜๋ฆฌ๋ฌผ๋ฆฌ ์ฆ๋ช… ๋ฐ ์˜ˆ์ธก์„ ๋‹ค๋ฃจ์–ด, 3165์˜ ์‹ ๊ฒฝ ์—ฐ์‚ฐ์ž ๊ธฐ๋ฐ˜ ์‹œ์Šคํ…œ๊ณผ ์ ‘๊ทผ๋ฒ•์„ ๊ต์ฐจ ๋น„๊ตํ•  ๋งŒํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
miniF2F๋Š” ์—ฌ๋Ÿฌ ํ˜•์‹ ์‹œ์Šคํ…œ์—์„œ ์˜ฌ๋ฆผํ”ผ์•„๋“œ ์ˆ˜์ค€ ๋ฌธ์ œ๋ฅผ ํ‘œ์ค€ํ™”ํ•œ ๋ฒค์น˜๋งˆํฌ๋กœ, ์‹ ๊ฒฝ ์ •๋ฆฌ ์ฆ๋ช… ํ‰๊ฐ€๋ฅผ ์ฒด๊ณ„ํ™”ํ•˜์—ฌ GPT-f ์—ฐ๊ตฌ๋ฅผ ๋ฐœ์ „์‹œํ‚จ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
FIMO์˜ IMO ์ˆ˜ํ•™ ๋ฌธ์ œ๋ฅผ ๋Œ€์ƒ์œผ๋กœ LLM ๊ธฐ๋ฐ˜ ์ž๋™์ •๋ฆฌ์ฆ๋ช… ์„ฑ๋Šฅ์„ ๋ถ„์„ํ•˜๋ฉฐ, ํ›„์† ๋ฐฉ๋ฒ•๋ก  ์—ฐ๊ตฌ์˜ ๊ฒ€์ฆ ๊ธฐ์ค€์ด ๋œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
DeepSeek-Prover๋Š” ๋Œ€๊ทœ๋ชจ ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ๋ฅผ ํ†ตํ•ด LLM ๊ธฐ๋ฐ˜ ์ •๋ฆฌ ์ฆ๋ช… ๋Šฅ๋ ฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๋ฉฐ, GPT-f์˜ ์ดˆ๊ธฐ ์‹ ๊ฒฝ ์ •๋ฆฌ ์ฆ๋ช… ์ ‘๊ทผ์„ ๋ฐœ์ „์‹œํ‚จ ์—ฐ๊ตฌ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Towards large language models as copilots for theorem proving ๋…ผ๋ฌธ์€ LLM์ด ์ฆ๋ช… ๋ณด์กฐ ๋„๊ตฌ๋กœ ์ง„ํ™”๋œ ํ™•์žฅ ์‚ฌ๋ก€๋ฅผ ๋‹ค๋ฃน๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
M2F๋Š” ์ˆ˜ํ•™ ๋ฌธํ—Œ์„ Lean์œผ๋กœ ์ž๋™ ํ˜•์‹ํ™”ํ•˜๋Š” ์—์ด์ „ํŠธ ํ”„๋ ˆ์ž„์›Œํฌ๋กœ, GPT-f์˜ ์‹ ๊ฒฝ ์ •๋ฆฌ ์ฆ๋ช…์„ ๋Œ€๊ทœ๋ชจ ์ž๋™ ํ˜•์‹ํ™”๋กœ ํ™•์žฅํ•œ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
TheoremQA ๋…ผ๋ฌธ์€ ์ •๋ฆฌ ๊ธฐ๋ฐ˜ ์งˆ์˜์‘๋‹ต ๋ฐ์ดํ„ฐ์…‹์„ ํ†ตํ•ด ์ž๋™์ •๋ฆฌ์ฆ๋ช… LLM์˜ ์‹ค์ œ ๋ฌธ์ œํ’€์ด ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
379๋ฒˆ ๋…ผ๋ฌธ์€ LLM์„ ํ™œ์šฉํ•œ ์ž๋™ ์ •๋ฆฌ ์ฆ๋ช… ์‚ฌ๋ก€๋ฅผ ๋ณด์—ฌ์ฃผ์–ด์„œ, 467๋ฒˆ์˜ ์ด๋ก ์  ๋ฐฐ๊ฒฝ์ด ์‹ค์ œ ์–ด๋–ค ์ˆ˜ํ•™ ๋ฌธ์ œ ํ•ด๊ฒฐ๋กœ ์ด์–ด์ง€๋Š”์ง€ ์—ฐ๊ฒฐํ•ด์ค๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
379๋Š” ์ž๋™ ์ฆ๋ช…์„ ์œ„ํ•œ ์ƒ์„ฑํ˜• ์–ธ์–ด ๋ชจ๋ธ๋ง์„ ๋‹ค๋ฃจ์–ด, 568์—์„œ ์ƒ์„ฑ๋œ ์ •๋ฆฌ/์ฆ๋ช… ๋ฐ์ดํ„ฐ๋ฅผ ์‹ค์ œ ๋ชจ๋ธ ํ•™์Šต์— ์–ด๋–ป๊ฒŒ ์ ์šฉํ•˜๋Š”์ง€ ๋ณด์—ฌ์ค€๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
379 ๋…ผ๋ฌธ์€ ์ƒ์„ฑ ์–ธ์–ด๋ชจ๋ธ์„ ํ™œ์šฉํ•œ ์ž๋™ ์ •๋ฆฌ ์ฆ๋ช…์„ ๋‹ค๋ฃจ๋ฉฐ, 489 ๋…ผ๋ฌธ์˜ ๊ณ ์ฐจ ๋…ผ๋ฆฌ ์ฒด๊ณ„(Lf)๋ฅผ ์‹ค์ œ ์ฆ๋ช… ์ž‘์—…์— ์–ด๋–ป๊ฒŒ ์ ์šฉํ•  ์ˆ˜ ์žˆ๋Š”์ง€ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
๊ธฐ์ดˆ ๋…ผ๋ฆฌ ๊ฒ€์ฆ ๋ถ„์•ผ์—์„œ Generative language modeling์„ ํ™œ์šฉํ•œ ์ž๋™ ์ฆ๋ช… ๋…ผ๋ฌธ(379)์€ self-critique ๊ธฐ๋ฐ˜ ๋ฐ˜๋ณต์  ์ถ”๋ก ์˜ ์ผ๋ฐ˜ํ™” ๋ฐ ์ˆ˜ํ•™์  ๋ฌธ์ œ ํ’€์ด์— ๋Œ€ํ•œ ์ ์šฉ ์‚ฌ๋ก€๋กœ ์ฐธ๊ณ ํ•  ๋งŒํ•ฉ๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •