TheoremQA: A Theorem-driven Question Answering Dataset

์ €์ž: Wenhu Chen, Ming Yin, Max Ku, Pan Lu, Yixin Wan, Xueguang Ma, Jianyu Xu, Xinyi Wang, Tony Xia | ๋‚ ์งœ: 2023 | DOI: N/A 📄 PDF


Essence

Figure 1

TheoremQA์˜ ๊ฐœ์š” ๋ฐ ์ ์šฉ๋œ ํ”„๋กฌํ”„ํŒ… ์ „๋žต

๋Œ€ํ•™ ์ˆ˜์ค€์˜ ์ˆ˜ํ•™, ๋ฌผ๋ฆฌ, ๊ธˆ์œต, ์ „์‚ฐ ๋ถ„์•ผ์—์„œ 350๊ฐœ ์ด์ƒ์˜ ์ •๋ฆฌ(theorem)๋ฅผ ํฌํ•จํ•˜๋Š” 800๊ฐœ์˜ ๊ณ ํ’ˆ์งˆ ์งˆ๋ฌธ-๋‹ต๋ณ€ ์Œ์œผ๋กœ ๊ตฌ์„ฑ๋œ ์ •๋ฆฌ ์ค‘์‹ฌ ์งˆ๋ฌธ ๋‹ต๋ณ€ ๋ฐ์ดํ„ฐ์…‹์„ ์ œ์‹œํ•œ๋‹ค. ์ด๋Š” LLM์˜ ๋„๋ฉ”์ธ ์ง€์‹ ์ ์šฉ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ์ฒซ ๋ฒˆ์งธ ๋ฒค์น˜๋งˆํฌ์ด๋‹ค.

Motivation

Achievement

Figure 2

TheoremQA์˜ ์˜ˆ์‹œ. Stokes ์ •๋ฆฌ๋ฅผ ์ด์šฉํ•œ ์ ๋ถ„ ๋ณ€ํ™˜ ๋ฌธ์ œ

  1. ๊ด‘๋ฒ”์œ„ํ•œ ์ •๋ฆฌ ์ปค๋ฒ„๋ฆฌ์ง€: ์ˆ˜ํ•™(199๊ฐœ), ๋ฌผ๋ฆฌ(52๊ฐœ), ๊ธˆ์œต(55๊ฐœ), ์ „์‚ฐ(48๊ฐœ) ๋“ฑ 354๊ฐœ์˜ ์ •๋ฆฌ๋ฅผ ํฌํ•จํ•˜๋ฉฐ, ๋Œ€์ˆ˜ํ•™, ์ •์ˆ˜๋ก , ๊ทธ๋ž˜ํ”„ ์ด๋ก , ์ •๋ณด์ด๋ก  ๋“ฑ ๋‹ค์–‘ํ•œ ์„ธ๋ถ€๋ถ„์•ผ๋ฅผ ํฌ๊ด„.
  2. LLM ์„ฑ๋Šฅ์˜ ๊ณ„์ธตํ™” ๋œ ๊ฒฉ์ฐจ ๋ฐœ๊ฒฌ:
    • GPT-4: Program-of-Thoughts (PoT) ํ”„๋กฌํ”„ํŒ…์œผ๋กœ 51% ์ •ํ™•๋„ (์ตœ๊ณ  ์„ฑ๋Šฅ)
    • ChatGPT: 35% ์ •ํ™•๋„
    • ์˜คํ”ˆ์†Œ์Šค ๋ชจ๋ธ๋“ค(Alpaca, LLaMA ๋“ฑ): ๋ชจ๋‘ 15% ์ดํ•˜๋กœ ๋ฌด์ž‘์œ„ ์ถ”์ธก(10%)๊ณผ ๊ฑฐ์˜ ๋™๋“ฑํ•œ ์ˆ˜์ค€
  3. ์˜ค๋ฅ˜ ๋ถ„์„์„ ํ†ตํ•œ ์„ฑ๋Šฅ ๊ฐœ์„  ์—ฌ์ง€ ํŒŒ์•…: GPT-4์˜ ์˜ค๋ฅ˜ ์ค‘ ์•ฝ 50%๋Š” ๊ณ„์‚ฐ ์˜ค๋ฅ˜, ๋ฐ˜์˜ฌ๋ฆผ ์˜ค๋ฅ˜ ๋“ฑ ์‚ฌ์†Œํ•œ ์‹ค์ˆ˜์—์„œ ๋น„๋กฏ๋˜์–ด ๋” ์ •๊ตํ•œ ํ”„๋กฌํ”„ํŒ…์œผ๋กœ ๊ฐœ์„  ๊ฐ€๋Šฅํ•จ. ๋ฐ˜๋ฉด ์˜คํ”ˆ์†Œ์Šค ๋ชจ๋ธ์˜ ์˜ค๋ฅ˜ 90%๋Š” ์ •๋ฆฌ ์ž์ฒด์— ๋Œ€ํ•œ ์ง€์‹ ๋ถ€์กฑ์œผ๋กœ ๊ทผ๋ณธ์  ๊ฐœ์„  ํ•„์š”.
  4. ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ํ‰๊ฐ€: 51๊ฐœ์˜ ์ด๋ฏธ์ง€ ํฌํ•จ ์งˆ๋ฌธ์„ ํ†ตํ•ด ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ชจ๋ธ๋“ค์„ ํ‰๊ฐ€ํ–ˆ์œผ๋‚˜, ๋„ํ‘œ ๋ฐ ํ…์ŠคํŠธ๊ฐ€ ํ˜ผ์žฌ๋œ ์ด๋ฏธ์ง€์˜ ๋น„์ž์—ฐ์„ฑ์œผ๋กœ ์ธํ•ด ๊ธฐ์กด ์‹œ๊ฐ ์ธ์ฝ”๋”๊ฐ€ ์ถฉ๋ถ„ํ•œ ๊ฐœ์„ ์„ ์ œ๊ณตํ•˜์ง€ ๋ชปํ•จ.

How

Figure 3

TheoremQA์˜ ๋‹ต๋ณ€ ํƒ€์ž… ๋ถ„ํฌ

๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์„ฑ ํ”„๋กœ์„ธ์Šค:

์ •๋ฆฌ ํ†ตํ•ฉ ์‹คํ—˜:

Originality

Limitation & Further Study

ํ•œ๊ณ„:

ํ›„์† ์—ฐ๊ตฌ ๋ฐฉํ–ฅ:

Evaluation

์ดํ‰: TheoremQA๋Š” LLM์˜ ๋„๋ฉ”์ธ ํŠนํ™” ์ง€์‹ ํ™œ์šฉ ๋Šฅ๋ ฅ์„ ์ฒด๊ณ„์ ์œผ๋กœ ํ‰๊ฐ€ํ•˜๋Š” ์ฒซ ๋ฒˆ์งธ ๋ฒค์น˜๋งˆํฌ๋กœ์„œ ์˜๋ฏธ ์žˆ๋Š” ๊ธฐ์—ฌ๋ฅผ ํ•˜๋ฉฐ, ๊ด‘๋ฒ”์œ„ํ•œ ๋ชจ๋ธ ํ‰๊ฐ€๋ฅผ ํ†ตํ•ด ํ˜„์žฌ์˜ ์„ฑ๋Šฅ ๊ฒฉ์ฐจ๋ฅผ ๋ช…ํ™•ํžˆ ๋“œ๋Ÿฌ๋‚ธ๋‹ค. ๋‹ค๋งŒ ์˜คํ”ˆ์†Œ์Šค ๋ชจ๋ธ์˜ ๊ทนํžˆ ๋‚ฎ์€ ์„ฑ๋Šฅ์€ ํ‰๊ฐ€์˜ ๋ณ€๋ณ„๋ ฅ์„ ์ œํ•œํ•˜๊ณ , ์ •๋ฆฌ ํ†ตํ•ฉ ๋ฐฉ์‹์˜ ๊ฐœ์„  ์—ฌ์ง€๊ฐ€ ํฌ๋‹ค๋Š” ์ ์ด ์•„์‰ฝ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
379๋Š” LLM์„ ํ™œ์šฉํ•œ ์ž๋™ ์ •๋ฆฌ ์ฆ๋ช…(generative theorem proving)์˜ ๊ธฐ์ดˆ๋ฅผ ์ œ๊ณตํ•˜๋ฉฐ, 808์˜ ์ •๋ฆฌ ์ค‘์‹ฌ QA ๋ฒค์น˜๋งˆํฌ ์„ค์ •์— ๊ธฐ๋ฐ˜์ด ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
032๋Š” ๊ณผํ•™์ง€์‹ ์ถ”๋ก  ๋ฐ ํ‘œํ˜„์—์„œ ์ง€์‹๊ทธ๋ž˜ํ”„ ์—ฐ๊ตฌ๋ฅผ ์ฒด๊ณ„ํ™”ํ•˜์—ฌ, ๋…ผ๋ฆฌ์  ์ •๋ฆฌ ์ถ”๋ก  ํ‰๊ฐ€์ธ 808์˜ ์ด๋ก ์  ํ† ๋Œ€๋ฅผ ๋‹ค๋ฃน๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
์ •๋ฆฌ(์ˆ˜ํ•™ ๋ช…์ œ) ๊ธฐ๋ฐ˜ ์งˆ์˜์‘๋‹ต ๋ฐ์ดํ„ฐ์…‹์„ ํ†ตํ•ด TheoremExplainAgent์˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ž๋™ ์„ค๋ช… ์ƒ์„ฑ ๋ฐฉ์‹์˜ ํ‰๊ฐ€ ๋ฐ์ดํ„ฐ๋กœ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
TheoremQA ๋…ผ๋ฌธ์€ ์ •๋ฆฌ ๊ตฌ๋™ ๋ฌธ์ œํ•ด๊ฒฐ ๋ฐ์ดํ„ฐ๋ฅผ ๋‹ค๋ฃจ์–ด ์ˆ˜๋ฆฌ์  ๋…ผ์ฆ/์ฆ๋ช… ํƒœ์Šคํฌ์˜ ๋˜๋‹ค๋ฅธ ํ‰๊ฐ€ ๋Œ€์ƒ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
TheoremQA๋Š” ์ˆ˜ํ•™์  ์ •๋ฆฌ์™€ ์ž์—ฐ์–ด ์งˆ์˜๋กœ ๊ตฌ์„ฑ๋œ ๋ฐ์ดํ„ฐ์…‹์„ ๋‹ค๋ฃจ๋ฏ€๋กœ, FIMO์™€ ๋‹ฌ๋ฆฌ ์งˆ์˜์‘๋‹ต ํ˜•ํƒœ์˜ ์ฆ๋ช… ๋ฌธ์ œ ํ‰๊ฐ€์™€ ๋Œ€๋น„๋œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
TheoremQA ๋…ผ๋ฌธ์€ ์—ฐ์‡„์  ์‚ฌ๊ณ ๋ฅผ ์š”๊ตฌํ•˜๋Š” ์ˆ˜ํ•™ ๋ฌธ์ œ QA์— ์ง‘์ค‘ํ•˜์—ฌ, T-SciQ์˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ Chain-of-Thought ๊ต์œก ๋ฐ์ดํ„ฐ ํ˜ผํ•ฉ ์ ‘๊ทผ๊ณผ ๋ฌธ์ œ์œ ํ˜•์  ์ฐจ์ด๊ฐ€ ์žˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
TheoremQA ๋…ผ๋ฌธ์€ ์ˆ˜ํ•™์  ์งˆ๋ฌธ-์ฆ๋ช… ์—ฐ์‡„์— ์ดˆ์ ์„ ๋งž์ถฐ, ์ฆ๋ช… ๋™๊ธฐ๋‚˜ ์‚ฌ๊ณ  ๊ณผ์ •์ด ์•„๋‹Œ ์ตœ์ข… ์ •๋‹ต๊ณผ ๊ทธ ํ•ด์„ค๋งŒ์„ ๋‹ค๋ฃธ์œผ๋กœ์จ ์ƒ๋ฐ˜๋œ ํ‰๊ฐ€ ๊ธฐ์ค€์„ ๋ณด์—ฌ์ค€๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
TheoremQA ๋…ผ๋ฌธ์€ ์ •ํ˜• ์ˆ˜ํ•™ ์ฆ๋ช…, ์ •๋ฆฌ ๊ธฐ๋ฐ˜ ๋ฌธ์ œ ํ•ด๊ฒฐ์„ ๋‹ค๋ฃจ๋ฉฐ, Pelican๊ณผ ๊ฐ™์ด ์ž๋™ ์ฆ๋ช…์—์„œ LLM์˜ ์ •ํ™•์„ฑ ๊ฒ€์ฆ์— ๊ด€ํ•œ ์‹ค์ฆ์„ ์ œ์‹œํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ˆ˜ํ•™ ๋ฐ ๋ฌผ๋ฆฌ ์ •๋ฆฌ ๊ธฐ๋ฐ˜์˜ QA ๋ฐ์ดํ„ฐ์…‹์„ ํ†ตํ•ด LLM์˜ ๋ฌผ๋ฆฌ ์ถ”๋ก ๋Šฅ๋ ฅ์„ ๋‹ค๋ฅธ ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
TheoremQA(808)๋Š” ๊ณผํ•™ ๋…ผ๋ฌธ ์“ฐ๊ธฐ, AI ๋ณด์กฐ ์‹œ์Šคํ…œ์˜ peer-review domain์—์„œ LLM/AI์˜ ์˜ํ–ฅ์„ ๋ณด๋‹ค ๊ตฌ์ฒด์ ์ด๊ณ  ํ‰๊ฐ€์ค‘์‹ฌ์ ์œผ๋กœ ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
808์ด ์ œ์‹œํ•˜๋Š” ๋ฒค์น˜๋งˆํฌ๋Š” 030์˜ ๋”ฅ๋Ÿฌ๋‹ ๊ธฐ๋ฐ˜ ์ •๋ฆฌ ์ฆ๋ช… ๋ฐฉ๋ฒ• ๋…ผ์˜์˜ ์‹ค์ฆ์  ํ‰๊ฐ€ ๋„๊ตฌ๊ฐ€ ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Mustard ๋…ผ๋ฌธ์€ ๊ธฐ๊ณ„ ์ƒ์„ฑ ์ˆ˜ํ•™ ์ •๋ฆฌยท์ฆ๋ช… ๋ฐ์ดํ„ฐ ํ™•์žฅ ๋ฐ ๋ฒค์น˜๋งˆํฌ ๊ฐœ๋ฐœ๋กœ TheoremQA ๋ฐ์ดํ„ฐ์…‹์˜ ํ™œ์šฉ์„ฑ์„ ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
DeepSeek-Prover์˜ ์ •๋ฆฌ ์ฆ๋ช… ์ ‘๊ทผ๋ฒ•์„ ํ™•์žฅํ•˜๊ฑฐ๋‚˜ ๋ณด์™„ํ•˜๋Š” ์—ฐ๊ตฌ์ด๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
504๋Š” ๊ณผํ•™ ๋ถ„์•ผ ๋ชจ๋ธ์ด ์ˆ˜์‹ ํƒ์ƒ‰ ๋ฐ ๋ฐœ๊ฒฌ ๊ณผ์ œ๋ฅผ ์–ผ๋งˆ๋‚˜ ์ž˜ ์ˆ˜ํ–‰ํ•˜๋Š”์ง€๋ฅผ ํ‰๊ฐ€ํ•˜๋ฉฐ, ์ˆ˜ํ•™์  reasoning ๋ฒค์น˜๋งˆํฌ๋กœ 808์˜ ์—ญํ• ์„ ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
AI-๊ธฐ๋ฐ˜ ์ˆ˜ํ•™ ๊ณต์‹ํ™” ์—ฐ๊ตฌ์—์„œ TheoremQA ๋ฐ์ดํ„ฐ์…‹ ํ™œ์šฉ ๋ฐ ํ™•์žฅ ์‚ฌ๋ก€๋ฅผ ํ™•์ธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
TheoremQA ๋…ผ๋ฌธ์€ ์ •๋ฆฌ ๊ธฐ๋ฐ˜ ์งˆ์˜์‘๋‹ต ๋ฐ์ดํ„ฐ์…‹์„ ํ†ตํ•ด ์ž๋™์ •๋ฆฌ์ฆ๋ช… LLM์˜ ์‹ค์ œ ๋ฌธ์ œํ’€์ด ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
TheoremQA ๋…ผ๋ฌธ์€ MUSTARD ๋“ฑ ์ž๋™ ์ƒ์‚ฐ๋œ ๋ฐ์ดํ„ฐ๋กœ ๋ฏธ์„ธ์กฐ์ •๋œ LLM์˜ ํ˜•์‹ ์ˆ˜ํ•™ ๋ฌธ์ œ ํ•ด๊ฒฐ ๋Šฅ๋ ฅ์„ ์‹ค์ œ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
์ˆ˜ํ•™ยท๋ฌผ๋ฆฌยท์ปดํ“จํ„ฐ ๋ถ„์•ผ ์‹ค์ œ ์ •๋ฆฌ-๋ฌธ์ œ-๋‹ต๋ณ€ ์ž๋ฃŒ๊ฐ€ ์žฌ๊ท€์  ์ž๋™ ์ฆ๋ช… ์‹คํ—˜์˜ ๋ฒค์น˜๋งˆํฌ๋กœ ์“ฐ์ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
030์—์„œ ์ •๋ฆฌ๋œ ์ฆ๋ช… AI ํ‰๊ฐ€ ๋ฐฉ๋ฒ•๋“ค์€ 808์˜ ์ •๋ฆฌ ์ค‘์‹ฌ ์งˆ์˜์‘๋‹ต ๋ฒค์น˜๋งˆํฌ์— ์‹ค์ œ์ ์œผ๋กœ ์ ์šฉํ•˜์—ฌ ์‹ฌ์ธต ๋น„๊ต๊ฐ€ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
TheoremQA(808)์€ LLM ๊ธฐ๋ฐ˜ ์ž๋™ ๋…ผ๋ฌธ ์ž‘์„ฑ ๋ฐ ๊ฒ€์ฆ์ด ๊ฐ€๋Šฅํ•œ ์‹ค์ œ ์˜ˆ์‹œ๋กœ, 444์˜ AI ๋…ผ๋ฌธ์ž‘์„ฑ ์œค๋ฆฌ ๋…ผ์˜๋ฅผ ํ˜„์‹ค์— ๊ทผ๊ฑฐํ•˜์—ฌ ํ™•์žฅํ•œ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
์ˆ˜ํ•™ ๊ธฐ๋ฐ˜ ์งˆ์˜์‘๋‹ต(Automated Theorem-driven QA)์— ์—ญ๋Ÿ‰์ด ์‹ค์ œ ์ฆ๋ช… ์ž๋™ํ™” ํ”„๋ ˆ์ž„์›Œํฌ์—์„œ ์–ด๋–ป๊ฒŒ ํ‰๊ฐ€๋˜๋Š”์ง€ ํ™•์ธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •