TheoremExplainAgent: Towards Video-based Multimodal Explanations for LLM Theorem Understanding

์ €์ž: Max Ku, C.P. Chong, Jonathan Leung, Krish Shah, Aiโ€Ming Yu, Wenhu Chen | ๋‚ ์งœ: 2025 | DOI: ๋ฏธ์ œ๊ณต 📄 PDF


Essence

Figure 1

์•„๋ฆฌ์Šคํ† ํ…”๋ ˆ์Šค์˜ ์ธ์šฉ๊ตฌ์™€ ํ•จ๊ป˜ ์‹œ๊ฐํ™” ์„ค๋ช…์˜ ์ค‘์š”์„ฑ์„ ๊ฐ•์กฐํ•˜๋Š” ๊ทธ๋ฆผ. ๋ฒ„๋ธ” ์ •๋ ฌ ์˜ˆ์‹œ๋กœ ํ…์ŠคํŠธ ์„ค๋ช…๊ณผ ์‹œ๊ฐ์  ์„ค๋ช…์˜ ์ดํ•ด๋„ ์ฐจ์ด๋ฅผ ๋ณด์—ฌ์คŒ

์ •๋ฆฌ(Theorem) ์ดํ•ด๋ฅผ ์œ„ํ•ด LLM์ด 5๋ถ„ ์ด์ƒ์˜ ๊ธด ํ˜•์‹ ์„ค๋ช… ๋น„๋””์˜ค๋ฅผ ์—์ด์ „ํŠธ ๊ธฐ๋ฐ˜์œผ๋กœ ์ƒ์„ฑํ•˜๋Š” ์ƒˆ๋กœ์šด ์ ‘๊ทผ๋ฒ•์„ ์ œ์‹œํ•˜๋ฉฐ, ๋‹ค์ค‘ ๋ชจ๋“œ ์„ค๋ช…์ด ํ…์ŠคํŠธ ๊ธฐ๋ฐ˜ ํ‰๊ฐ€๋ณด๋‹ค ๋” ๊นŠ์€ ์ถ”๋ก  ์˜ค๋ฅ˜๋ฅผ ๋“œ๋Ÿฌ๋‚ผ ์ˆ˜ ์žˆ์Œ์„ ์ž…์ฆํ•œ๋‹ค.

Motivation

Achievement

Figure 2

๋‹ค์ค‘ ๋ชจ๋“œ ์ •๋ฆฌ ์„ค๋ช… ํ”„๋ ˆ์ž„์›Œํฌ ๊ฐœ์š”. ์ •๋ฆฌ ์ž…๋ ฅ๋ถ€ํ„ฐ ์ •ํ™•๋„/์‹ฌํ™”๋„, ์‹œ๊ฐ์  ๊ด€๋ จ์„ฑ, ๋…ผ๋ฆฌ์  ํ๋ฆ„, ์š”์†Œ ๋ ˆ์ด์•„์›ƒ, ์‹œ๊ฐ์  ์ผ๊ด€์„ฑ ๋“ฑ 5๊ฐœ ํ‰๊ฐ€ ์ง€ํ‘œ ์‚ฐ์ถœ๊นŒ์ง€์˜ ํŒŒ์ดํ”„๋ผ์ธ

Figure 3

TheoremExplainAgent์˜ ๋‘ ์—์ด์ „ํŠธ ๊ตฌ์กฐ. ํ”Œ๋ž˜๋„ˆ ์—์ด์ „ํŠธ๊ฐ€ ๋น„์ „, ์Šคํ† ๋ฆฌ๋ณด๋“œ, ์• ๋‹ˆ๋ฉ”์ด์…˜ยท๋‚˜๋ ˆ์ด์…˜, ๊ธฐ์ˆ  ๊ตฌํ˜„ ๊ณ„ํš์„ ์ƒ์„ฑํ•˜๊ณ , ์ฝ”๋”ฉ ์—์ด์ „ํŠธ๊ฐ€ ์—์ด์ „ํŠธ RAG๋ฅผ ํ†ตํ•ด Manim ์ฝ”๋“œ๋ฅผ ์ƒ์„ฑ ๋ฐ ๋””๋ฒ„๊น…ํ•จ. IEEE ๋ณ€ํ™˜ ์˜ˆ์‹œ์—์„œ TypeError ํ•ด๊ฒฐ ๊ณผ์ • ํ‘œ์‹œ

  1. ์žฅ์‹œ๊ฐ„ ๋น„๋””์˜ค ์ƒ์„ฑ ์„ฑ๊ณต: ๊ธฐ์กด ์—์ด์ „ํŠธ ๋ฏธ์‚ฌ์šฉ ๋ฐฉ์‹(์•ฝ 20์ดˆ)๊ณผ ๋Œ€๋น„ํ•˜์—ฌ ์ตœ๋Œ€ 10๋ถ„ ์ด์ƒ์˜ ์ผ๊ด€์„ฑ ์žˆ๋Š” ์„ค๋ช… ๋น„๋””์˜ค ์ƒ์„ฑ์— ์„ฑ๊ณต. ์ด๋Š” ์žฅ๊ธฐ ๊ณ„ํš ๋ฐ ์‹คํ–‰ ๋Šฅ๋ ฅ์˜ ์ค‘์š”์„ฑ์„ ์ž…์ฆ.
  2. ๋†’์€ ์„ฑ๊ณต๋ฅ ๊ณผ ํ’ˆ์งˆ: o3-mini ๋ชจ๋ธ์ด 93.8% ์„ฑ๊ณต๋ฅ (video generation success rate)๊ณผ 0.77์˜ ์ข…ํ•ฉ ์ ์ˆ˜ ๋‹ฌ์„ฑ. ์ •๋ฆฌ์˜ ๋‚œ์ด๋„(์‰ฌ์›€/์ค‘๊ฐ„/์–ด๋ ค์›€) ์ „๋ฐ˜์— ๊ฑธ์ณ ๊ฒฌ๊ณ ํ•œ ์„ฑ๋Šฅ ์œ ์ง€.
  3. ๋‹ค์ค‘ ํ•™๋ฌธ ๋ถ„์•ผ ํ™•์žฅ์„ฑ: ์ˆ˜ํ•™, ๋ฌผ๋ฆฌ, ํ™”ํ•™, ์ปดํ“จํ„ฐ๊ณผํ•™ 4๊ฐœ STEM ๋ถ„์•ผ์— ๊ฑธ์ณ 240๊ฐœ ์ •๋ฆฌ์˜ ๋น„๋””์˜ค ์„ค๋ช… ์ƒ์„ฑ์œผ๋กœ ๋ฒ”์šฉ์„ฑ ์ž…์ฆ.
  4. ์ˆจ๊ฒจ์ง„ ์ถ”๋ก  ์˜ค๋ฅ˜ ๋…ธ์ถœ: ๋‹ค์ค‘ ๋ชจ๋“œ ์„ค๋ช…์ด ํ…์ŠคํŠธ ๊ธฐ๋ฐ˜ ํ‰๊ฐ€์—์„œ ๋†“์น˜๋Š” ๋” ๊นŠ์€ ์ถ”๋ก  ์˜ค๋ฅ˜๋ฅผ ๋“œ๋Ÿฌ๋ƒ„. ๋ชจ๋ธ์ด ํ‘œ๋ฉด์  ๋‹จ์„œ๋ฅผ ํ™œ์šฉํ•˜์ง€ ๋ชปํ•˜๊ณ  ๊ตฌ์กฐ์  ์ •ํ™•์„ฑ์„ ๋ช…์‹œ์ ์œผ๋กœ ์ฆ๋ช…ํ•ด์•ผ ํ•˜๋ฏ€๋กœ ์˜ค๋ฅ˜๊ฐ€ ๋” ๋ช…ํ™•ํ•ด์ง.

How

Figure 4

TheoremExplainBench๊ฐ€ ํฌํ•จํ•˜๋Š” ์ปดํ“จํ„ฐ๊ณผํ•™, ํ™”ํ•™, ์ˆ˜ํ•™, ๋ฌผ๋ฆฌ์˜ ์„ธ๋ถ€ ๋ถ„์•ผ. ๊ฐ ๋ถ„์•ผ๋ณ„ 14-32๊ฐœ ํ•˜์œ„ ์ฃผ์ œ ์นดํ…Œ๊ณ ๋ฆฌ ํฌํ•จ

์‹œ์Šคํ…œ ์•„ํ‚คํ…์ฒ˜:

ํ‰๊ฐ€ ๋ฉ”ํŠธ๋ฆญ (5๊ฐœ ์ฐจ์›):

๋ฒค์น˜๋งˆํฌ ๊ตฌ์„ฑ:

Originality

Limitation & Further Study

Evaluation

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
288 ๋…ผ๋ฌธ์€ LLM์˜ ๊ณต์‹ ์ •๋ฆฌ ์ฆ๋ช… ์ธํ„ฐํŽ˜์ด์Šค ์„ค๊ณ„์™€ ์ฆ๋ช… ์•ˆ๋‚ด ๊ธฐ๋ฒ•์„ ์ œ์•ˆํ•˜๋ฉฐ, 807์—์„œ ๋…ผํ•˜๋Š” ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌยท์—์ด์ „ํŠธ ๊ธฐ๋ฐ˜ ์ •๋ฆฌ ์„ค๋ช…์˜ ๊ธฐ์ˆ ์  ๊ธฐ๋ฐ˜์ด ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
336์˜ ๋„ํ‘œ-์บก์…˜ ์ƒ์„ฑ ๋ฐ ๋ฒค์น˜๋งˆํ‚น ์—ฐ๊ตฌ๋Š” 807์—์„œ ๊ธดํ˜•์‹ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์„ค๋ช… ๋น„๋””์˜ค ์ƒ์„ฑ์‹œ ์‹œ๊ฐ ์ •๋ณด ์š”์•ฝ ๋ฐ ํ‘œํ˜„ ์ธก๋ฉด์—์„œ ๋งค์šฐ ์ค‘์š”ํ•œ ๊ธฐ์ˆ ์  ํ† ๋Œ€๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
์ •๋ฆฌ(์ˆ˜ํ•™ ๋ช…์ œ) ๊ธฐ๋ฐ˜ ์งˆ์˜์‘๋‹ต ๋ฐ์ดํ„ฐ์…‹์„ ํ†ตํ•ด TheoremExplainAgent์˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ž๋™ ์„ค๋ช… ์ƒ์„ฑ ๋ฐฉ์‹์˜ ํ‰๊ฐ€ ๋ฐ์ดํ„ฐ๋กœ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ƒ์„ฑ์  ์–ธ์–ด๋ชจ๋ธ์ด ์ž๋™ํ™”๋œ ์ˆ˜ํ•™ ์ •๋ฆฌ ์ฆ๋ช…์— ์–ด๋–ป๊ฒŒ ์ ์šฉ๋˜๋Š”์ง€ ์„œ๋กœ ๋‹ค๋ฅธ ๋ฐฉํ–ฅ์„ฑ์„ ๋น„๊ตํ•ด๋ณผ ์ˆ˜ ์žˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
803 ๋…ผ๋ฌธ์€ ์˜คํ”ˆ๋ฆฌ๋ทฐ ๋ฐ์ดํ„ฐ์…‹ ๊ธฐ๋ฐ˜ ์ž๋™ํ™” ํ‰๊ฐ€๋ฅผ ๋‹ค๋ฃจ๋ฉฐ, 807์˜ ๋น„๋””์˜ค ์„ค๋ช… ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ ํ‰๊ฐ€์™€ ๋น„๊ตํ•ด๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
034 ๋…ผ๋ฌธ์€ Retrieval-Augmented Generation(RAG) ๊ธฐ๋ฐ˜์˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ƒ์„ฑ ๋ฐฉ์‹์„ ๋‹ค๋ฃจ๋ฉฐ, 807์˜ ๋น„๋””์˜ค ์ค‘์‹ฌ ์„ค๋ช… ๋Œ€์‹  ๊ฒ€์ƒ‰๊ธฐ๋ฐ˜ ์ง€์‹ ๋„์ถœ ๋ชจ๋ธ์ด๋ผ๋Š” ๋Œ€์กฐ์  ์‹œ๊ฐ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
807์€ ์ˆ˜ํ•™ ์ •๋ฆฌ ์ค‘์‹ฌ์˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์„ค๋ช…(๋™์˜์ƒ) ์ƒ์„ฑ์— ์ง‘์ค‘ํ•˜๊ณ , 773์€ ๊ณผํ•™ ๋…ผ๋ฌธ ์ „์ฒด๋ฅผ ์‹œ๊ฐ ์ฝ˜ํ…์ธ ๋กœ ๋ฐ”๊พธ๋Š” ๋ฐ ์ดˆ์ ์„ ๋‘ก๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
์ˆ˜ํ•™ ๋…ผ๋ฌธ ์ž๋™ ์ •ํ˜•ํ™”์™€ ์˜์ƒ ๊ธฐ๋ฐ˜ ์„ค๋ช… ์ƒ์„ฑ์˜ ์œตํ•ฉ ์—ฐ๊ตฌ ๊ฐ€๋Šฅ์„ฑ์„ ํƒ€์ง„ํ•  ์ˆ˜ ์žˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
3040์€ ์˜๋ฃŒ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ LLM ๋Šฅ๋ ฅ ํ™•์žฅ์— ์ดˆ์ ์„ ๋งž์ถ”๋ฉฐ, 807์˜ ๋น„๋””์˜ค ์ค‘์‹ฌ ๋‹ค์ค‘๋ชจ๋“œ ์„ค๋ช… ์—์ด์ „ํŠธ๊ฐ€ ๋‹ค์–‘ํ•œ ๊ณผํ•™ ๋ถ„์•ผ๋กœ ์ ์šฉ๋  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
Gemini 1.5 ๊ฐ™์€ ์ดˆ์žฅ๋ฌธ๋งฅ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ LLM์ด ํ–ฅํ›„ ๋น„๋””์˜ค ๊ธฐ๋ฐ˜ ๊ณผํ•™ ์„ค๋ช… ๋ฐ ํ‰๊ฐ€ ์—์ด์ „ํŠธ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ ํ™•์žฅ์— ์ ์šฉ ๊ฐ€๋Šฅํ•จ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
197 ๋…ผ๋ฌธ์€ ์ฐจํŠธ์™€ ์ˆ˜์‹ ๋“ฑ ๊ณผํ•™์  ์‹œ๊ฐยท์–ธ์–ด ๋ฐ์ดํ„ฐ๋ฅผ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ LLM์œผ๋กœ ํ•ด์„ํ•˜๋Š” ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์‹œํ•ด, 807 ๋…ผ๋ฌธ์˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์„ค๋ช… ๊ธฐ๋Šฅ๊ณผ ์ง์ ‘์ ์œผ๋กœ ์—ฐ๊ฒฐ๋ฉ๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •