์ ์: Jonas Belouadi, Eddy Ilg, Margret Keuper, Hideki Tanaka, Masao Utiyama, Raj Dabre, Steffen Eger, Simone Ponzetto | ๋ ์ง: 2025 | DOI: arXiv:2503.11509 📄 PDF
Essence
Figure 2. ๊ทธ๋ํฝ ํ๋ก๊ทธ๋จ ํฉ์ฑ์ ์ํ ํ์ต ๋ฐ์ดํฐ ๊ฐ์ฉ์ฑ ๋น๊ต
ํ
์คํธ ์ค๋ช
์ผ๋ก๋ถํฐ TikZ ๊ทธ๋ํฝ ํ๋ก๊ทธ๋จ์ ์์ฑํ๋ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, ์บก์
-ํ๋ก๊ทธ๋จ ์ ๋ ฌ ๋ฐ์ดํฐ์ ๋ถ์กฑ์ด๋ผ๋ ํต์ฌ ๋ณ๋ชฉ์ ๊ทน๋ณตํ๋ TikZero๋ฅผ ์ ์ํ๋ค. ์ด ๋ฐฉ๋ฒ์ ์ด๋ฏธ์ง ํํ์ ๋งค๊ฐ์๋ก ํ์ฉํ์ฌ ๊ทธ๋ํฝ ํ๋ก๊ทธ๋จ ์์ฑ๊ณผ ํ
์คํธ ์ดํด๋ฅผ ๋ถ๋ฆฌํจ์ผ๋ก์จ, ์ ๋ ฌ๋์ง ์์ ๋๊ท๋ชจ ๋ฐ์ดํฐ๋ฅผ ๋
๋ฆฝ์ ์ผ๋ก ํ์ฉํ ์ ์๋ค.
How
Figure 3. TikZero์ ์ํคํ
์ฒ ๊ฐ์
์ญ ๊ทธ๋ํฝ์ค ๋ชจ๋ธ ๊ธฐ๋ฐ
- VLM(Vision-Language Model) ์ํคํ
์ฒ ์ฑ์ฉ
- ๋น์ ์ธ์ฝ๋๊ฐ ์ด๋ฏธ์ง ์๋ฒ ๋ฉ ์์ฑ, ํ
์คํธ ๋์ฝ๋๊ฐ ํ๋ก๊ทธ๋จ ์์ฑ
- ๋์คํฐํ ์ด๋ฏธ์ง๋ฅผ ์๋ํ๊ท์ (autoregressive)์ผ๋ก ์ฒ๋ฆฌ
์ด๋ํฐ ๋คํธ์ํฌ ์ค๊ณ
- ๊ฒฝ๋ ํ
์คํธ ์ธ์ฝ๋: ์บก์
์ ์๋ฒ ๋ฉ์ผ๋ก ๋ณํ
- ๊ฐ๋ฅํ ํฌ๋ก์ค-์ดํ
์
๋ ์ด์ด: ๊ฐ ๋น์ ์ธ์ฝ๋ ๋ ์ด์ด ์ ์ฝ์
- ํ๋ก๋ธ(probe): ์ด๋ฏธ์ง ์
๋ ฅ ๋์ฒด, ํ
์คํธ ์กฐ๊ฑด ์ ๋ณด ์ ๋ฌ
- ๊ฒ์ดํธ ๋ฉ์ปค๋์ฆ: Sigmoid ๊ฒ์ดํธ(์ด๊ธฐ๊ฐ 0.5)๋ก ๊ฐ ๋ ์ด์ด์ ์ ๋ณด ํ๋ฆ ์ ์ด
ํ์ต ๋ชฉํ (์ฆ๋ฅ ๊ธฐ๋ฐ)
- ๊ฑฐ๋ฆฌ ํจ์: $L_{dist} = \frac{1}{|\mathcal{p}|} \sum_{p \in \mathcal{p}} dist(M_\theta(p|i), \tilde{M}_{\theta,\hat{\theta}}(p|\hat{i},t))$
- ์๋ณธ ๋ชจ๋ธ ํ๋ผ๋ฏธํฐ๋ ์์ ํ ๊ณ ์ (frozen)
- ์ด๋ํฐ ํ๋ผ๋ฏธํฐ๋ง ํ์ต
- ์ฝ์ฌ์ธ ๊ฑฐ๋ฆฌ ๋๋ MSE ๊ฑฐ๋ฆฌ ๋ฉํธ๋ฆญ ์ฌ์ฉ
ํ์ต ๊ณผ์
- ๋น์ ์ธ์ฝ๋๋ก ์ด๋ฏธ์ง ํจ์น ์๋ฒ ๋ฉ ๊ณ์ฐ
- ์ด๋ํฐ๋ฅผ ํตํด ์์ ๋ ์ธ์ฝ๋ ์ถ๋ ฅ ์์ฑ
- ์บก์
์กฐ๊ฑด๋ง์ผ๋ก ์๋ณธ ์๋ฒ ๋ฉ๊ณผ์ ์ฆ๋ฅ ์์ค ์ต์ํ
Evaluation
Novelty: 4.5/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: TikZero๋ ํ
์คํธ ๊ธฐ๋ฐ ๊ทธ๋ํฝ ํ๋ก๊ทธ๋จ ํฉ์ฑ์ ๋ฐ์ดํฐ ๋ถ์กฑ ๋ฌธ์ ๋ฅผ ํํ ๊ณต๊ฐ ์ ๋ ฌ์ด๋ผ๋ ์ฐ์ํ ํด๊ฒฐ์ฑ
์ผ๋ก ํด๊ฒฐํ๋ฉฐ, ๋๊ท๋ชจ ๋น์ ๋ ฌ ๋ฐ์ดํฐ์ ํ์ฉ์ ํตํด ์์ฉ ๋ชจ๋ธ๊ณผ ๊ฒฝ์ํ ์ ์๋ ์ฑ๋ฅ์ ๋ฌ์ฑํ ์ ์์ ํ์ ์ ยท์ค๋ฌด์ ๊ฐ์น๊ฐ ๋๋ค. ๋ค๋ง ๋น์ ๋ชจ๋ธ ํนํ, ๋ณต์กํ ํ๋ก๊ทธ๋จ ์์ฑ์ ์ ํ์ฑ, ๋๋ฉ์ธ ๋ถ์ผ์น ๊ฐ๋ฅ์ฑ ๋ฑ์ด ๋ฏธ๋ ์ฐ๊ตฌ์ ๊ณผ์ ๋ก ๋จ์์๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
SciCap์ ๊ณผํ ๋ํ์ ์บก์
์์ฑ ๊ณผ์ ์ ๋ํ ๊ธฐ์ด ๋ฐ์ดํฐ๋ฅผ ์ ๊ณตํ์ฌ, TikZero ๋ฑ์ ์บก์
-๊ทธ๋ํฝ ๋์ ์ฐ๊ตฌ์ ๋ฐํ์ด ๋ฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
FigCaps-HF๋ ๊ณผํ ๊ทธ๋ฆผ์์ ์บก์
์์ฑ์ ์ํ ๋์์ ๋ชจ๋ธ ๋ฐ ๋ฒค์น๋งํฌ๋ฅผ ์ ์ํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
337์ ํ
์คํธ๋ก๋ถํฐ ๊ณผํ์ ๋ํ๋ฅผ ์์ฑํ๋ ๋ฐฉ๋ฒ์ ์ ์ํ๋ฉฐ, 811์ TikZ ๊ทธ๋ํฝ ํ๋ก๊ทธ๋จ ์์ฑ๊ณผ ์ ์ฌํ์ง๋ง ์ ๊ทผ ๋ฐฉ์์ด ๋ค๋ฆ
๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
811์ ์์ ์ค๋ช
์์ TikZ ๊ทธ๋ํฝ ์ฝ๋ ์์ฑ์, 125๋ ํ๊ธฐ ์ํ์์์ LaTeX ๋ณํ์ ๋ค๋ฃจ์ด multimodal ์์โ์ฝ๋ ๋ณํ ๋ฌธ์ ์ ๋ค์ํ ์ ๊ทผ๋ฒ ๋น๊ต๊ฐ ๊ฐ๋ฅํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
601์ ๊ณผํ ๋
ผ๋ฌธ์ ์ํ ๊ทธ๋ํฝ ์๋ํ ๋๊ตฌ๋ฅผ ์ ์ํ์ฌ, TikZero์ ๋ฌ๋ฆฌ ์๋ํ ๊ด์ ์์ ์ ๊ทผํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
TikZero ๋
ผ๋ฌธ์ ๊ทธ๋ํฝ์ค ํ๋ก๊ทธ๋จ ํฉ์ฑ์ zero-shot ํ
์คํธ ๊ฐ์ด๋๋ฅผ ์ ์ฉํ๋ฉฐ ๋น์์ ์์ญ์์์ ํ์ฅ์ฑ์ ์ ๊ณตํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
811 ๋
ผ๋ฌธ์ ๊ฒ์ฆ๋ AI ์์ด์ ํธ๋ฅผ ํ์ฉํ ๊ฐ์ ์
์ ๊ฐ์๊ธฐ ์ค๊ณ๋ก, 3030์ ๊ฐํํ์ต ๊ธฐ๋ฐ ์๋ํ ์คํ ์ฅ์น ์ ๋ ฌ ์ ๊ทผ๊ณผ ์ค๊ณ ์ฒ ํ ๋ฐ ์ ์ฉ ๋ถ์ผ ์ฐจ์ด๋ฅผ ๋ณด์ฌ์ค๋๋ค.
ํ์ ์ฐ๊ตฌ
AutomaTikZ๋ text-to-TikZ ์๋ํ๋ฅผ ์ํ ๋ ๋ค๋ฅธ ์ฐ๊ตฌ๋ก, TikZero๊ฐ ์ ๊ธฐํ ๋ฌธ์ ๋ฅผ ๋ค๋ฅธ ๋ฐฉ์์ผ๋ก ํด๊ฒฐํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
Figuring out figures ๋
ผ๋ฌธ์ ์บก์
์์ฑ ์ด์ธ์๋ ์ฌ์ ํ
์คํธ-์ด๋ฏธ์ง ๊ด๊ณ ๋ถ์์ ํ์ฌ TikZero์ ์ด๋ฏธ์ง ํํ ํ์ฉ ๋ฐฉ์๊ณผ ์ฌํ ๋น๊ต๊ฐ ๊ฐ๋ฅํ๋ค.
ํ์ ์ฐ๊ตฌ
853์ AI ์์ฑ ์บก์
์ด ์ค์ ๋
ผ๋ฌธ ์์ฑ ํ๊ฒฝ์์ ์ด๋ป๊ฒ ์ฌ์ฉ๋๋์ง ์กฐ์ฌํ์ฌ, 811์์ ์์ฑํ ํ๋ก๊ทธ๋จ์ ํ์ฉ ๋งฅ๋ฝ์ ์ดํดํ๋ ๋ฐ ๋์์ด ๋ฉ๋๋ค.