์ ์: Zhishen Yang, Raj Dabre, Hideki Tanaka, Naoaki Okazaki | ๋ ์ง: 2023 | DOI: 10.48550/ARXIV.2306.03491 📄 PDF
Figure 1: An example figure (Zhang et al. 2019) with its cap-
๋ณธ ๋ ผ๋ฌธ์ ํ์ ๋ ผ๋ฌธ์ ๊ณผํ ๋ํ์ ๋ํ ์บก์ ์์ฑ ๋ฌธ์ ๋ฅผ ์ฌ์ ์ํ๋ ์ฐ๊ตฌ์ด๋ค. ๊ธฐ์กด์ ๋ํ-์บก์ ์์ฑ ์์ ์ ๋ฉํฐ๋ชจ๋ฌ ์์ฝ ์์ ์ผ๋ก ์ฌ์ ์ํ๊ณ , mention-paragraph์ OCR ํ ํฐ์ ํฌํจํ๋ SciCap+ ๋ฐ์ดํฐ์ ์ ๊ตฌ์ถํ์ฌ ๋ฐฐ๊ฒฝ ์ง์ ํ์ฉ์ ์ค์์ฑ์ ์ ์ฆํ์๋ค.
Figure 2: The overall workflow of the data augmentation for creating SciCap+ dataset. For each figure in SciCap+, we ext
mention-paragraph์ OCR์ ํจ๊ณผ: mention-paragraph๊ฐ ์ถ๊ฐ๋ ๊ฒฝ์ฐ BLEU, METEOR, CIDEr ๋ฑ์ ์๋ ํ๊ฐ ์ ์๊ฐ ๋ํ ๋จ๋ ๋ฒ ์ด์ค๋ผ์ธ ๋๋น ํฌ๊ฒ ํฅ์๋จ์ ์ ์ฆํ๋ค. ๋ฉํฐ๋ชจ๋ฌ ์ง์์ ๊ฐ์น: ์๋ก ๋ค๋ฅธ ๋ชจ๋ฌ๋ฆฌํฐ์ ์๋ฒ ๋๋ ์ง์์ด ์บก์ ์์ฑ ์ฑ๋ฅ์ ํฌ๊ฒ ํฅ์์ํค๋ ๊ฒ์ผ๋ก ํ์ธ๋์๋ค. ์ธ๊ฐ ํ๊ฐ๋ฅผ ํตํ ๋์ ๋ถ์: ๋ชจ๋ธ ์์ฑ ์บก์ ์ด ์ธ๊ฐ์ด ์์ฑํ ์บก์ ๊ณผ ์ ์ฌํ ์ ๋ณด์ฑ์ ๊ฐ์ง๋ฉฐ, ์ธ๊ฐ๋ mention-paragraph๋ฅผ ์ฐธ์กฐํ ๋ ground-truth ์บก์ ์์ฑ์ด ์ฌ์ ํ ์ด๋ ค์์ ๋ณด์๋ค. ๋ฐ์ดํฐ์ ๊ธฐ์ฌ: ๋ฉํฐ๋ชจ๋ฌ ์ ๋ณด๋ฅผ ํฌํจํ ๋๊ท๋ชจ SciCap+ ๋ฐ์ดํฐ์ (414k ๋ํ)์ ๊ณต๊ฐํ๋ค.
Figure 2: The overall workflow of the data augmentation for creating SciCap+ dataset. For each figure in SciCap+, we ext
์ดํ: ๋ณธ ๋ ผ๋ฌธ์ ๊ณผํ ๋ํ ์บก์ ๋์ ๋ฉํฐ๋ชจ๋ฌ ์์ฝ ๋ฌธ์ ๋ก ์ฌ์ ์ํ๊ณ SciCap+ ๋ฐ์ดํฐ์ ์ ํตํด ๋ฐฐ๊ฒฝ ์ง์์ ์ค์์ฑ์ ์ฒด๊ณ์ ์ผ๋ก ์ ์ฆํ ์๋ฏธ ์๋ ์ฐ๊ตฌ์ด๋ค. ์๋ ํ๊ฐ์ ์ธ๊ฐ ํ๊ฐ์ ๋ณํ์ผ๋ก ๋ฌธ์ ์ ๋์ ์ฑ์ ๋ช ํํ ํ์ผ๋ฉฐ, ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ๊ณต๊ฐ๋ ํ์ ์ฐ๊ตฌ์ ํฐ ๊ธฐ์ฌ๊ฐ ๋ ๊ฒ์ด๋ค. ๋ค๋ง ๋ํ ์ ํ์ ํ์ ์ฑ๊ณผ ๋จ์ผ ๋ฒ ์ด์ค๋ผ์ธ ์ฌ์ฉ์ ๊ฐ์ ํ ์ฌ์ง๊ฐ ์๋ค.