Essence
Figure 5: Our model learns the exact acronyms used in figures.
๋ณธ ๋
ผ๋ฌธ์ ๊ณผํ ๋
ผ๋ฌธ์ ๋ํ์ ์๋์ผ๋ก ์บก์
์ ์์ฑํ๋ ๋ฌธ์ ๋ฅผ ๋ค๋ฃฌ๋ค. ๊ธฐ์กด CNN+LSTM ๋ฐฉ์์ ์ฑ๋ฅ์ด ๋งค์ฐ ๋ฎ์๋ ๋ฌธ์ ๋ฅผ ๊ฐ์ ํ๊ธฐ ์ํด CLIP๊ณผ GPT-2 ๊ธฐ๋ฐ์ encoder-decoder ๋ชจ๋ธ์ ์ ์ํ๊ณ , ๋
ผ๋ฌธ์ ์ ๋ชฉ, ์ด๋ก, ์ฐธ์กฐ ์ ๋ณด ๋ฑ์ ํ
์คํธ ๋ฉํ๋ฐ์ดํฐ๋ฅผ ์ถ๊ฐ๋ก ํ์ฉํ๋ METASCICAP ๋ฐ์ดํฐ์
์ ๊ตฌ์ถํ๋ค.
Achievement
CLIP+GPT-2 ๋ชจ๋ธ์ ์ฑ๋ฅ ํฅ์: SciBERT ์ธ์ฝ๋ฉ๋ ํ
์คํธ ๋ฉํ๋ฐ์ดํฐ๋ฅผ ํฌํจํ ๋ ์ฑ๋ฅ์ด ๊ฐ์ ๋์์ผ๋ฉฐ, ํ
์คํธ ๋ฉํ๋ฐ์ดํฐ๋ง ์ฌ์ฉํ SciBERT+GPT-2 ๋ชจ๋ธ์ด ์ต๊ณ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ค. METASCICAP ๋ฐ์ดํฐ์
๊ตฌ์ถ: ๋
ผ๋ฌธ ์ ๋ชฉ, ์ด๋ก, in-text ์ฐธ์กฐ ์ ๋ณด๋ฅผ SCICAP๊ณผ ์ฐ๊ฒฐํ์ฌ ์๋ก์ด augmented ๋ฐ์ดํฐ์
์ ๊ตฌ์ถํ๋ค. ๋ชจ๋ธ ๊ฐ์ : ๊ธฐ์กด CNN+LSTM์ ๋จ์ผ ๊ณ์ธต ๊ตฌ์กฐ๋ฅผ ๋ฒ์ด๋ ํ๋์ transformer ๊ธฐ๋ฐ ์ํคํ
์ฒ๋ฅผ ์ ์ฉํ๋ค.
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ ๊ณผํ ๋ํ ์บก์
์์ฑ์ ์ค์ํ ๋ฌธ์ ๋ฅผ ๋ค๋ฃจ๊ณ ํ๋์ ๋ชจ๋ธ ์ํคํ
์ฒ์ ์๋ก์ด augmented ๋ฐ์ดํฐ์
์ ์ ์ํ๋ค. ๋ค๋ง ์ ๋์ ํ๊ฐ ๊ฒฐ๊ณผ๊ฐ ๋ช
ํํ๊ฒ ์ ์๋์ง ์์๊ณ , ์ต์ ์ฑ๋ฅ ๋ชจ๋ธ์ด ํ
์คํธ๋ง ์ฌ์ฉํ๋ค๋ ์ ์์ ์๋์ ๋ชฉํ(์ด๋ฏธ์ง+ํ
์คํธ ๊ฒฐํฉ)์ ๊ดด๋ฆฌ๊ฐ ์๋ค. ํฅํ ์ด๋ฏธ์ง ์ ๋ณด๋ฅผ ๋ ํจ๊ณผ์ ์ผ๋ก ํ์ฉํ๋ ๋ฐฉํฅ์ ๊ฐ์ ์ด ํ์ํ๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
708์ ๊ณผํ ๋ํ ์บก์
์์ฑ ๋ฌธ์ ๋ฅผ ๋ฒค์น๋งํฌ ๋ฐ์ดํฐ์ ํจ๊ป ์ฒด๊ณํํ์ฌ, 338์ ๋ฉํ๋ฐ์ดํฐ ํตํฉ ๋ชจ๋ธ ์ ๊ทผ์ ์ค์ํ ๋น๊ต์ ์ด ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Figuring out figures ๋
ผ๋ฌธ์ ๊ณผํ ๋ํ-์บก์
๋งค์นญ ๋ฐ ํ๊ฐ์ ๊ธฐ์ด ์๋ฃ๋ฅผ ์ ๊ณตํ์ฌ 657์ ์ฐจํธ ๊ธฐ๋ฐ ์ฃผ์ฅ ๊ฒ์ฆ์ ์ด๋ก ์ ๋ฐ๋ฐํ์ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
338์ ๋
ผ๋ฌธ ์์ ์์นยท๋ํ ์ฐธ์กฐ์ LLM์ ํตํ ๊ณผํ์ ๋ํ ์บก์
๋ยท์ดํด๋ผ๋ ์ ์์, 757์ ํ ํ์ ๋ฐ์ดํฐ ์๋ฎฌ๋ ์ด์
์ ๋ฐ์ดํฐ ํํ๊ณผ ํด์ ๋ฐฉ์์ ๊ธฐ์ด๊ฐ ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Figuring out figures ๋
ผ๋ฌธ์ ๊ณผํ ๋
ผ๋ฌธ์์์ ๊ทธ๋ฆผ ํ
์คํธ ์๋ ์์ฑ/์ ๋ ฌ ๋ฌธ์ ๋ฅผ ์ฐ๊ตฌํ์ฌ, AUTOCAP์ ์ ๋ก์ท ํฌ๋ก์ค์ธ์ด ์ ๋ ฌ ๊ณผ์ ์ ์ค์ง์ ์ฐ๊ฒฐ์ ์ด ์๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๊ณผํ ๋ํ์ ์บก์
๋ฐ ์๊ฐ์๋ฃ ํด์์ ๋ํ ๊ธฐ๋ฐ ๋ฐ์ดํฐ์
/๋ฐฉ๋ฒ๋ก ์ ๋
ผ์๋ฅผ ์ ํ ์ฐ๊ตฌ๋ก ์ ์ํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
338์ ํ
์คํธ-ํผ๊ฒจ ๊ด๊ณ๋ฅผ ํ์ฉํ ์บก์
์์ฑ ๊ณผ์ ์ ์ค๋ช
ํ๋ฉฐ, 708์ ์๋ ์บก์
์์ฑ ์ผ์ด์ค์ ๋์กฐ์ ์ผ๋ก ์๋ก ๋ณด์์ ์
๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
Figgen์ ๊ณผํ ๋ํ ์์ฑ ๋ฌธ์ ์ ์ ๊ทผํ๋ฉฐ, ๋ณธ ๋
ผ๋ฌธ๊ณผ ๋ฌ๋ฆฌ ๋ํ์ ์์ฑํ๋ ์ชฝ์ ์ง์คํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
๊ณผํ์ ์ฝํ
์ธ ์ ์๋ ์์ฑ์ ๋ค๋ฃจ๋ ๊ด๋ จ ์ฐ๊ตฌ๋ก ์ ์ฌํ ๋ฌธ์ ๋ฅผ ๋ค๋ฃฌ๋ค.
๋ค๋ฅธ ์ ๊ทผ
Figuring out figures ๋
ผ๋ฌธ์ ํ
์คํธ ๋ด ์ฐธ์กฐ๋ฅผ ํ์ฉํ ๊ณผํ ๊ทธ๋ฆผ ์บก์
์๋ ์์ฑ ๋ฐฉ๋ฒ์ ์ ์ํด, FigCaps-HF์ RLHF ๊ธฐ๋ฐ ํ๋ ์์ํฌ์ ๋ค๋ฅธ ๋ฐฉํฅ์ผ๋ก ์ฐธ๊ณ ํ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
605๋ ํนํ ๋ํ์ ์๋ ์บก์
์์ฑ์ ์ด์ ์ ๋ง์ถฐ 338๊ณผ ์ ์ฌ ๊ณผ์ ์ ํนํ ๋๋ฉ์ธ ์์ฉ ์ฌ๋ก๋ฅผ ๋ณด์ฌ์ค๋๋ค.
ํ์ ์ฐ๊ตฌ
Figuring out figures ๋
ผ๋ฌธ์ ํ
์คํธ-๋ํ ์๊ด๊ด๊ณ, ๋
ผ๋ฌธ ๋ด ๋ฌธ์๊ฐ ์๋ฏธ ์ฐ๊ฒฐ ์ธก๋ฉด์์ ์ค์ ์ ๋ณด์ ๋๋ ํ์ฅ์ด ๊ฐ๋ฅํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
ํ
์คํธ ๊ธฐ๋ฐ figure reference์ ๋ํ ์บก์
์๋ ์ถ๋ก ์ ํ๊ตฌํ 338๋ฒ ๋
ผ๋ฌธ์ด 709์์ ๋์
ํ ๋ฉํฐ๋ชจ๋ฌ/์ปจํ
์คํธ ๊ฐํ๋ฅผ ํ ๋จ๊ณ ํ์ฅํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
338์ ๋
ผ๋ฌธ ๋ํ ์๋ ์บก์
์์ฑ์ ์ํ ๋ฉํฐ๋ชจ๋ฌ SciBERT+GPT-2 ์ ๊ทผ๋ฒ์ ์ ์ํ์ฌ, 337์ ํ
์คํธ-๋ํ ์์ฑ ๋ฌธ์ ๋ฅผ ๋ ๋ฐ์ ์ํจ ํ์ ์ฐ๊ตฌ์
๋๋ค.
ํ์ ์ฐ๊ตฌ
338์์๋ ๋
ผ๋ฌธ ๋ด ์๊ฐ์ ์์(figure)๋ฅผ ์๋ ์บก์
/์ค๋ช
ํ๋ ํ๋ ์์ํฌ๋ฅผ ์ ์, 196์์ ์ ์ํ ์ฐจํธ ์ดํด ๊ธฐ์ ์ ์ค์ง์ ํ์ฉ ์ฌ๋ก๋ก ์ฐ๊ณ๋๋ค.
ํ์ ์ฐ๊ตฌ
564๋ ๋
ผ๋ฌธ ๋ํ ๋ด ๋ค์ค LLM ํ์
์บก์
์์ฑ์ ์ ์ํ์ฌ, 338์ ๋ฉํฐ๋ชจ๋ฌ ์ ๊ทผ๋ฒ์ ํ์ฅํ ์คํ ์ฐ๊ตฌ์
๋๋ค.
ํ์ ์ฐ๊ตฌ
Figuring out figures ๋
ผ๋ฌธ์ ์บก์
์์ฑ ์ด์ธ์๋ ์ฌ์ ํ
์คํธ-์ด๋ฏธ์ง ๊ด๊ณ ๋ถ์์ ํ์ฌ TikZero์ ์ด๋ฏธ์ง ํํ ํ์ฉ ๋ฐฉ์๊ณผ ์ฌํ ๋น๊ต๊ฐ ๊ฐ๋ฅํ๋ค.
์์ฉ ์ฌ๋ก
338์ ์๊ฐ์ ์ ๋ณด๋ฅผ ํ์ฉํ ์บก์
์์ฑ์ ์ ์ฉ๋๋ ์ค์ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ์ฌ, 203์ ๋ฉํฐ๋ชจ๋ฌ ์ค์ผ์น ๋ฐ ํผ๋๋ฐฑ ์ ๋ต์ ์ค์ฉ์ ์ ์ฉ ์์๋ก ์ฐ๊ฒฐํ๋ค.