MatViX: Multimodal Information Extraction from Visually Rich Articles

์ €์ž: Ghazal Khalighinejad, Sharon Scott, Ollie Liu, Kelly Anderson, Rickard Stureborg | ๋‚ ์งœ: 2024 | DOI: 10.48550/arXiv.2410.20494 📄 PDF


Essence

Figure 1

๊ทธ๋ฆผ 1: ํ…์ŠคํŠธ์™€ ๊ทธ๋ฆผ ๊ฐ„์˜ ์ƒํ˜ธ์—ฐ๊ฒฐ๋œ ๋ฐ์ดํ„ฐ๋ฅผ ํฌํ•จํ•˜๋Š” ๋…ผ๋ฌธ์˜ ์˜ˆ์‹œ ๋ฐ ์ƒ˜ํ”Œ ํŠน์„ฑ๊ณผ ๊ตฌ์„ฑ ์„ธ๋ถ€์‚ฌํ•ญ์„ ์บก์ฒ˜ํ•˜๋Š” JSON ๊ตฌ์กฐ

์žฌ๋ฃŒ๊ณผํ•™ ๋ถ„์•ผ์˜ ๊ณผํ•™ ๋…ผ๋ฌธ์—์„œ ํ…์ŠคํŠธ, ํ‘œ, ๊ทธ๋ฆผ์— ๋ถ„์‚ฐ๋œ ๊ตฌ์กฐํ™”๋œ ์ •๋ณด๋ฅผ ์ถ”์ถœํ•˜๋Š” ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ •๋ณด ์ถ”์ถœ(Multimodal Information Extraction, MIE) ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ์‹œํ•œ๋‹ค. 324๊ฐœ์˜ ์ „๋ฌธ๊ฐ€ ์ฃผ์„ ๋…ผ๋ฌธ๊ณผ 1,688๊ฐœ์˜ ๋ณต์žกํ•œ ๊ตฌ์กฐํ™”๋œ JSON ํŒŒ์ผ๋กœ ๊ตฌ์„ฑ๋œ MATVIX ๋ฐ์ดํ„ฐ์…‹์„ ์†Œ๊ฐœํ•˜๋ฉฐ, ๋น„์ „-๋žญ๊ท€์ง€ ๋ชจ๋ธ(Vision-Language Models, VLMs)์˜ ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•œ๋‹ค.

Motivation

Achievement

Figure 2

๊ทธ๋ฆผ 2: ๊ทธ๋ฆผ๊ณผ ํ•ด๋‹น ์ƒ˜ํ”Œ์˜ ์˜ˆ์‹œ. ํŠน์„ฑ์˜ ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ๋“ค์ด ๊ทธ๋ฆผ์—์„œ ์ถ”์ถœ๋จ์„ ๋ณด์—ฌ์คŒ

  1. ํฌ๊ด„์  ๋ฒค์น˜๋งˆํฌ ๊ตฌ์ถ•: ๊ณ ๋ถ„์ž ๋‚˜๋…ธ๋ณตํ•ฉ์žฌ๋ฃŒ(PNC) 231๊ฐœ, ์ƒ๋ถ„ํ•ด ๊ณ ๋ถ„์ž(PBD) 93๊ฐœ ์ด 324๊ฐœ์˜ ์ „์ฒด ๊ธธ์ด ๊ณผํ•™ ๋…ผ๋ฌธ์—์„œ 1,688๊ฐœ์˜ ๊ตฌ์กฐํ™”๋œ JSON ํŒŒ์ผ ์ƒ์„ฑ. ํ‰๊ท  8,905 ํ† ํฐ์˜ ์žฅ๋ฌธ ๋ฌธ์„œ ํฌํ•จ.
  2. ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ํ‰๊ฐ€ ๋ฐฉ๋ฒ•๋ก  ๊ฐœ๋ฐœ: ๊ตฌ์„ฑ(composition)์„ ๊ธฐ๋ฐ˜์œผ๋กœ ์ƒ˜ํ”Œ ์ •๋ ฌ ํ›„, Frรฉchet ๊ฑฐ๋ฆฌ๋ฅผ ํ†ตํ•ด ์˜ˆ์ธก๊ณผ ์‹ค์ œ ๊ณก์„ ์˜ ์œ ์‚ฌ๋„ ์ธก์ •. ๊ณ„์ธต์  ๊ตฌ์กฐ ์ •๋ ฌ ํ‰๊ฐ€ ๋ฐฉ๋ฒ• ์ œ์‹œ๋กœ ๋‹จ์ˆœ ๊ฐœ์ฒด ์ธ์‹ ์ด์ƒ์˜ ๋ณต์žก์„ฑ ๋ฐ˜์˜.
  3. VLM ์„ฑ๋Šฅ ๋ถ„์„: GPT-4o ๋“ฑ ์ตœ์‹  ๋น„์ „-๋žญ๊ท€์ง€ ๋ชจ๋ธ๋“ค์˜ ์ œ๋กœ์ƒท ์„ฑ๋Šฅ์„ ๋ฒค์น˜๋งˆํ‚นํ•˜๊ณ , DePlot(๋„ํ‘œโ†’ํ‘œ ๋ณ€ํ™˜) ๋ชจ๋ธ๊ณผ์˜ ๊ฒฐํ•ฉ์œผ๋กœ ๊ทธ๋ฆผ ์ถ”์ถœ ์„ฑ๋Šฅ ๊ฐœ์„  ๊ฐ€๋Šฅ์„ฑ ์ž…์ฆ. ํ˜„์žฌ ๋ชจ๋ธ์˜ ์ƒ๋‹นํ•œ ๊ฐœ์„  ์—ฌ์ง€ ํ™•์ธ.

How

Figure 3

๊ทธ๋ฆผ 3: BaTiO3 ๋‚˜๋…ธ๋ณตํ•ฉ์žฌ๋ฃŒ์—์„œ ์†์‹ค ํƒ„์  ํŠธ์˜ ๊ฐ์†Œ์™€ ์œ ์ „ ์ƒ์ˆ˜์˜ ์ฆ๊ฐ€๋ฅผ ๋ณด์—ฌ์ฃผ๋Š” ์˜ˆ์‹œ

Originality

Limitation & Further Study

Evaluation

Novelty: 4.5/5 Technical Soundness: 4/5 Significance: 4.5/5 Clarity: 4/5 Overall: 4.25/5

์ดํ‰: ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๊ณผํ•™ ๋ฌธ์„œ ์ •๋ณด ์ถ”์ถœ์ด๋ผ๋Š” ๋ช…ํ™•ํ•œ ๊ณต๋ฐฑ์„ ์ฑ„์šฐ๋ฉฐ ์ฒด๊ณ„์ ์œผ๋กœ ์„ค๊ณ„๋œ ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ๊ณตํ•˜๋Š” ์ ์—์„œ ๋†’์€ ๊ฐ€์น˜๊ฐ€ ์žˆ์œผ๋‚˜, ์ œํ•œ๋œ ๋„๋ฉ”์ธ ๋ฒ”์œ„์™€ ํ˜„์žฌ ๋ชจ๋ธ์˜ ๋‚ฎ์€ ์„ฑ๋Šฅ ๊ทธ ์ž์ฒด๊ฐ€ ๊ฐœ์„ ์˜ ๊ธด๊ธ‰์„ฑ์„ ๋ณด์—ฌ์ฃผ๋Š” ๊ณผ์ œ์ด๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
708์˜ SciCap ๊ณผํ•™ ๊ทธ๋ฆผ ์บก์…˜ ๋ฐ์ดํ„ฐ์…‹์€ 524์—์„œ ๊ทธ๋ฆผ, ํ‘œ, ํ…์ŠคํŠธ ๋“ฑ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ •๋ณด ์ถ”์ถœ ํ›ˆ๋ จ์— ํ™œ์šฉ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๊ณผํ•™ ์ด๋ฏธ์ง€์˜ ์ •๋ณด ์ถ”์ถœ ๋ฐ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ํŠนํ™” ๋„๊ตฌ์˜ ์‚ฌ์šฉ์ด Aiscivision์˜ ํ•ต์‹ฌ ์ „๋žต๊ณผ ์ผ์น˜ํ•ด, ์ด๋ก ์ ยท๊ธฐ์ˆ ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
์ฐจํŠธ ์ด๋ฏธ์ง€๋ฅผ ๊ตฌ์กฐํ™”ํ•˜์—ฌ LLM์˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ •๋ณด ์ถ”์ถœ ์ •ํ™•์„ฑ์„ ๋†’์ด๋Š” ์—ฐ๊ตฌ๋กœ, Multimodal DeepResearcher์™€ ๊ธฐ์ˆ ์  ๊ธฐ๋ฐ˜์ด ์—ฐ๊ฒฐ๋ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Every Part Matters ๋…ผ๋ฌธ์€ ๊ณผํ•™ ๊ทธ๋ฆผ์˜ ์„ธ๋ฐ€ํ•œ ์ •๋ ฌ๊ณผ ์ง„์‹ค์„ฑ ๊ฒ€์ฆ์— ์ค‘์ ์„ ๋‘๋ฉฐ, MatViX์˜ ์ •๋ณด ์ถ”์ถœ ๊ด€์ ๊ณผ ์ƒํ˜ธ๋ณด์™„๋œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
524 ๋…ผ๋ฌธ์€ ์‹œ๊ฐ์ ์œผ๋กœ ๋ณต์žกํ•œ ๊ณผํ•™ ๋ฌธ์„œ์—์„œ ์ธํฌ๊ทธ๋ž˜ํ”ฝ ์ •๋ณด๋ฅผ ๋‹ค์ค‘๋ชจ๋‹ฌ๋กœ ์ถ”์ถœํ•˜๋Š” ๋ชจ๋ธ์„ ๋‹ค๋ค„, 204์˜ ์ฐจํŠธ์ดํ•ด ์ค‘์‹ฌ ์ ‘๊ทผ์„ ๋ณด์™„ํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋‘˜ ๋‹ค ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ •๋ณด ์ถ”์ถœ ์‹œ์Šคํ…œ์„ ๋‹ค๋ฃจ๋‚˜, 524๋Š” ์‹œ๊ฐ์ ์ด ํ’๋ถ€ํ•œ ๊ณผํ•™์  ๋ฐ์ดํ„ฐ์—์„œ ์ •๋ณด๋ฅผ ์ถ”์ถœํ•˜๋Š” ๋ฐฉ๋ฒ•๋ก ์„ ์ค‘์‹ฌ์œผ๋กœ ํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
MatViX(524)๋Š” ์žฌ๋ฃŒ๊ณผํ•™ ์ค‘์‹ฌ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ •๋ณด ์ถ”์ถœ ์„ธํŠธ๋กœ, S1-MMAlign๊ณผ ํ•™๋ฌธ๋ถ„์•ผ ๋ฐ ๋ฐ์ดํ„ฐ ๊ตฌ์„ฑ์—์„œ ์ƒํ˜ธ๋ณด์™„์ ์ด๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
๊ณผํ•™ ๋ฌธ์„œ์—์„œ ๋‹ค์–‘ํ•œ ์‹œ๊ฐยทํ‘œ ๊ตฌ์กฐ๋กœ๋ถ€ํ„ฐ ์ •๋ณด ์ถ”์ถœ์„ ์ง€์›ํ•˜๋Š” ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ IE ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•˜์—ฌ, ChartLlama ๋ชจ๋ธ๊ณผ ์—ฐ๊ณ„ ์—ฐ๊ตฌ๊ฐ€ ๊ฐ€๋Šฅํ•˜๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
MatViX๋Š” ๊ณผํ•™ ๋…ผ๋ฌธ ๋‚ด ๋ณต์žกํ•œ ๊ตฌ์กฐ์  ์ •๋ณด ์ถ”์ถœ์— ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ์•ˆํ•˜์—ฌ Figure Integrity Verification ๋ฌธ์ œ๋ฅผ ์‹ค์ œ ์ •๋ณด ์ถ”์ถœ ์‘์šฉ์œผ๋กœ ํ™•์žฅํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Multimodal deepresearcher ๋…ผ๋ฌธ์€ ํ…์ŠคํŠธ-์ฐจํŠธ์˜ ์ƒํ˜ธ์ฐธ์กฐ ์ถ”๋ก ์„ ๋‹ค๋ค„, ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ •๋ณด ์ถ”์ถœ ๋ฌธ์ œ๋ฅผ ์‹ค์ œ ์—ฐ๊ตฌ์ง€์› ์›Œํฌํ”Œ๋กœ์šฐ๋กœ ํ™•์žฅํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
691์˜ S1-MMAlign์€ MatViX๋ณด๋‹ค ํ›จ์”ฌ ๊ทœ๋ชจ๊ฐ€ ํฐ ๋‹ค๋ถ„์•ผ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ฒค์น˜๋งˆํฌ๋กœ, ๊ณผํ•™ ๋ฌธํ—Œ์˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ •๋ณด ์ถ”์ถœ ๊ธฐ์ˆ ์„ ์„ธ๊ณ„์ ์œผ๋กœ ํ™•์žฅํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
524 ๋…ผ๋ฌธ์€ ์‹œ๊ฐ์  ๊ณผํ•™๋ฌธํ—Œ์—์„œ ์ •๋ณด ์ถ”์ถœ ๋ฐ ๊ตฌ์กฐ ๋ณต์›์„ ๋‹ค๋ฃจ์–ด, 3043์˜ ๋‹จ๋ฐฑ์งˆ-๋ฆฌ๊ฐ„๋“œ ์ƒ๋ฌผํ™œ์„ฑ ๋ฐ์ดํ„ฐ ๋งˆ์ด๋‹ ๋ฐฉ๋ฒ•์„ ๊ธฐ์ˆ ์ ์œผ๋กœ ํ™•์žฅํ•œ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
์‹œ๊ฐ-ํ…์ŠคํŠธ ์ •๋ณด ์ถ”์ถœ ๋ฐฉ๋ฒ•์„ ํ†ตํ•ด 418์˜ ๋…ผ๋ฌธ ๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜ ๊ฐ€์„ค ์ƒ์„ฑ ํ”„๋ ˆ์ž„์›Œํฌ์˜ ์ž…๋ ฅ ํ™•์žฅ์„ฑ์„ ํƒ์ƒ‰ํ•œ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •