Reading and Reasoning over Chart Images for Evidence-based Automated Fact-Checking

์ €์ž: Mubashara Akhtar, Oana Cocarascu, Elena Simperl | ๋‚ ์งœ: 2023 | DOI: 10.48550/ARXIV.2301.11843 📄 PDF


Essence

Figure 1

ChartFC ๋ฐ์ดํ„ฐ์…‹์˜ ์˜ˆ: ์ฒญ๊ตฌ(claim)๊ฐ€ ์ฆ๊ฑฐ ์ฐจํŠธ๋กœ ์ง€์ง€๋˜๋Š” ๊ฒฝ์šฐ

๋ณธ ๋…ผ๋ฌธ์€ ์ฐจํŠธ ์ด๋ฏธ์ง€๋ฅผ ์ฆ๊ฑฐ๋กœ ํ•˜์—ฌ ํ…์ŠคํŠธ ์ฒญ๊ตฌ์˜ ์ง„์œ„๋ฅผ ํŒ์ •ํ•˜๋Š” ์ƒˆ๋กœ์šด ์ž๋™ ํŒฉํŠธ-์ฒดํ‚น(AFC) ๊ณผ์ œ๋ฅผ ์ œ์•ˆํ•˜๊ณ , ์ด๋ฅผ ์œ„ํ•œ ์ฒซ ๋ฒˆ์งธ ๋ชจ๋ธ์ธ ChartBERT๋ฅผ ์†Œ๊ฐœํ•œ๋‹ค. ํ…์ŠคํŠธ, ๊ตฌ์กฐ, ์‹œ๊ฐ ์ •๋ณด๋ฅผ ๊ฒฐํ•ฉํ•˜์—ฌ ์ฐจํŠธ ๊ธฐ๋ฐ˜ ์ฃผ์žฅ ๊ฒ€์ฆ์˜ ๋ณต์žกํ•œ ์ถ”๋ก  ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•œ๋‹ค.

Motivation

Achievement

Figure 2

ChartBERT ์•„ํ‚คํ…์ฒ˜: ์ฝ๊ธฐ(Reading), ์‹œํ€€์Šค ์ƒ์„ฑ, ์ธ์ฝ”๋”ฉ ์„ธ ๊ฐ€์ง€ ๊ตฌ์„ฑ ์š”์†Œ

  1. ์‹ ๊ทœ ๊ณผ์ œ ๋ฐ ๋ฐ์ดํ„ฐ์…‹: ์ฐจํŠธ ๊ธฐ๋ฐ˜ ํŒฉํŠธ-์ฒดํ‚น ๊ณผ์ œ๋ฅผ ์ตœ์ดˆ ์ œ์•ˆํ•˜๊ณ , ๋‹ค์–‘ํ•œ ๋ฐฉํ–ฅ์„ฑ, ์ƒ‰์ƒ, ๋ฐฐ๊ฒฝ์„ ๊ฐ–์ถ˜ 15,886๊ฐœ์˜ ์ธ๊ฐ„-์ž‘์„ฑ ์ฒญ๊ตฌ ๊ธฐ๋ฐ˜ ChartFC ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ•
  2. ๋ชจ๋ธ ์„ฑ๋Šฅ: ChartBERT๊ฐ€ 63.8% ์ •ํ™•๋„๋ฅผ ๋‹ฌ์„ฑํ•˜๋ฉฐ, 75๊ฐœ ๋น„์ „-์–ธ์–ด(VL) ๊ธฐ์ค€ ๋ชจ๋ธ(5๊ฐœ ๋น„์ „ ์ธ์ฝ”๋”, 3๊ฐœ ์–ธ์–ด ์ธ์ฝ”๋”, 5๊ฐœ ์œตํ•ฉ ๋ฐฉ๋ฒ•์˜ ์กฐํ•ฉ)์„ ์ฒด๊ณ„์ ์œผ๋กœ ํ‰๊ฐ€ํ•˜์—ฌ ์ตœ์ƒ์˜ VL ๊ธฐ์ค€์„  ์ดˆ๊ณผ
  3. ํฌ๊ด„์  ๋ฒค์น˜๋งˆํ‚น: ์ตœ์‹  ๋น„์ „-์–ธ์–ด ๋ชจ๋ธ๋“ค์˜ ํ•œ๊ณ„๋ฅผ ๋ช…ํ™•ํžˆ ํ•˜๊ณ , ๋ชจ๋ธ ์‹คํŒจ ํŒจํ„ด์— ๋Œ€ํ•œ ์ƒ์„ธ ๋ถ„์„ ์ œ๊ณต

How

Figure 3

ChartBERT ์ž…๋ ฅ ํ‘œํ˜„: ์ถ”์ถœ๋œ ํ…์ŠคํŠธ์™€ ๊ตฌ์กฐ ์ž„๋ฒ ๋”ฉ(x, y ์ขŒํ‘œ, ๋ผ๋ฒจ ์ž„๋ฒ ๋”ฉ)

1๋‹จ๊ณ„ - ํ…์ŠคํŠธ ๋ฐ ๊ตฌ์กฐ ์ •๋ณด ์ถ”์ถœ

2๋‹จ๊ณ„ - ํ…์ŠคํŠธ ์‹œํ€€์Šค ์ƒ์„ฑ

3๋‹จ๊ณ„ - ์ธ์ฝ”๋”ฉ ๋ฐ ๋ถ„๋ฅ˜

๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ•

Originality

Limitation & Further Study

ํ•œ๊ณ„์ 

ํ›„์† ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

Evaluation

์ดํ‰: ์ฐจํŠธ ๊ธฐ๋ฐ˜ ํŒฉํŠธ-์ฒดํ‚น์ด๋ผ๋Š” ์ค‘์š”ํ•˜๊ณ  ๋ฏธ์ถฉ์กฑ๋œ ๋ฌธ์ œ๋ฅผ ์‹ ๊ทœ ์ œ์•ˆํ•˜๋ฉฐ ์ฒด๊ณ„์  ๋ฒค์น˜๋งˆํ‚น์„ ์ œ๊ณตํ•˜๋Š” ์˜๋ฏธ ์žˆ๋Š” ์—ฐ๊ตฌ์ด๋‚˜, 63.8%์˜ ์ •ํ™•๋„์™€ ์ œํ•œ๋œ ์ฐจํŠธ ์œ ํ˜•์œผ๋กœ ์ธํ•ด ์‹ค์šฉ์  ์˜ํ–ฅ์€ ์•„์ง ์ œํ•œ์ ์ด๋‹ค. ํ•ด๊ฒฐํ•ด์•ผ ํ•  ๋„์ „ ๊ณผ์ œ๊ฐ€ ๋งŽ์ด ๋‚จ์•„์žˆ๋Š” ์ดˆ๊ธฐ ๋‹จ๊ณ„์˜ ๊ธฐ์ดˆ ์—ฐ๊ตฌ๋กœ ํ‰๊ฐ€๋œ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
708๋ฒˆ ๋…ผ๋ฌธ์€ ๊ณผํ•™์  ๋„ํ‘œ์— ๋Œ€ํ•œ ์บก์…˜ ์ƒ์„ฑ ๋ฐ์ดํ„ฐ์…‹์„ ์ œ๊ณตํ•˜์—ฌ, 657๋ฒˆ์˜ ์ฐจํŠธ ์ดํ•ด/ํŒฉํŠธ์ฒดํ‚น ๋ชจ๋ธ์˜ ํ•™์Šต ๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜์ด ๋œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Figuring out figures ๋…ผ๋ฌธ์€ ๊ณผํ•™ ๋„ํ‘œ-์บก์…˜ ๋งค์นญ ๋ฐ ํ‰๊ฐ€์˜ ๊ธฐ์ดˆ ์ž๋ฃŒ๋ฅผ ์ œ๊ณตํ•˜์—ฌ 657์˜ ์ฐจํŠธ ๊ธฐ๋ฐ˜ ์ฃผ์žฅ ๊ฒ€์ฆ์— ์ด๋ก ์  ๋ฐ‘๋ฐ”ํƒ•์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
ChartSketcher ๋…ผ๋ฌธ์€ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ํ”ผ๋“œ๋ฐฑ๊ณผ ๋ฐ˜์˜์„ ํ†ตํ•ฉํ•˜์—ฌ ์ฐจํŠธ ์ด๋ฏธ์ง€์˜ ๋ฆฌ์ฆˆ๋‹ ํ’ˆ์งˆ์„ ๋†’์ด๊ธฐ ์œ„ํ•œ ๋Œ€์ฒด์  ์ ‘๊ทผ์„ ์†Œ๊ฐœํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
201๋ฒˆ ๋…ผ๋ฌธ์€ ์ฐจํŠธ์™€ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ •๋ณด์— ๊ธฐ๋ฐ˜ํ•œ LLM ๋Šฅ๋ ฅ ํ‰๊ฐ€๋กœ, 657๋ฒˆ์˜ ChartBERT ์ž๋™ ํŒฉํŠธ์ฒดํ‚น๊ณผ ๋ชจ๋ธ ๊ตฌ์กฐ ๋ฐ ์„ฑ๋Šฅ์—์„œ ๋น„๊ตํ•  ์ˆ˜ ์žˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
582๋ฒˆ์€ ๋ธ”๋ž™๋ฐ•์Šค LLM ์„ค๋ช…๊ณผ ํ”ผ์ฒ˜ ๊ท€์†์„ ์ฃผ๋กœ ๋‹ค๋ฃจ๊ณ  ์žˆ์–ด, 657๋ฒˆ๊ณผ ๊ฐ™์ด ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ถ”๋ก ยท๊ฒ€์ฆ ๋ฌธ์ œ์—์„œ ๋ณด์™„์ ์œผ๋กœ ์ฐธ๊ณ ํ•  ์ˆ˜ ์žˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Pelican์€ ํ…์ŠคํŠธ-์ฝ”๋“œ-์‹œ๊ฐ ๊ธฐ๋ฐ˜ LVLM ํ™˜๊ฐ ๊ฒ€์ฆ์— ์ง‘์ค‘ํ•˜๋ฉฐ, ChartBERT์˜ ์ฐจํŠธ ์ด๋ฏธ์ง€ ๊ธฐ๋ฐ˜ ์ž๋™ ์ฆ๊ฑฐ ํ™•์ธ๊ณผ ๋Œ€์กฐ๋œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
ChartGemma๋Š” ์ฐจํŠธ ๋ฆฌ์ฆˆ๋‹ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ฒค์น˜๋งˆํฌ๋กœ, ChartBERT์˜ ๋ฐœ์ „์  ์‘์šฉ ๋ฐ ํ›„์† ๋ฒค์น˜๋งˆํฌ๋ฅผ ํ™•์ธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Reading and Reasoning over Chart Images ๋…ผ๋ฌธ์€ ์ฐจํŠธ ๊ธฐ๋ฐ˜ ์ฆ๊ฑฐ ์ถ”๋ก  ์—ฐ๊ตฌ๋กœ, ChartX์˜ ์ฐจํŠธ ์ถ”์ถœ ๋ฐ ๋‹ค๋‹จ๊ณ„ ์ถ”๋ก  ์‹คํ—˜์„ ์‹ค์ œ ๊ณผ์ œ๋กœ ํ™•์žฅํ•ด์„œ ์ ์šฉํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
์ฐจํŠธ ๊ธฐ๋ฐ˜ ๋ฐ์ดํ„ฐ ๋ถ„์„์—์„œ ์‹ค์ œ๋กœ ์•ˆ๊ตฌ ์›€์ง์ž„(์‹œ๊ฐ์  ์ฃผ์˜)์— ๊ธฐ๋ฐ˜ํ•œ ์ž๋™ ๋ถ„์„์„ ํ‰๊ฐ€ํ•˜๋Š” ๋…ผ๋ฌธ์ž…๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •