MMC: Advancing Multimodal Chart Understanding with Large-scale Instruction Tuning

์ €์ž: Fuxiao Liu, Xiaoyang Wang, Wenlin Yao, Jianshu Chen, Kaiqiang Song, Sangwoo Cho, Yaser Yacoob, Dong Yu | ๋‚ ์งœ: 2024-04-15 | DOI: 10.48550/arXiv.2311.10774 📄 PDF


Essence

Figure 1

MMC์˜ 9๊ฐ€์ง€ ๊ตฌ๋ณ„๋˜๋Š” ์ž‘์—…, ๋‹ค์–‘ํ•œ ์ฃผ์ œ(๋น„์ฆˆ๋‹ˆ์Šค, ๊ฑด๊ฐ•, ์ƒ๋ฌผํ•™ ๋“ฑ), ๋‹ค์–‘ํ•œ ์ฐจํŠธ ์œ ํ˜•(๋ง‰๋Œ€, ํžˆ์Šคํ† ๊ทธ๋žจ, ์„ ํ˜•, ์‚ฐ์ ๋„, ํžˆํŠธ๋งต ๋“ฑ)์œผ๋กœ ๊ตฌ์„ฑ๋œ ์ธ๊ฐ„ ์ฃผ์„ ๋ฐ์ดํ„ฐ์…‹

๋Œ€๊ทœ๋ชจ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ฐจํŠธ ๋ช…๋ น์–ด ํŠœ๋‹(600k ์ธ์Šคํ„ด์Šค)์„ ํ†ตํ•ด ์ฐจํŠธ ์ดํ•ด์— ํŠนํ™”๋œ LMM(๋Œ€๊ทœ๋ชจ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ชจ๋ธ)์„ ๊ฐœ๋ฐœํ•˜๊ณ , 9๊ฐ€์ง€ ํ•˜์œ„ ์ž‘์—…์œผ๋กœ ๊ตฌ์„ฑ๋œ ํฌ๊ด„์  ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ์‹œํ•˜๋Š” ์—ฐ๊ตฌ์ด๋‹ค.

Motivation

Achievement

Figure 2

MMCA์˜ ์ „์ฒด ์•„ํ‚คํ…์ฒ˜

  1. MMC-Instruction ๋ฐ์ดํ„ฐ์…‹: ๊ธฐ์กด ๊ณต๊ฐœ ๋ฐ์ดํ„ฐ์…‹(FigureQA 180k, DVQA 300k, PlotQA 224k, ChartQA 21.9k)๋ณด๋‹ค ๊ทœ๋ชจ(600k), ๋‹ค์–‘์„ฑ(์ฃผ์ œ, ์–ธ์–ด ์Šคํƒ€์ผ, ์ฐจํŠธ ์œ ํ˜•), ํ’ˆ์งˆ์ด ์šฐ์ˆ˜. ์ž์œ ํ˜•์‹(free-form) ์งˆ๋ฌธ๊ณผ ๊ฐœ๋ฐฉํ˜•(open-ended) ๋‹ต๋ณ€์œผ๋กœ ์ธ๊ฐ„ ์ธ์ง€์™€ ์ผ์น˜
  2. MMCA ๋ชจ๋ธ: ๊ธฐ์กด ์˜คํ”ˆ์†Œ์Šค LMM๋“ค์„ ๋Šฅ๊ฐ€ํ•˜๋Š” ์ตœ์ฒจ๋‹จ ์„ฑ๋Šฅ ๋‹ฌ์„ฑ. ๊ธฐ์กด ์ฐจํŠธ QA ๋ฒค์น˜๋งˆํฌ์—์„œ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ ์ž…์ฆ
  3. MMC-Benchmark: ์ฐจํŠธ ์ •๋ณด ์ถ”์ถœ, ์ฐจํŠธ ์ถ”๋ก , ๋ฌธ๋งฅ์  ์ดํ•ด, ๋‹ค์ค‘ ์ฐจํŠธ ์ดํ•ด, ์ฐจํŠธ ์œ ํ˜• ๋ถ„๋ฅ˜, ์ฐจํŠธ ์ฃผ์ œ ๋ถ„๋ฅ˜, ์ฐจํŠธ-๋ฐ์ดํ„ฐํ…Œ์ด๋ธ” ๋ณ€ํ™˜, ์ฐจํŠธ-JSON ๋ณ€ํ™˜, ์ฃผ์‹ ์ฐจํŠธ ๋ถ„์„ ๋“ฑ 9๊ฐ€์ง€ ์ž‘์—… ํฌํ•จ. GPT-4V๋ฅผ ํฌํ•จํ•œ ์ตœ์‹  ๋ชจ๋ธ๋“ค๋„ ์ƒ๋‹นํ•œ ๋„์ „์— ์ง๋ฉด, ํŠนํžˆ Chart-to-Datatable/JSON ์ž‘์—…์—์„œ ์ œํ•œ์  ์„ฑ๋Šฅ

How

Figure 3

GPT-4V์˜ ์‹คํŒจ ์‚ฌ๋ก€(๋นจ๊ฐ•)์™€ ์ •์ • ๋‹ต์•ˆ(ํŒŒ๋ž‘) ๋น„๊ต

Originality

Limitation & Further Study

Evaluation

์ดํ‰: ๋ณธ ๋…ผ๋ฌธ์€ ์ฐจํŠธ ์ดํ•ด๋ผ๋Š” ์ค‘์š”ํ•œ ํ•˜์œ„ ๋„๋ฉ”์ธ์—์„œ ๋Œ€๊ทœ๋ชจ ๊ณ ํ’ˆ์งˆ ๋ฐ์ดํ„ฐ์…‹๊ณผ ํฌ๊ด„์  ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ์‹œํ•จ์œผ๋กœ์จ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ AI์˜ ์‹ค์ œ ์‘์šฉ ํ™•๋Œ€์— ๊ธฐ์—ฌํ•˜๋Š” ์˜๋ฏธ ์žˆ๋Š” ์ž‘์—…์ด๋‹ค. ๊ธฐ์ˆ ์  ํ˜์‹ ๋ณด๋‹ค๋Š” ๋ฐ์ดํ„ฐ์…‹/ํ‰๊ฐ€ ์ž์‚ฐ์˜ ๊ฐ€์น˜๊ฐ€ ๋†’์œผ๋ฉฐ, GPT-4V ํฌํ•จ ๊ด‘๋ฒ”์œ„ํ•œ ์‹ค์ฆ์„ ํ†ตํ•ด ํ˜„์žฌ ๋ชจ๋ธ๋“ค์˜ ํ•œ๊ณ„๋ฅผ ๋ช…ํ™•ํžˆ ๋“œ๋Ÿฌ๋‚ธ ์ ์ด ๊ฐ•์ ์ด๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
ChartLlama๋ฅผ ๋น„๋กฏํ•œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ฐจํŠธ ์ดํ•ด ์—ฐ๊ตฌ๋Š” MMC์˜ ๋Œ€๊ทœ๋ชจ ์ฐจํŠธ ๋ฒค์น˜๋งˆํฌ ๊ตฌ์ถ•๊ณผ ํ‰๊ฐ€์˜ ๊ธฐ์ดˆ๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Gemini๋Š” ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ฐจํŠธยท์ด๋ฏธ์ง€ ๋“ฑ ๋ณตํ•ฉ ์ž…๋ ฅ์„ ๋„ค์ดํ‹ฐ๋ธŒํ•˜๊ฒŒ ์ฒ˜๋ฆฌํ•˜๋Š” ์‹œ์Šคํ…œ์œผ๋กœ, ๋Œ€๊ทœ๋ชจ ์ฐจํŠธ ๋ช…๋ น์–ด ํŠœ๋‹ ๋ฐ ํ‰๊ฐ€์˜ ๊ธฐ๋ฐ˜ ์‚ฌ๋ก€๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
ChartGemma์˜ ์ฐจํŠธ ์ค‘์‹ฌ ๋น„์ „-์–ธ์–ด ๋ชจ๋ธ๋ง ์„ฑ๊ณผ๊ฐ€ MMC์˜ ๋Œ€๊ทœ๋ชจ ๋ช…๋ น์–ด ํŠœ๋‹์— ์„ ํ–‰ ์—ฐ๊ตฌ๋กœ์„œ ๋ฐ€์ ‘ํ•˜๊ฒŒ ์ž‘์šฉํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
551 ๋…ผ๋ฌธ์€ ๋‹ค์ค‘๋ชจ๋‹ฌ ์ฐจํŠธ ์ดํ•ด๋ฅผ ์œ„ํ•œ ๋Œ€๊ทœ๋ชจ LLM ๋ฒค์น˜๋งˆํฌ๋กœ, SynChart์™€ ์œ ์‚ฌํ•œ ๋ฐ์ดํ„ฐ ๋ฐ ํ‰๊ฐ€ ์ฒด๊ณ„๋ฅผ ์ œ๊ณตํ•˜์—ฌ ๊ธฐ๋ฐ˜์ด ๋ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ LLM์˜ ์„ฑ๋Šฅ ๋ฒค์น˜๋งˆํฌ๋ฅผ ๋น„๊ตํ•˜๋Š” ์œ ์‚ฌํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
551์€ ๋Œ€๊ทœ๋ชจ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ฐจํŠธ ๋ฐ์ดํ„ฐ์…‹์„ ํ†ตํ•œ ์ฐจํŠธ ์ดํ•ด ๋ชจ๋ธ์„ ์ œ์•ˆํ•˜์—ฌ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ •๋ณด ์ดํ•ด๋ผ๋Š” ์ธก๋ฉด์—์„œ MMSD2.0์˜ ํ’์ž ํƒ์ง€์™€ ์œ ์‚ฌํ•œ ๋ฌธ์ œ์— ์ ‘๊ทผํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
SciFIBench๋Š” ๊ณผํ•™ ์ฐจํŠธ๋ฅผ ํฌํ•จํ•œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ชจ๋ธ ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ์‹œํ•˜์—ฌ ์ฐจํŠธ ์ดํ•ด ๋ถ„์•ผ์˜ ๋‹ค๋ฅธ ํ‰๊ฐ€ ๊ธฐ์ค€์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
MMSCI์™€ ๋น„์Šทํ•˜๊ฒŒ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ฐจํŠธยท๋น„์ฃผ์–ผ ๋ฐ์ดํ„ฐ์…‹์„ ํ™œ์šฉํ•˜์—ฌ ์–ธ์–ด๋น„์ „๋ชจ๋ธ์˜ ๊ณผํ•™ ์‹œ๊ฐํ™” ์ดํ•ด๋„๋ฅผ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
551๋ฒˆ ๋…ผ๋ฌธ ์—ญ์‹œ ๋Œ€๊ทœ๋ชจ ์ฐจํŠธ ์ดํ•ด MLLM ๋ฒค์น˜๋งˆํฌ์™€ ๋ฐ์ดํ„ฐ์…‹์„ ์ œ๊ณตํ•˜๋ฏ€๋กœ, ์„œ๋กœ์˜ ๋ฒค์น˜๋งˆํฌ ์„ค๊ณ„์™€ ์ฐจ์ด์ ์„ ๋น„๊ตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
551๋„ ๋Œ€๊ทœ๋ชจ ์ฐจํŠธ-ํ…์ŠคํŠธ ํ•™์Šต ๋ฐ ์ฐจํŠธ ์ดํ•ด ์„ฑ๋Šฅ ๊ฐœ์„ ์„ ๋ชฉํ‘œ๋กœ ํ•˜๋ฉฐ, 196๊ณผ ์ฐจํŠธ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ LLM ๊ฐœ๋ฐœ์—์„œ ๋ฐ์ดํ„ฐ์™€ ์•„ํ‚คํ…์ฒ˜ ์ฐจ์ด๊ฐ€ ์žˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Gemini ๊ณ„์—ด ๋ชจ๋ธ๊ณผ ๋น„๊ต๋˜๋Š” ๋‹ค๋ฅธ ๋Œ€๊ทœ๋ชจ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ชจ๋ธ์„ ์ œ์‹œํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
551์€ ๋Œ€๊ทœ๋ชจ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ฐจํŠธ ์ดํ•ด๋ฅผ ์œ„ํ•œ ๋ฒค์น˜๋งˆํฌ์™€ ๋ชจ๋ธ์„ ํ•จ๊ป˜ ์ œ์•ˆํ•˜์—ฌ, 199์™€ ์œ ์‚ฌํ•œ ๋ฌธ์ œ๋ฅผ ๋‹ค๋ฅธ ๋ฐฉ์‹์œผ๋กœ ๋‹ค๋ฃน๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
MMC ๋…ผ๋ฌธ์€ ๋‹ค์ค‘๋ชจ๋‹ฌ ์ฐจํŠธ ์ดํ•ด ๋ฒค์น˜๋งˆํฌ์™€ ๊ธฐ์ดˆ๋ชจ๋ธ์„ ์ œ์‹œํ•˜์—ฌ, ChartCoder์˜ ์ฐจํŠธ-to-์ฝ”๋“œ ๋ชจ๋ธ๊ณผ ์ฐจ๋ณ„๋˜๋Š” ์ฐจํŠธ ์ฒ˜๋ฆฌ ์ ‘๊ทผ๋ฒ•์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
T-SciQ๋Š” ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ฑ—๋ด‡์˜ ์ฒด์ธ ์˜ค๋ธŒ ์˜ํŠธ(Chain-of-Thought) ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜์—ฌ ์ฐจํŠธ ์ดํ•ด์™€ ๋…ผ๋ฆฌ์  ์ถ”๋ก ์„ ๊ฒฐํ•ฉํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
MMC ๋…ผ๋ฌธ์€ ๋Œ€๊ทœ๋ชจ ์ฐจํŠธ ๋ช…๋ น์–ด ํŠœ๋‹๊ณผ ๋ฒค์น˜๋งˆํฌ๋กœ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ฐจํŠธ ์ดํ•ด ์—ฐ๊ตฌ์˜ ์ตœ์‹  ์ง€ํ‰์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
MMC ๋…ผ๋ฌธ์€ ๋Œ€๊ทœ๋ชจ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ฐจํŠธ ์ดํ•ด ๋ฐ์ดํ„ฐ์…‹๊ณผ ํฌ๊ด„์  ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ์‹œํ•ด ๊ฐ•๋ ฅํ•œ ์ฐจํŠธ ํŠนํ™” LMM ์—ฐ๊ตฌ์˜ ๋ฐœ์ „์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
MMC ๋“ฑ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ chart ์ดํ•ด ๋Œ€ํšŒ ์ด๋ฏธ์ง€-ํ…์ŠคํŠธ ๋™์‹œ ํ•ด์„ ๋“ฑ, ๋‹จ์ˆœํ•œ baseline ๋Œ€๋น„ ์ถ”๊ฐ€์  deep learning ๊ตฌ์กฐ ํ™•์žฅ์˜ ํ•„์š”์„ฑ๊ณผ ๋ฐ์ดํ„ฐ ํ™œ์šฉ ๋ฐฉ๋ฒ•๋ก ์— ์ฐธ๊ณ ๊ฐ€ ๋œ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
MMC ๋…ผ๋ฌธ์€ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ฐจํŠธ ์ดํ•ด๋ผ๋Š” ๋ณตํ•ฉ ์ƒ๋ช…๊ณผํ•™ ๋ฐ์ดํ„ฐ๋ฅผ ๋‹ค๋ฃจ๋Š” ๋ฌธ์ œ์— LMM์„ ์ ์šฉํ•˜์—ฌ, DNA ์„œ์—ด-๋ฐœํ˜„ ์˜ˆ์ธก ๊ตฌ์กฐ์™€ ์‹ค์ œ ๋ฐ์ดํ„ฐํ•ด์„ ์—ฐ๊ฒฐ๊ณ ๋ฆฌ๋ฅผ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •