ChartLlama: A Multimodal LLM for Chart Understanding and Generation

์ €์ž: Yucheng Han, Chi Zhang, Xin Chen, Xu Yang, Zhibin Wang, Gang Yu, Bin Fu, Hanwang Zhang | ๋‚ ์งœ: 2023 | DOI: 10.48550/ARXIV.2311.16483 📄 PDF


Essence

Figure 1

๊ทธ๋ฆผ 1: ChartLlama์˜ ๋‹ค์–‘ํ•œ ๋Šฅ๋ ฅ ์‹œ์—ฐ. ์ œ์•ˆ๋œ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ ํŒŒ์ดํ”„๋ผ์ธ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•œ instruction-tuning ๋ฐ์ดํ„ฐ์…‹์„ ๊ตฌ์ถ•ํ•˜๊ณ , ์ด๋ฅผ ํ†ตํ•ด ์ฐจํŠธ ์ดํ•ด ๋ฐ ์ƒ์„ฑ ๋Šฅ๋ ฅ ํš๋“

๊ธฐ์กด ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋Œ€ํ˜•์–ธ์–ด๋ชจ๋ธ(LLM)๋“ค์ด ์ผ๋ฐ˜์ ์ธ ์‹œ๊ฐ-์–ธ์–ด ์ž‘์—…์—์„œ๋Š” ์šฐ์ˆ˜ํ•˜๋‚˜, ์ฐจํŠธ ํ•ด์„ ๊ฐ™์€ ํŠน์ • ๋„๋ฉ”์ธ ๋ฐ์ดํ„ฐ ์ดํ•ด์—๋Š” ํฌ๊ฒŒ ๋ถ€์กฑํ•˜๋‹ค๋Š” ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด, GPT-4 ๊ธฐ๋ฐ˜์˜ ์ž๋™ํ™”๋œ 3๋‹จ๊ณ„ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ ํŒŒ์ดํ”„๋ผ์ธ์„ ์ œ์•ˆํ•˜๊ณ , ์ด๋กœ๋ถ€ํ„ฐ ํ•™์Šตํ•œ ChartLlama๊ฐ€ ๊ธฐ์กด ๋ฒค์น˜๋งˆํฌ์—์„œ ์ตœ๊ณ  ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•œ ์—ฐ๊ตฌ๋‹ค.

Motivation

Achievement

Figure 3

๊ทธ๋ฆผ 3: 3๋‹จ๊ณ„ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ ๋ฐฉ๋ฒ•๋ก . ๋ฐ์ดํ„ฐ ์ƒ์„ฑ(Stage 1), ์ฐจํŠธ ๊ทธ๋ฆฌ๊ธฐ(Stage 2), Instruction ๋ฐ์ดํ„ฐ ์ƒ์„ฑ(Stage 3)์œผ๋กœ ๊ตฌ์„ฑ

  1. ๊ณ ํ’ˆ์งˆ ๋ฐ์ดํ„ฐ์…‹ ์ƒ์„ฑ: GPT-4 ๊ธฐ๋ฐ˜ ํŒŒ์ดํ”„๋ผ์ธ์„ ํ†ตํ•ด 11K๊ฐœ ์ฐจํŠธ ์ด๋ฏธ์ง€์™€ 160K๊ฐœ instruction-tuning ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑ. ๊ธฐ์กด ๋ฐ์ดํ„ฐ์…‹ ๋Œ€๋น„ ๋” ๋‹ค์–‘ํ•œ ์ฐจํŠธ ์œ ํ˜•(10๊ฐœ)๊ณผ ์ž‘์—… ์œ ํ˜•(7๊ฐœ) ์ง€์› (ํ‘œ 1 ์ฐธ์กฐ).
  2. ์šฐ์ˆ˜ํ•œ ๋ฒค์น˜๋งˆํฌ ์„ฑ๋Šฅ: ChartQA, Chart-to-text, Chart-extraction ๋“ฑ ๊ธฐ์กด ๋ฒค์น˜๋งˆํฌ์—์„œ ๋ชจ๋“  ์„ ํ–‰ ๋ฐฉ๋ฒ•์„ ๋Šฅ๊ฐ€. ํŠนํžˆ ํ›จ์”ฌ ์ ์€ ํ•™์Šต ๋ฐ์ดํ„ฐ(160K)๋กœ๋„ larger-scale datasets(PlotQA 28M ๋“ฑ)์—์„œ ํ•™์Šตํ•œ ๋ชจ๋ธ์„ ์ดˆ๊ณผ.
  3. ๋‹ค์ค‘ ์ฐจํŠธ ์ดํ•ด ๋ฐ ์ƒ์„ฑ ๋Šฅ๋ ฅ: Q&A, ์ฐจํŠธ ์„ค๋ช…(chart description), ๋ฐ์ดํ„ฐ ์ถ”์ถœ(chart extraction), ์ฐจํŠธ-์ฝ”๋“œ ๋ณ€ํ™˜(chart-to-chart), ํ…์ŠคํŠธ-์ฐจํŠธ ์ƒ์„ฑ(text-to-chart), ์ฐจํŠธ ํŽธ์ง‘(chart editing) ๋“ฑ ๋‹ค์–‘ํ•œ ์ž‘์—… ์ˆ˜ํ–‰ ๊ฐ€๋Šฅ.

How

Figure 2

๊ทธ๋ฆผ 2: ๋ฐ์ดํ„ฐ์…‹ ๋‚ด ์ž‘์—… ์œ ํ˜•(์œ„)๊ณผ ์ฐจํŠธ ์œ ํ˜•(์•„๋ž˜) ๋ถ„ํฌ

3๋‹จ๊ณ„ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ ํŒŒ์ดํ”„๋ผ์ธ:

๋ชจ๋ธ ๊ตฌ์ถ•: LLaVA-1.5๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•˜์—ฌ ์ƒ์„ฑ๋œ ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ fine-tuning. ๋น„์ „ ์ธ์ฝ”๋”์™€ LLM์˜ ์กฐํ•ฉ ๊ตฌ์กฐ ํ™œ์šฉ.

Originality

Limitation & Further Study

Evaluation

Novelty: 4.5/5 Technical Soundness: 4.5/5 Significance: 4.5/5 Clarity: 4/5 Overall: 4.5/5

์ดํ‰: ์ฐจํŠธ ์ดํ•ด์— ํŠนํ™”๋œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ LLM ๊ฐœ๋ฐœ์ด๋ผ๋Š” ๋ช…ํ™•ํ•œ ๋ชฉํ‘œ ํ•˜์—, GPT-4 ๊ธฐ๋ฐ˜์˜ ์ฒด๊ณ„์ ์ด๊ณ  ์œ ์—ฐํ•œ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ ํŒŒ์ดํ”„๋ผ์ธ์„ ์ œ์‹œํ•˜๊ณ , ์ด๋กœ๋ถ€ํ„ฐ ๊ธฐ์กด ๋ฒค์น˜๋งˆํฌ์—์„œ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•œ ์˜๋ฏธ ์žˆ๋Š” ์—ฐ๊ตฌ๋‹ค. ๋‹ค๋งŒ ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ ์˜์กด๋„, ์‹ค์ œ ๋ฐ์ดํ„ฐ ์ผ๋ฐ˜ํ™”, ๊ทœ๋ชจ ํ•œ๊ณ„ ๋“ฑ์— ๋Œ€ํ•œ ์ถ”๊ฐ€ ๊ฒ€์ฆ์ด ํ•„์š”ํ•˜๋ฉฐ, ๊ณต๊ฐœ๋œ ๋ฐ์ดํ„ฐ์…‹๊ณผ ๋ชจ๋ธ์ด ์ฐจํŠธ AI ์—ฐ๊ตฌ ์ปค๋ฎค๋‹ˆํ‹ฐ์— ๋ฏธ์น  ํŒŒ๊ธ‰๋ ฅ์€ ํด ๊ฒƒ์œผ๋กœ ์˜ˆ์ƒ๋œ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
ChartLlama๋Š” ์ฐจํŠธ ์ดํ•ดยท์ƒ์„ฑ LLM์˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ฆ๊ฑฐ ์ถ”์ถœ ๊ธฐ๋ฒ•์„ ์ œ์‹œํ•˜์—ฌ, ํ…Œ์ด๋ธ”-ํ…์ŠคํŠธ ์ฆ๊ฑฐ ๊ฐ•์กฐ์˜ ์›๋ฆฌ์  ๊ธฐ๋ฐ˜์ด ๋œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
201 ๋…ผ๋ฌธ์€ ์ฐจํŠธ์™€ ์‹œ๊ฐ์  ์ •๋ณด ์ดํ•ด๋ฅผ ์œ„ํ•œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ LLM์˜ ์„ฑ๋Šฅ ํ•œ๊ณ„๋ฅผ ํ‰๊ฐ€ํ•˜๋ฉฐ, 727 ๋…ผ๋ฌธ์˜ ScImage ๋ฒค์น˜๋งˆํฌ ๊ฐœ๋ฐœ์˜ ์•„์ด๋””์–ด์  ํ† ๋Œ€์ž…๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
ChartQA ๋ฐ ์ฐจํŠธ๊ธฐ๋ฐ˜ ๋ฌธ์ œ ํ•ด๊ฒฐ์„ ์œ„ํ•œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ LLM(201)์ด Synchart ๋ฐ์ดํ„ฐ์…‹๊ณผ ์ฐจํŠธ ์ „์šฉ ๋ชจ๋ธ ์—ฐ๊ตฌ์˜ ๊ธฐ๋ฐ˜์ž…๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
ChartLlama๋ฅผ ๋น„๋กฏํ•œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ฐจํŠธ ์ดํ•ด ์—ฐ๊ตฌ๋Š” MMC์˜ ๋Œ€๊ทœ๋ชจ ์ฐจํŠธ ๋ฒค์น˜๋งˆํฌ ๊ตฌ์ถ•๊ณผ ํ‰๊ฐ€์˜ ๊ธฐ์ดˆ๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ฐจํŠธ ์ดํ•ด๋ฅผ ์œ„ํ•œ ์ž๋™ํ™”๋œ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ ๋ฐ ๋ชจ๋ธ ํ•™์Šต ๋ฐฉ๋ฒ•๋ก ์„ ์ œ์•ˆํ•˜๋Š” ์œ ์‚ฌํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
201๋ฒˆ ๋…ผ๋ฌธ์€ ์ฐจํŠธ์™€ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ •๋ณด์— ๊ธฐ๋ฐ˜ํ•œ LLM ๋Šฅ๋ ฅ ํ‰๊ฐ€๋กœ, 657๋ฒˆ์˜ ChartBERT ์ž๋™ ํŒฉํŠธ์ฒดํ‚น๊ณผ ๋ชจ๋ธ ๊ตฌ์กฐ ๋ฐ ์„ฑ๋Šฅ์—์„œ ๋น„๊ตํ•  ์ˆ˜ ์žˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋‘˜ ๋‹ค ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ฐจํŠธ ์ดํ•ด๋ฅผ ์œ„ํ•œ LLM์„ ์ œ์•ˆํ•˜๋‚˜, 201๋ฒˆ์€ GPT-4์™€ ์ž๋™ํ™”๋œ ๋ฐ์ดํ„ฐ ํŒŒ์ดํ”„๋ผ์ธ์„ ์ฐจ๋ณ„์  ํŠน์ง•์œผ๋กœ ๋‚ด์„ธ์›๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ฐจํŠธ ๋“ฑ ๋ฉ”ํƒ€์ •๋ณด๋ฅผ ํฌํ•จํ•œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ LLM์˜ ์ดํ•ด ๋ฐ ์ƒ์„ฑ ๋Šฅ๋ ฅ์„ ํ…Œ์ŠคํŠธํ•ด, ๋ณธ ๋…ผ๋ฌธ์˜ ๋ถ„์„ ๋Œ€์ƒ ๋‹ค์–‘ํ™”์— ๋„์›€์„ ์ค๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
ChartLlama๋„ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ฐจํŠธ ์–ธ๋”์Šคํƒ ๋”ฉ์„ ๋ชฉํ‘œ๋กœ ํ•˜์ง€๋งŒ ๋‹ค๋ฅธ ๋ฐ์ดํ„ฐ์…‹๊ณผ ์‚ฌ์ „ํ•™์Šต ๋ฐฉ์‹์„ ์‚ฌ์šฉํ•˜์—ฌ ์„ฑ๋Šฅ ๊ฐœ์„ ์„ ๋ชจ์ƒ‰ํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
ChartLlama๋Š” ์ฐจํŠธ ์ดํ•ด๋ฅผ ์œ„ํ•œ ๋‹ค๋ฅธ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ LLM ์ ‘๊ทผ๋ฒ•์„ ์ ์šฉํ•˜์—ฌ ChartInstruct์™€ ๋น„๊ตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
HypoChainer๊ฐ€ ์ฐจํŠธ์™€ ์ง€์‹ ๊ทธ๋ž˜ํ”„, LLM, ์ „๋ฌธ๊ฐ€ ํ˜‘์—…์„ ํ†ตํ•ด ๊ณผํ•™์  ๋ฐœ๊ฒฌ์„ ์ง€์›ํ•˜๋Š” ๋ฐฉ์‹์€ ChartLlama ๋“ฑ ๊ณ ์„ฑ๋Šฅ ์ฐจํŠธ ์ดํ•ด ๋ชจ๋ธ์˜ ๋Œ€์ฒด์  ๋ฐœ์ „ ๊ฒฝ๋กœ๋ฅผ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
ChartLlama๋Š” ์ฐจํŠธ์™€ ๊ฐ™์€ ๋„๋ฉ”์ธ์—์„œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ LLM์„ ์ ์šฉํ•˜์˜€๊ธฐ ๋•Œ๋ฌธ์—, WaveFormer์˜ ์ƒ์ฒด์‹ ํ˜ธ ์ฒ˜๋ฆฌ์™€ ์ฐจ๋ณ„์ ์„ ๋น„๊ตํ•  ์ˆ˜ ์žˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Synchart ๋…ผ๋ฌธ์€ LLM์œผ๋กœ๋ถ€ํ„ฐ ์ฐจํŠธ ์ด๋ฏธ์ง€๋ฅผ ์ง์ ‘ ํ•ฉ์„ฑํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ๋‹ค๋ฃจ๋ฉฐ, ChartLlama์˜ ์ฐจํŠธ ์ƒ์„ฑ/์ดํ•ด ๋Šฅ๋ ฅ๊ณผ ์—ฐ๊ด€์„ฑ์ด ํฌ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
๊ณผํ•™ ๋ฌธ์„œ์—์„œ ๋‹ค์–‘ํ•œ ์‹œ๊ฐยทํ‘œ ๊ตฌ์กฐ๋กœ๋ถ€ํ„ฐ ์ •๋ณด ์ถ”์ถœ์„ ์ง€์›ํ•˜๋Š” ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ IE ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•˜์—ฌ, ChartLlama ๋ชจ๋ธ๊ณผ ์—ฐ๊ณ„ ์—ฐ๊ตฌ๊ฐ€ ๊ฐ€๋Šฅํ•˜๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
201 ๋…ผ๋ฌธ์€ ์ฐจํŠธ์ดํ•ด ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ LLM ChartLlama๋ฅผ ์ œ์‹œํ•ด, 204์˜ ChartVLM ๊ธฐ๋ฐ˜ ์ฐจํŠธ ์ดํ•ด๋ ฅ ํ‰๊ฐ€ ๋ถ€๋ถ„์„ ํ™•์žฅ ๊ฒ€์ฆํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
MMC ๋…ผ๋ฌธ์€ ๋Œ€๊ทœ๋ชจ ์ฐจํŠธ ๋ช…๋ น์–ด ํŠœ๋‹๊ณผ ๋ฒค์น˜๋งˆํฌ๋กœ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ฐจํŠธ ์ดํ•ด ์—ฐ๊ตฌ์˜ ์ตœ์‹  ์ง€ํ‰์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •