ChartAssisstant: A Universal Chart Multimodal Language Model via Chart-to-Table Pre-training and Multitask Instruction Tuning

์ €์ž: Fanqing Meng, Wenqi Shao, Quanfeng Lu, Peng Gao, Kaipeng Zhang | ๋‚ ์งœ: 2024 | DOI: 10.48550/arXiv.2401.02384 📄 PDF


Essence

์ฐจํŠธ-ํ…Œ์ด๋ธ” ์‚ฌ์ „ํ•™์Šต(pre-training)๊ณผ ๋‹ค์ค‘์ž‘์—… ๋ช…๋ น์–ด ํŠœ๋‹(instruction tuning)์„ ํ†ตํ•ด ๋‹ค์–‘ํ•œ ์ฐจํŠธ ์ดํ•ด ์ž‘์—…์„ ๋‹จ์ผ ๋ชจ๋ธ๋กœ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋Š” ๋ณดํŽธ์  ์ฐจํŠธ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์–ธ์–ด๋ชจ๋ธ์„ ์ œ์•ˆํ•œ๋‹ค. ๊ธฐ์กด ๋ชจ๋ธ์˜ ์ฐจํŠธ-ํ…์ŠคํŠธ ์ •๋ ฌ ๋ถ€์กฑ๊ณผ ์ œํ•œ๋œ ๋ฐ์ดํ„ฐ๋ฅผ ๊ทน๋ณตํ•˜๊ธฐ ์œ„ํ•ด 39M ๊ทœ๋ชจ์˜ ๋Œ€๊ทœ๋ชจ ChartSFT ๋ฐ์ดํ„ฐ์…‹๊ณผ 2๋‹จ๊ณ„ ํ•™์Šต ์ „๋žต์„ ๋„์ž…ํ–ˆ๋‹ค.

Motivation

Achievement

  1. ์„ฑ๋Šฅ ํ–ฅ์ƒ: UniChart ๋Œ€๋น„ ์ˆ˜์น˜ QA์—์„œ 50.0%, ChartQA์—์„œ 28.1% ์„ฑ๋Šฅ ํ–ฅ์ƒ. ์˜์ ํ•™์Šต(zero-shot) ์„ค์ •์—์„œ RealCQA ๋ฐ์ดํ„ฐ์…‹์—์„œ 29.5%, ChartLLM์—์„œ 23.6% ์„ฑ๋Šฅ ํ–ฅ์ƒ ๋‹ฌ์„ฑ.
  2. ๋ฐ์ดํ„ฐ์…‹ ๊ทœ๋ชจ: MatCha ๋Œ€๋น„ 4.75๋ฐฐ, UniChart ๋Œ€๋น„ 5.62๋ฐฐ ํฐ 39M ๊ทœ๋ชจ์˜ ChartSFT ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ•์œผ๋กœ ๋” ๋‚˜์€ ์ผ๋ฐ˜ํ™” ๊ฐ€๋Šฅ์„ฑ ์ œ๊ณต.
  3. ๋ชจ๋ธ ๋‹ค์–‘์„ฑ: ๊ฒฝ๋Ÿ‰ ๋ชจ๋ธ(ChartAst-D, 260M ํŒŒ๋ผ๋ฏธํ„ฐ)๊ณผ ๊ณ ์„ฑ๋Šฅ ๋ชจ๋ธ(ChartAst-S, 13B ํŒŒ๋ผ๋ฏธํ„ฐ) ๋‘ ๊ฐ€์ง€ ๋ณ€ํ˜• ์ œ๊ณต์œผ๋กœ ๋‹ค์–‘ํ•œ ์‘์šฉ ์‹œ๋‚˜๋ฆฌ์˜ค ์ง€์›.
  4. ํฌ๊ด„์  ์ฐจํŠธ ์ปค๋ฒ„๋ฆฌ์ง€: ๊ธฐ๋ณธ ์ฐจํŠธ(๋ง‰๋Œ€, ์„ , ์‚ฐ์ ์„ , ์›ํ˜•)์™€ ํŠนํ™”๋œ ์ฐจํŠธ(๋ ˆ์ด๋”, ๋ฐ•์Šคํ”Œ๋กฏ ๋“ฑ) ํฌํ•จ์œผ๋กœ ๋” ๋„“์€ ์ฐจํŠธ ์œ ํ˜• ๋Œ€์‘.

How

Figure 2

ChartAssistant๊ฐ€ ์ˆ˜ํ–‰ํ•˜๋Š” ๋‹ค์–‘ํ•œ ์ฐจํŠธ ์ดํ•ด ์ž‘์—…๋“ค

ChartSFT ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์„ฑ:

2๋‹จ๊ณ„ ํ•™์Šต ์ „๋žต:

๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜:

Originality

Limitation & Further Study

Evaluation

์ดํ‰: ChartAssistant๋Š” ์ฒด๊ณ„์ ์ธ ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ•๊ณผ 2๋‹จ๊ณ„ ํ•™์Šต ์ „๋žต์œผ๋กœ ์ฐจํŠธ ์ดํ•ด ๋ชจ๋ธ์˜ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œํ‚จ ์‹ค์šฉ์ ์ด๊ณ  ๊ฒฌ๊ณ ํ•œ ์—ฐ๊ตฌ์ด๋‹ค. ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ•๊ณผ ๋‹ค์–‘ํ•œ ์ฐจํŠธ ์œ ํ˜• ์ง€์›์ด ์ฃผ์š” ๊ฐ•์ ์ด๋‚˜, ๊ฐœ๋ณ„ ๊ธฐ์ˆ  ํ˜์‹  ์ธก๋ฉด์—์„œ๋Š” ๊ธฐ์กด ๊ธฐ๋ฒ•์˜ ํšจ๊ณผ์  ์กฐํ•ฉ์— ๊ฐ€๊นŒ์šฐ๋ฉฐ, ์ ˆ์ œ๋œ ์‹คํ—˜์„ ํ†ตํ•œ ๊ฐ ๊ตฌ์„ฑ์š”์†Œ์˜ ๊ธฐ์—ฌ๋„ ์ƒ์„ธ ๋ถ„์„์ด ์ถ”๊ฐ€๋˜๋ฉด ๋”์šฑ ๊ฐ•ํ™”๋  ๊ฒƒ์œผ๋กœ ํŒ๋‹จ๋œ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๋ณดํŽธ์  ์ฐจํŠธ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์–ธ์–ด๋ชจ๋ธ๊ณผ ์ฐจํŠธ-ํ…Œ์ด๋ธ” ์‚ฌ์ „ํ•™์Šต์˜ ๊ธฐ๋ฐ˜ ๊ธฐ์ˆ ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
ChartLlama๋„ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ฐจํŠธ ์–ธ๋”์Šคํƒ ๋”ฉ์„ ๋ชฉํ‘œ๋กœ ํ•˜์ง€๋งŒ ๋‹ค๋ฅธ ๋ฐ์ดํ„ฐ์…‹๊ณผ ์‚ฌ์ „ํ•™์Šต ๋ฐฉ์‹์„ ์‚ฌ์šฉํ•˜์—ฌ ์„ฑ๋Šฅ ๊ฐœ์„ ์„ ๋ชจ์ƒ‰ํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ฐจํŠธ ๋ฐ์ดํ„ฐ ์ดํ•ด๋ฅผ ์œ„ํ•œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ LLM ์ ‘๊ทผ ๋ฐฉ์‹์„ ์ œ์•ˆํ•˜๋Š” ์œ ์‚ฌํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Chartx & chartvlm๋„ ๋‹ค์–‘ํ•œ ์ฐจํŠธ์ดํ•ด ์ž‘์—…์„ ์œ„ํ•œ ๋ฒค์น˜๋งˆํฌ์™€ ๋ชจ๋ธ์„ ์ œ์•ˆํ•ด ๋ฌธ์ œ ์ ‘๊ทผ๋ฐฉ์‹์ด ๋‹ค๋ฅด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
551๋„ ๋Œ€๊ทœ๋ชจ ์ฐจํŠธ-ํ…์ŠคํŠธ ํ•™์Šต ๋ฐ ์ฐจํŠธ ์ดํ•ด ์„ฑ๋Šฅ ๊ฐœ์„ ์„ ๋ชฉํ‘œ๋กœ ํ•˜๋ฉฐ, 196๊ณผ ์ฐจํŠธ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ LLM ๊ฐœ๋ฐœ์—์„œ ๋ฐ์ดํ„ฐ์™€ ์•„ํ‚คํ…์ฒ˜ ์ฐจ์ด๊ฐ€ ์žˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
338์—์„œ๋Š” ๋…ผ๋ฌธ ๋‚ด ์‹œ๊ฐ์  ์š”์†Œ(figure)๋ฅผ ์ž๋™ ์บก์…˜/์„ค๋ช…ํ•˜๋Š” ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์‹œ, 196์—์„œ ์ œ์•ˆํ•œ ์ฐจํŠธ ์ดํ•ด ๊ธฐ์ˆ ์˜ ์‹ค์งˆ์  ํ™œ์šฉ ์‚ฌ๋ก€๋กœ ์—ฐ๊ณ„๋œ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
Multimodal deepresearcher๋Š” ์ฐจํŠธ์™€ ํ…์ŠคํŠธ ํ†ตํ•ฉ ์ดํ•ด ๊ฐ™์€ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ถ”๋ก  ๋ฐฉ๋ฒ•์„ ์‹ค์ œ ๊ณผํ•™์  ๋ฆฌ์„œ์น˜ ์ƒ์„ฑ์— ์ ์šฉํ•ด ๋ณธ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •