Chartx & chartvlm: A versatile benchmark and foundation model for complicated chart reasoning

์ €์ž: Renqiu Xia, Bo Zhang, Hancheng Ye, Xiangchao Yan, Qi Liu, Hongbin Zhou, Zijun Chen, Min Dou, Botian Shi, Junchi Yan, Yu Qiao | ๋‚ ์งœ: 2024 | DOI: N/A 📄 PDF


Essence

Figure 1

Figure 1: ChartX ํ‰๊ฐ€ ๋ฐ์ดํ„ฐ์…‹๊ณผ ChartVLM ๋ชจ๋ธ์˜ ๊ฐœ์š”. ChartX๋Š” 22๊ฐœ ๋ถ„์•ผ, 18๊ฐœ ์ฐจํŠธ ์œ ํ˜•, 7๊ฐœ ์ž‘์—…์„ ํฌํ•จํ•˜๋ฉฐ, ChartVLM์€ instruction adapter๋ฅผ ํ†ตํ•ด ์ž‘์—…์„ ๋™์ ์œผ๋กœ ์„ ํƒํ•˜๊ณ  ์ธ์‹ ์ž‘์—… ๊ฒฐ๊ณผ๋ฅผ ์ถ”๋ก  ์ž‘์—…์— ํ†ตํ•ฉํ•˜์—ฌ ํ•ด์„๊ฐ€๋Šฅ์„ฑ์„ ํ–ฅ์ƒ์‹œํ‚จ๋‹ค.

๋ณธ ๋…ผ๋ฌธ์€ ๋‹ค์ค‘๋ชจ๋‹ฌ ๋Œ€ํ˜•์–ธ์–ด๋ชจ๋ธ(MLLM)์˜ ์ฐจํŠธ ์ดํ•ด ๋Šฅ๋ ฅ์„ ์ข…ํ•ฉ์ ์œผ๋กœ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•ด ChartX ๋ฒค์น˜๋งˆํฌ์™€ ChartVLM ๊ธฐ์ดˆ๋ชจ๋ธ์„ ์ œ์‹œํ•œ๋‹ค. ํŠนํžˆ ์ฐจํŠธ ๋ฐ์ดํ„ฐ ์ถ”์ถœ๊ณผ ๋ณต์žกํ•œ ์ถ”๋ก ์„ ํฌํ•จํ•˜๋Š” ๋‹ค๋‹จ๊ณ„ ์ž‘์—…์—์„œ ๋ชจ๋ธ์˜ ํ•ด์„๊ฐ€๋Šฅ์„ฑ์„ ๊ฐ•ํ™”ํ•˜๋Š” ์ƒˆ๋กœ์šด ์ ‘๊ทผ๋ฐฉ์‹์„ ์ œ์•ˆํ•œ๋‹ค.

Motivation

Achievement

Figure 4

Figure 4: ChartVLM์˜ ์•„ํ‚คํ…์ฒ˜. ๊ธฐ๋ณธ ๋””์ฝ”๋”๋Š” ์ œ๋ชฉ/์œ ํ˜•/๊ตฌ์กฐ ์ถ”์ถœ(SE)์„ ๋‹ด๋‹นํ•˜๊ณ , ๋ณด์กฐ ๋””์ฝ”๋”๋Š” instruction adapter๋ฅผ ํ†ตํ•ด ๋™์ ์œผ๋กœ QA, ์„ค๋ช…, ์š”์•ฝ, ์ฝ”๋“œ ์žฌ์ƒ์„ฑ ๋“ฑ์˜ ์ž‘์—…์„ ์„ ํƒ ์‹คํ–‰ํ•œ๋‹ค.

  1. ํฌ๊ด„์  ๋ฒค์น˜๋งˆํฌ ๊ตฌ์ถ•: ๊ธฐ์กด ๋ฒค์น˜๋งˆํฌ ๋Œ€๋น„ 6๋ฐฐ ์ด์ƒ์˜ ์ฐจํŠธ ์œ ํ˜•(18๊ฐœ vs 3-10๊ฐœ)๊ณผ 5๋ฐฐ ์ด์ƒ์˜ ๋ถ„์•ผ ์ฃผ์ œ(22๊ฐœ)๋ฅผ ํฌํ•จํ•˜๋Š” ChartX ๋ฐ์ดํ„ฐ์…‹ ๊ฐœ๋ฐœ. EM, SCRM, GPT-accuracy, GPT-score ๋“ฑ ๋‹ค์ธต์  ํ‰๊ฐ€ ์ง€ํ‘œ ๋„์ž…
  2. ํ•ด์„๊ฐ€๋Šฅ์„ฑ ๊ฐ•ํ™” ๋ชจ๋ธ: ์ฐจํŠธ ๊ตฌ์กฐ ์ถ”์ถœ โ†’ ๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜ ์ถ”๋ก ์˜ ์ˆœ์ฐจ์  ์ฒ˜๋ฆฌ ํŒŒ์ดํ”„๋ผ์ธ์œผ๋กœ ๊ฐ ๋‹จ๊ณ„์˜ ๊ทผ๊ฑฐ๋ฅผ ๋ช…ํ™•ํ•˜๊ฒŒ ์ œ์‹œ. Instruction adapter๋ฅผ ํ†ตํ•œ ๋™์  ์ž‘์—… ์„ ํƒ์œผ๋กœ ์ƒํ˜ธ์ž‘์šฉ์„ฑ ํ–ฅ์ƒ
  3. ์„ฑ๋Šฅ ์šฐ์›”์„ฑ: ChartVLM์ด ๊ธฐ์กด ์ฐจํŠธ ํŠนํ™” ๋ชจ๋ธ๋“ค๊ณผ ๋ฒ”์šฉ MLLM(LLaVA, Qwen-VL ๋“ฑ)์„ ๋Šฅ๊ฐ€ํ•˜๋ฉฐ GPT-4V์™€ ์œ ์‚ฌ ์ˆ˜์ค€์˜ ์„ฑ๋Šฅ ๋‹ฌ์„ฑ

How

Figure 3

Figure 3: ์ฐจํŠธ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ๋ฐ ํ’ˆ์งˆ ๊ฒ€์ฆ ํŒŒ์ดํ”„๋ผ์ธ

ChartX ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ•

ChartVLM ๋ชจ๋ธ ๊ตฌ์กฐ

Originality

Limitation & Further Study

Evaluation

์ดํ‰: ChartX & ChartVLM์€ ์ฐจํŠธ ์ดํ•ด ๋ฒค์น˜๋งˆํ‚น๊ณผ ๋ชจ๋ธ ๊ฐœ๋ฐœ์— ์žˆ์–ด ์ค‘์š”ํ•œ ์ด์ •ํ‘œ๋ฅผ ์ œ์‹œํ•œ๋‹ค. ํŠนํžˆ ํ•ด์„๊ฐ€๋Šฅ์„ฑ์„ ๊ฐ•์กฐํ•˜๋Š” ์„ค๊ณ„ ์ฒ ํ•™๊ณผ ๊ณต๊ฐœ ๋ฐ์ดํ„ฐ์…‹์˜ ๊ทœ๋ชจ๋Š” ํ•ด๋‹น ๋ถ„์•ผ์˜ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ์„ ํ˜•์„ฑํ•  ๊ฐ€๋Šฅ์„ฑ์ด ๋†’๋‹ค. ๋‹ค๋งŒ ์‹ค์ œ ์ž์—ฐ ์ฐจํŠธ ๋ฐ์ดํ„ฐ ํ†ตํ•ฉ๊ณผ ๋ชจ๋ธ ์Šค์ผ€์ผ๋ง ์ธก๋ฉด์—์„œ ์ถ”๊ฐ€ ๊ฐœ์„ ์ด ํ•„์š”ํ•˜๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๋‹ค๋ฅธ ์ ‘๊ทผ
์ฐจํŠธ ์ดํ•ด ๋ฐ ์ถ”๋ก ์„ ์œ„ํ•œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ชจ๋ธ์„ ์ œ์•ˆํ•˜๋Š” ์œ ์‚ฌํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
524 ๋…ผ๋ฌธ์€ ์‹œ๊ฐ์ ์œผ๋กœ ๋ณต์žกํ•œ ๊ณผํ•™ ๋ฌธ์„œ์—์„œ ์ธํฌ๊ทธ๋ž˜ํ”ฝ ์ •๋ณด๋ฅผ ๋‹ค์ค‘๋ชจ๋‹ฌ๋กœ ์ถ”์ถœํ•˜๋Š” ๋ชจ๋ธ์„ ๋‹ค๋ค„, 204์˜ ์ฐจํŠธ์ดํ•ด ์ค‘์‹ฌ ์ ‘๊ทผ์„ ๋ณด์™„ํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Chartx & chartvlm๋„ ๋‹ค์–‘ํ•œ ์ฐจํŠธ์ดํ•ด ์ž‘์—…์„ ์œ„ํ•œ ๋ฒค์น˜๋งˆํฌ์™€ ๋ชจ๋ธ์„ ์ œ์•ˆํ•ด ๋ฌธ์ œ ์ ‘๊ทผ๋ฐฉ์‹์ด ๋‹ค๋ฅด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋Œ€๊ทœ๋ชจ ์ปจํ…์ŠคํŠธ ์œˆ๋„์šฐ๋ฅผ ํ™œ์šฉํ•˜๋Š” LLM์˜ ๋‹ค๋ฅธ ์ ‘๊ทผ๋ฒ•์„ ์ œ์‹œํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ฐจํŠธ ์ดํ•ด ๋Šฅ๋ ฅ ํ‰๊ฐ€๋ฅผ ์œ„ํ•œ ๋ฒค์น˜๋งˆํฌ์™€ ๋ชจ๋ธ์„ ์ œ์‹œํ•˜๋Š” ์œ ์‚ฌํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
551๋ฒˆ ๋…ผ๋ฌธ ์—ญ์‹œ ๋Œ€๊ทœ๋ชจ ์ฐจํŠธ ์ดํ•ด MLLM ๋ฒค์น˜๋งˆํฌ์™€ ๋ฐ์ดํ„ฐ์…‹์„ ์ œ๊ณตํ•˜๋ฏ€๋กœ, ์„œ๋กœ์˜ ๋ฒค์น˜๋งˆํฌ ์„ค๊ณ„์™€ ์ฐจ์ด์ ์„ ๋น„๊ตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์—ฌ๋Ÿฌ ์ฐจํŠธ ๊ธฐ๋ฐ˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ LLM ํ”„๋ ˆ์ž„์›Œํฌ์™€ Chartcoder์˜ ์ ‘๊ทผ ๋ฐฉ์‹์„ ๋น„๊ตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๊ต์ฐจ๋ชจ๋‹ฌ/๊ต์ฐจ์–ธ์–ด ํ™˜๊ฒฝ์—์„œ LLM์˜ ํ™˜๊ฐ ํ‰๊ฐ€(192)์™€ ์ฐจํŠธ ๋“ฑ ๋ณตํ•ฉ์  ์ž…๋ ฅ ๊ธฐ๋ฐ˜ MLLM์˜ ์‹ ๋ขฐ์„ฑ ํ‰๊ฐ€(204)๋Š” ์ƒํ˜ธ ์ฐธ์กฐ๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
201 ๋…ผ๋ฌธ์€ ์ฐจํŠธ์ดํ•ด ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ LLM ChartLlama๋ฅผ ์ œ์‹œํ•ด, 204์˜ ChartVLM ๊ธฐ๋ฐ˜ ์ฐจํŠธ ์ดํ•ด๋ ฅ ํ‰๊ฐ€ ๋ถ€๋ถ„์„ ํ™•์žฅ ๊ฒ€์ฆํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Reading and Reasoning over Chart Images ๋…ผ๋ฌธ์€ ์ฐจํŠธ ๊ธฐ๋ฐ˜ ์ฆ๊ฑฐ ์ถ”๋ก  ์—ฐ๊ตฌ๋กœ, ChartX์˜ ์ฐจํŠธ ์ถ”์ถœ ๋ฐ ๋‹ค๋‹จ๊ณ„ ์ถ”๋ก  ์‹คํ—˜์„ ์‹ค์ œ ๊ณผ์ œ๋กœ ํ™•์žฅํ•ด์„œ ์ ์šฉํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
204์˜ ์ข…ํ•ฉ์  ์ฐจํŠธ์ดํ•ด ๊ธฐ์ดˆ๋ชจ๋ธ์„ ์‹ค์ œ ์ฐจํŠธ-์ฝ”๋“œ ๋ณ€ํ™˜ ๋“ฑ ์‘์šฉํŠนํ™” ๋ชจ๋ธ(ChartCoder) ์„ค๊ณ„ยทํ‰๊ฐ€์— ์ฐธ๊ณ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •