Chartist: Task-driven Eye Movement Control for Chart Reading

์ €์ž: Danqing Shi, Yao Wang, Yunpeng Bai, Andreas Bulling, Antti Oulasvirta | ๋‚ ์งœ: 2025 | DOI: 10.48550/ARXIV.2502.03575 📄 PDF


Essence

Figure 1

Chartist๊ฐ€ ๋‹ค์–‘ํ•œ ๋ถ„์„ ์ž‘์—…(๊ฐ’ ๊ฒ€์ƒ‰, ํ•„ํ„ฐ๋ง, ๊ทน๊ฐ’ ์ฐพ๊ธฐ)์— ๊ฑธ์ณ ์ž‘์—… ์ค‘์‹ฌ์  ์Šค์บ”ํŒจ์Šค๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ๋ฐฉ์‹์„ ๋ณด์—ฌ์ฃผ๋Š” ์˜ˆ์‹œ

๋ณธ ๋…ผ๋ฌธ์€ ์ฐจํŠธ ์ฝ๊ธฐ ์‹œ ์‚ฌ์šฉ์ž์˜ ์ž‘์—…๋ณ„ ์•ˆ๊ตฌ ์›€์ง์ž„ ํŒจํ„ด(์Šค์บ”ํŒจ์Šค)์„ ์˜ˆ์ธกํ•˜๋Š” ์ฒซ ๋ฒˆ์งธ ๊ณ„์‚ฐ ๋ชจ๋ธ์ธ Chartist๋ฅผ ์ œ์‹œํ•œ๋‹ค. ๊ณ„์ธต์  ์ œ์–ด ์•„ํ‚คํ…์ฒ˜(LLM ๊ธฐ๋ฐ˜ ์ธ์ง€ ์ œ์–ด๊ธฐ์™€ ๊ฐ•ํ™”ํ•™์Šต ๊ธฐ๋ฐ˜ ์•ˆ๊ตฌ์šด๋™ ์ œ์–ด๊ธฐ)๋ฅผ ํ†ตํ•ด ๊ฐ’ ๊ฒ€์ƒ‰, ํ•„ํ„ฐ๋ง, ๊ทน๊ฐ’ ์ฐพ๊ธฐ์™€ ๊ฐ™์€ ๋ถ„์„ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•  ๋•Œ ์ธ๊ฐ„๊ณผ ์œ ์‚ฌํ•œ ์‹œ์„  ์ˆœ์„œ๋ฅผ ์ƒ์„ฑํ•œ๋‹ค.

Motivation

Achievement

Figure 2

์ž‘์—… ์ค‘์‹ฌ์  ์•ˆ๊ตฌ ์›€์ง์ž„ ์ œ์–ด ๊ฐœ๋…๋„: ๋ˆ„์  ์ •๋ณด์— ๊ธฐ๋ฐ˜ํ•˜์—ฌ ๋‹ค์Œ ๋ถ€์ž‘์—…(subtask)์„ ๊ฒฐ์ •ํ•˜๊ณ , ๊ฐ ๋ถ€์ž‘์—…์ด ํ”ฝ์…€ ์ˆ˜์ค€์˜ ์•ˆ๊ตฌ ์›€์ง์ž„ ์ œ์–ด

  1. ์ฒซ ๋ฒˆ์งธ ์ž‘์—… ์ค‘์‹ฌ ์Šค์บ”ํŒจ์Šค ์˜ˆ์ธก ๋ชจ๋ธ: ์ž์œ ๋กœ์šด ์‹œ์ฒญ์ด ์•„๋‹Œ ๋ถ„์„ ์ž‘์—… ์ˆ˜ํ–‰ ์ค‘ ์‹œ๊ฐ„์  ์ˆœ์„œ๋ฅผ ํฌํ•จํ•œ ์Šค์บ”ํŒจ์Šค ์˜ˆ์ธก์˜ ์ฒซ ๊ณ„์‚ฐ ๋ชจ๋ธ ์ œ์‹œ
  2. ๊ณ„์ธต์  ์ œ์–ด ์•„ํ‚คํ…์ฒ˜์˜ ํšจ๊ณผ์„ฑ: ์ธ์ง€๊ณผํ•™์˜ ๊ณ„์ธต์  ์˜์‚ฌ๊ฒฐ์ • ํ”„๋ ˆ์ž„์›Œํฌ ๊ฐœ๋…์„ ๋ฐ˜์˜ํ•˜์—ฌ ๋ณต์žกํ•œ ์ž‘์—…์„ ๋‹จ์ˆœํ•œ ๋ถ€์ž‘์—…์œผ๋กœ ๋ถ„ํ•ด ๊ฐ€๋Šฅ
  3. ์ธ๊ฐ„ ์œ ์‚ฌ์„ฑ: ๊ธฐ์กด ๊ธฐ์ค€ ๋ชจ๋ธ๋“ค(์ผ๋ฐ˜ ์Šค์บ”ํŒจ์Šค ์˜ˆ์ธก, ์‹œ๊ฐ์  ์งˆ๋ฌธ ๋‹ต๋ณ€, ์ž์œ ๋กœ์šด ์‹œ์ฒญ ์ฐจํŠธ ์Šค์บ”ํŒจ์Šค)๋ณด๋‹ค ์ธ๊ฐ„ ๋ฐ์ดํ„ฐ์™€์˜ ์Šค์บ”ํŒจ์Šค ์œ ์‚ฌ๋„๊ฐ€ ๋†’์Œ
  4. ์ธ๊ฐ„ ์œ ์‚ฌ ์‹œ์„  ํ–‰๋™ ํŠน์„ฑ: ๋ชจ๋ธ ์˜ˆ์ธก์ด ๊ณ ์ •์  ์ง€์† ์‹œ๊ฐ„, ๊ณ ์ •์  ๊ฐ„ ๊ฑฐ๋ฆฌ ๋“ฑ ์š”์•ฝ ํ†ต๊ณ„์—์„œ ์ธ๊ฐ„๊ณผ ์œ ์‚ฌํ•œ ์•ˆ๊ตฌ ์›€์ง์ž„ ํ–‰๋™ ํŠนํ˜„

How

Figure 3

๊ณ„์ธต์  ์•ˆ๊ตฌ ์›€์ง์ž„ ์ œ์–ด ์•„ํ‚คํ…์ฒ˜ ๊ฐœ์š”: ์ฐจํŠธ์™€ ์ž‘์—… ์ž…๋ ฅ ์‹œ ์ธ์ง€ ์ œ์–ด๊ธฐ์˜ ์˜์‚ฌ๊ฒฐ์ • ํ๋ฆ„

Originality

Limitation & Further Study

Evaluation

์ดํ‰: Chartist๋Š” ์ฐจํŠธ ์ฝ๊ธฐ์—์„œ ์ž‘์—… ์ค‘์‹ฌ์˜ ์•ˆ๊ตฌ ์›€์ง์ž„์„ ์˜ˆ์ธกํ•˜๋Š” ์ฒซ ๊ณ„์‚ฐ ๋ชจ๋ธ๋กœ, ๊ณ„์ธต์  ์ œ์–ด ์•„ํ‚คํ…์ฒ˜๋ฅผ ํ†ตํ•ด ์ƒˆ๋กœ์šด ์ ‘๊ทผ์„ ์ œ์‹œํ•œ๋‹ค. ๊ธฐ์ˆ ์ ์œผ๋กœ ํƒ€๋‹นํ•˜๊ณ  ์ธ๊ฐ„ ์œ ์‚ฌ์„ฑ์ด ์šฐ์ˆ˜ํ•˜๋‚˜, ์ผ๋ฐ˜ํ™” ๊ฐ€๋Šฅ์„ฑ๊ณผ ์˜ˆ์ธก ์ •ํ™•๋„ ์ธก๋ฉด์˜ ํ•œ๊ณ„๊ฐ€ ์žˆ์œผ๋ฉฐ, ์„ธ๋ถ€ ๊ธฐ์ˆ  ์„ค๋ช…๊ณผ ๊ด‘๋ฒ”์œ„ํ•œ ํ‰๊ฐ€๊ฐ€ ํ•„์š”ํ•˜๋‹ค. ์ •๋ณด ์‹œ๊ฐํ™” ๋ถ„์•ผ์— ์˜๋ฏธ ์žˆ๋Š” ๊ธฐ์—ฌ๋ฅผ ํ•˜๋ฉด์„œ๋„ ์‹ค์ œ ์‘์šฉ์„ ์œ„ํ•ด์„œ๋Š” ์ถ”๊ฐ€ ๊ฐœ์„ ์ด ์š”๊ตฌ๋œ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Enhancing chart-to-code generation in MLLMs๋Š” ์ฐจํŠธ์˜ ์‹œ๊ฐ์  ์ •๋ณด ํ™œ์šฉ์—์„œ chart ์ฝ๊ธฐ์˜ ๊ณ„ํ†ต์  ์ ‘๊ทผ์˜ ์ด๋ก ์  ๊ธฐ๋ฐ˜์ด ๋œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ฐจํŠธ ์‹œ๊ฐ์  ๋ถ„์„์„ ์œ„ํ•œ ๋‹ค๋ฅธ ๊ณ„์‚ฐ ๋ชจ๋ธ์„ ์ œ์•ˆํ•˜๋Š” ๊ด€๋ จ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
ChartGemma๋Š” ์‹œ์„  ์ถ”์  ๋Œ€์‹  ์‹œ๊ฐ์  instruction-tuning์„ ํ†ตํ•œ ์ฐจํŠธ ์ดํ•ด ์„ฑ๋Šฅ ํ–ฅ์ƒ ์ ‘๊ทผ๋ฒ•์„ ์‚ฌ์šฉํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
203์—์„œ๋Š” ์ฐจํŠธ๋ฅผ ๋ฐ˜๋ณต์  ์Šค์ผ€์นญ(CoT)์œผ๋กœ ์ดํ•ดํ•˜๋Š” ๋ฐฉ๋ฒ•๋ก ์„ ์ œ์‹œํ•˜์—ฌ, 200์˜ ์‹œ์„ ์ถ”์  ๊ธฐ๋ฐ˜ ์ธ์ง€์ œ์–ด ๋ชจ๋ธ๊ณผ ์ฐจํŠธ ํ•ด์„ ์ž๋™ํ™”์˜ ์ „ํ˜€ ๋‹ค๋ฅธ ์ „๋žต์„ ๋น„๊ตํ•  ์ˆ˜ ์žˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
651์€ ํ˜‘์—…์  LLM ์—์ด์ „ํŠธ๊ฐ€ ์‹ ์•ฝ ๊ฐœ๋ฐœ์—์„œ ์ •๋ณด ํ™œ์šฉ ๋ฐ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์กฐ์ž‘์— ๋ฏธ์น˜๋Š” ์˜ํ–ฅ ์—ฐ๊ตฌ๋กœ, 200์˜ ์ธ๊ฐ„ ์•ˆ๊ตฌ ์›€์ง์ž„ ๊ธฐ๋ฐ˜ ์ฐจํŠธ ์ดํ•ด๋ฅผ ์‹ค์„ธ๊ณ„ ์ ์šฉ์œผ๋กœ ์—ฐ๊ฒฐํ•ด๋ณธ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
์ฐจํŠธ ๊ธฐ๋ฐ˜ ๋ฐ์ดํ„ฐ ๋ถ„์„์—์„œ ์‹ค์ œ๋กœ ์•ˆ๊ตฌ ์›€์ง์ž„(์‹œ๊ฐ์  ์ฃผ์˜)์— ๊ธฐ๋ฐ˜ํ•œ ์ž๋™ ๋ถ„์„์„ ํ‰๊ฐ€ํ•˜๋Š” ๋…ผ๋ฌธ์ž…๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
Visual thoughts ๋…ผ๋ฌธ์€ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ •๋ณด ์† ์‹œ๊ฐ์  ์‚ฌ๊ณ ์™€ ์ธ๊ฐ„ ์œ ์‚ฌ ์ธํ„ฐ๋ž™์…˜์„ ์‹ฌ์ธต์ ์œผ๋กœ ๋…ผ์˜ํ•˜์—ฌ ์•ˆ๊ตฌ ์›€์ง์ž„ ์˜ˆ์ธก๊ณผ๋„ ์—ฐ๊ฒฐ๋œ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •