Enhancing chart-to-code generation in multimodal large language models via iterative dual preference learning

์ €์ž: Zhihan Zhang, Yixin Cao, Lizi Liao | ๋‚ ์งœ: 2025 | DOI: 10.1145/3746027.3755596 📄 PDF


Essence

Figure 1

์ฐจํŠธ-to-์ฝ”๋“œ ์ƒ์„ฑ ์ž‘์—…์˜ ์˜ˆ์‹œ๋กœ, ์‹คํ–‰ ๊ฐ€๋Šฅ์„ฑ(Executability), ์‹œ๊ฐ์  ์ถฉ์‹ค๋„(Visual Fidelity), ์†์„ฑ ์ •ํ™•๋„(Attributes Correctness) ๋“ฑ ๋‹ค์ค‘ ์ฐจ์›์œผ๋กœ ํ‰๊ฐ€๋จ

์ฐจํŠธ ์ด๋ฏธ์ง€๋ฅผ ์‹คํ–‰ ๊ฐ€๋Šฅํ•œ ํ”Œ๋กœํŒ… ์ฝ”๋“œ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ์ฐจํŠธ-to-์ฝ”๋“œ ์ƒ์„ฑ ์ž‘์—…์—์„œ, ๋‹ค์ค‘๋ชจ๋‹ฌ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(MLLM)์˜ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๊ธฐ ์œ„ํ•ด ์ด์ค‘ ๋ชจ๋“œ(code + image) ๋ณด์ƒ ๋ฉ”์ปค๋‹ˆ์ฆ˜๊ณผ ๋ฐ˜๋ณต์  ์„ ํ˜ธ๋„ ํ•™์Šต์„ ๊ฒฐํ•ฉํ•œ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์‹œํ•œ๋‹ค.

Motivation

Achievement

Figure 2

Chart2Code์˜ ๊ฐœ์š”: ํœด๋ฆฌ์Šคํ‹ฑ F1 ๊ธฐ๋ฐ˜ ์ฝ”๋“œ ์ ์ˆ˜ ๋งค๊ธฐ๊ธฐ์™€ ์‹œ๊ฐ ๋ณด์ƒ ๋ชจ๋ธ์„ ํฌํ•จํ•œ ์ด์ค‘ ๋ณด์ƒ ๋ฉ”์ปค๋‹ˆ์ฆ˜, ๊ทธ๋ฆฌ๊ณ  ๊ตฌ์กฐํ™”๋œ ๋ณ€ํ˜• ์ƒ์„ฑ ์ „๋žต๊ณผ ์ข…ํšก๋ณ„(aspect-level) ํ”ผ๋“œ๋ฐฑ ๋ฐ์ดํ„ฐ์…‹

  1. ์„ฑ๊ณผ1 - ๋‹ค์ค‘ MLLM์—์„œ์˜ ์ผ๊ด€๋œ ์„ฑ๋Šฅ ํ–ฅ์ƒ: ์„ธ ๊ฐœ์˜ ๊ธฐ๋ณธ MLLM๊ณผ ๋‘ ๊ฐœ์˜ ๋ฒค์น˜๋งˆํฌ์—์„œ ์‹คํ—˜ํ•˜์—ฌ ํ”„๋ ˆ์ž„์›Œํฌ๊ฐ€ ๋‹ค์–‘ํ•œ ์ดˆ๊ธฐํ™” ์„ค์ •์—์„œ๋„ ์‹ค์งˆ์ ์ธ ์„ฑ๋Šฅ ๊ฐœ์„ ์„ ๋‹ฌ์„ฑํ•จ์„ ์ž…์ฆ
  2. ์„ฑ๊ณผ2 - ์ „๋ฌธํ™”๋œ ๋ชจ๋ธ๊ณผ์˜ ๊ฒฝ์Ÿ๋ ฅ: ๋ฒ”์šฉ ์˜คํ”ˆ์†Œ์Šค MLLM๋“ค์„ ์ฐจํŠธ ์ „๋ฌธ ๋ชจ๋ธ ๋ฐ ์ผ๋ถ€ ๋…์  ์‹œ์Šคํ…œ ์ˆ˜์ค€์œผ๋กœ ํ–ฅ์ƒ์‹œ์ผœ, ๊ณ ํ’ˆ์งˆ์˜ ์‹œ๊ฐ์ ์œผ๋กœ ์ถฉ์‹คํ•œ ํ”Œ๋กœํŒ… ์ฝ”๋“œ ์ƒ์„ฑ ๋Šฅ๋ ฅ์„ ํ™•๋ณด
  3. ์„ฑ๊ณผ3 - ์Šค์ผ€์ผ ๊ฐ€๋Šฅํ•˜๊ณ  ํƒ€๊ฒŸํŒ…๋œ ๊ฐ๋…: ๊ตฌ์กฐํ™”๋œ ๋ณ€ํ˜• ์ƒ์„ฑ ์ „๋žต๊ณผ ์‹œ๊ฐ ๋ณด์ƒ ๋ชจ๋ธ์„ ํ†ตํ•ด ๊ณ ํ’ˆ์งˆ์˜ ์ข…ํšก๋ณ„ ์„ ํ˜ธ๋„ ์Œ ์ƒ์„ฑ์„ ํšจ์œจ์ ์œผ๋กœ ์ˆ˜ํ–‰ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•จ

How

Figure 3

๊ฐ ๋ฐ˜๋ณต ๋‹จ๊ณ„์—์„œ ์ƒ์„ฑ๋˜๋Š” ๋ณด์ƒ ์‹ ํ˜ธ์˜ ํ๋ฆ„

1. ์ด์ค‘ ๋ณด์ƒ ๋ฉ”์ปค๋‹ˆ์ฆ˜ (Dual Rewarding Mechanism)

2. ๊ตฌ์กฐํ™”๋œ ๋ณ€ํ˜• ์ƒ์„ฑ ์ „๋žต (Structured Variant Generation)

3. ๋ฐ˜๋ณต์  ์„ ํ˜ธ๋„ ํ•™์Šต (Iterative Preference Learning)

4. ์ข…ํšก๋ณ„ ํ”ผ๋“œ๋ฐฑ ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์„ฑ

Originality

Limitation & Further Study

Evaluation

์ดํ‰: ์ฐจํŠธ-to-์ฝ”๋“œ ์ƒ์„ฑ์˜ ๋ณธ์งˆ์  ์ด์ค‘์„ฑ(์ฝ”๋“œ ์ •ํ™•์„ฑ + ์‹œ๊ฐ์  ์ถฉ์‹ค๋„)์„ ์ง์ ‘ ๋ฐ˜์˜ํ•œ ์ด์ค‘ ๋ณด์ƒ ๋ฉ”์ปค๋‹ˆ์ฆ˜๊ณผ ๋ฐ˜๋ณต์  ์„ ํ˜ธ๋„ ํ•™์Šต์˜ ๊ฒฐํ•ฉ์ด ํšจ๊ณผ์ ์ด๋ฉฐ, ๋ฒ”์šฉ MLLM์˜ ์‹ค์งˆ์  ํ–ฅ์ƒ์„ ๋‹ฌ์„ฑํ•œ ์ ์ด ์ฃผ๋ชฉํ•  ๋งŒํ•จ. ๋‹ค๋งŒ ๋ณด์ƒ ํ•จ์ˆ˜์˜ ํœด๋ฆฌ์Šคํ‹ฑ ์„ฑ๊ฒฉ๊ณผ ๋„๋ฉ”์ธ ํ™•์žฅ์„ฑ์— ๋Œ€ํ•œ ์ถ”๊ฐ€ ๊ฒ€์ฆ์ด ํ•„์š”ํ•จ.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
SciCap ๋…ผ๋ฌธ์€ ๊ณผํ•™ ๊ทธ๋ฆผ์˜ ์ž๋™ ์บก์…˜ ์ƒ์„ฑ ๋ฐ์ดํ„ฐ์…‹๊ณผ ๊ณผ์ œ์ •์˜๋ฅผ ์ œ๊ณตํ•ด, Chart-to-Code ์ƒ์„ฑ ํ”„๋ ˆ์ž„์›Œํฌ์˜ multimodal ์ดํ•ด ๊ธฐ๋ฐ˜์„ ๋งˆ๋ จํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
199๋Š” ์ฐจํŠธ ์ดํ•ด์™€ ์ถ”๋ก ์„ ์œ„ํ•œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ฐ์ดํ„ฐ์…‹๊ณผ ๋ชจ๋ธ๋ง์„ ์ œ๊ณตํ•ด, 315์˜ ์ฐจํŠธ-to-์ฝ”๋“œ ์ƒ์„ฑ ๊ธฐ์ˆ ์˜ ๊ธฐ๋ณธ์ด ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
FRAG ๋…ผ๋ฌธ์€ retrieval-augmented generation ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์‹œํ•˜์—ฌ ์ฐจํŠธ-to-์ฝ”๋“œ ์ƒ์„ฑ ๋ฐฉ์‹์— ํ•„์ˆ˜์ ์ธ ๊ธฐ๋ณธ ๊ตฌ์กฐ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Enhancing chart-to-code generation in MLLMs๋Š” ์ฐจํŠธ์˜ ์‹œ๊ฐ์  ์ •๋ณด ํ™œ์šฉ์—์„œ chart ์ฝ๊ธฐ์˜ ๊ณ„ํ†ต์  ์ ‘๊ทผ์˜ ์ด๋ก ์  ๊ธฐ๋ฐ˜์ด ๋œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
198์˜ ChartGemma๋Š” ์‹œ๊ฐ์  ์ฐจํŠธ ์ถ”๋ก  ํŠœ๋‹ ์ค‘์‹ฌ, 315๋Š” ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ฝ”๋“œ ์ƒ์„ฑ ๋ฐ ๋ฐ˜๋ณต์  ์„ ํ˜ธ๋„ ํ•™์Šต์— ์ค‘์ ์„ ๋‘ก๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
315 ๋…ผ๋ฌธ์€ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ LLM ๊ธฐ๋ฐ˜ ๊ณผํ•™ ์ฐจํŠธโ†’์ฝ”๋“œ ์ƒ์„ฑ ๊ฐœ์„ ์„ ๋„๋ชจํ•ด, 783์˜ ์ฐจํŠธ ์ƒ์„ฑ ๋ฐ QA ๋ฌธ์ œ ํ•ด๊ฒฐ ๋ฐฉ๋ฒ•๊ณผ ๋‹ค์–‘์„ฑ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
566์€ ํ…์ŠคํŠธ-์ฐจํŠธ ํ˜ผํ•ฉ ๊ฒฐ๊ณผ๋ฌผ์„ ์ƒ์„ฑํ•˜๋Š” ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์‹œ์Šคํ…œ์„ ์†Œ๊ฐœํ•ด, 315์™€ ์œ ์‚ฌ ๋ชฉ์ ์„ ๋ฐ์ดํ„ฐ ๋ ˆ์ด์•„์›ƒ ์ค‘์‹ฌ์œผ๋กœ ์ ‘๊ทผํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Enhancing chart-to-code generation ๋…ผ๋ฌธ์€ ๋…ผ๋ฌธ ๋‚ด ๋‹ค์ค‘๋ชจ๋‹ฌ ์ •๋ณด์˜ ์ž๋™ ์ฒ˜๋ฆฌ ๋ฐ ์ฝ”๋“œ ๋ณ€ํ™˜์ด๋ผ๋Š” ๋™์ผ ๊ณผ์ œ๋ฅผ ๋‹ค์–‘ํ•œ ๋ฐฉ์‹์œผ๋กœ ์ ‘๊ทผํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
315๋Š” ํ™”ํ•™ ํ•ฉ์„ฑ ๊ฒฝ๋กœ ์˜ˆ์ธก์— LLM์„ ํ™œ์šฉํ•˜๋Š” ์ ์šฉ ๋…ผ๋ฌธ์œผ๋กœ, ๋ฌด๊ธฐ๋ฌผ ์„ค๊ณ„์— generative AI ์ ์šฉ ๋ฆฌ๋ทฐ์ธ 3144์™€ ์ ‘๊ทผ๋ฒ•์„ ๋น„๊ตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
์ฐจํŠธ-์ฝ”๋“œ ์ƒ์„ฑ ๊ณผ์ œ์—์„œ ๊ตฌ์กฐ์  ๋ฐ์ดํ„ฐ์™€ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ LLM ํ™œ์šฉ๋ฒ• ์„ฑ๋Šฅ์„ ๋ณด์™„ ๋น„๊ตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Chart to code ๋“ฑ ๊ตฌ์กฐํ™” ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ LLM ํ”„๋ ˆ์ž„์›Œํฌ ์‘์šฉ์‚ฌ๋ก€๋กœ Tablemaster์˜ ์˜ํ–ฅ ๋ฒ”์œ„๋ฅผ ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
์ˆ˜ํ•™์‹ ์ด๋ฏธ์ง€์˜ LaTeX ๋ณ€ํ™˜๊ณผ ๊ฐ™์€ ์ด๋ฏธ์ง€-ํˆฌ-์ฝ”๋“œ ์ž‘์—…์— ๋Œ€ํ•˜์—ฌ ๋‹ค์–‘ํ•œ ์ ‘๊ทผ๋ฒ•์„ ์ œ์‹œํ•˜๋Š” ๋…ผ๋ฌธ์ž…๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
Enhancing chart-to-code generation ๋…ผ๋ฌธ์€ ์ฐจํŠธ ์ด๋ฏธ์ง€ ์ดํ•ด ๋ฐ ์ฝ”๋“œ ์ƒ์„ฑ์ด๋ผ๋Š” ์‹ค์งˆ์  ์ ์šฉ ์‚ฌ๋ก€๋ฅผ ํ†ตํ•ด ์ฐจํŠธ์ดํ•ด ํŠœ๋‹ ๋ฐ์ดํ„ฐ ํ™œ์šฉ์„ ์‹คํ—˜์ ์œผ๋กœ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •