Essence
์ฐจํธ-to-์ฝ๋ ์์ฑ ์์
์ ์์๋ก, ์คํ ๊ฐ๋ฅ์ฑ(Executability), ์๊ฐ์ ์ถฉ์ค๋(Visual Fidelity), ์์ฑ ์ ํ๋(Attributes Correctness) ๋ฑ ๋ค์ค ์ฐจ์์ผ๋ก ํ๊ฐ๋จ
์ฐจํธ ์ด๋ฏธ์ง๋ฅผ ์คํ ๊ฐ๋ฅํ ํ๋กํ
์ฝ๋๋ก ๋ณํํ๋ ์ฐจํธ-to-์ฝ๋ ์์ฑ ์์
์์, ๋ค์ค๋ชจ๋ฌ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(MLLM)์ ์ฑ๋ฅ์ ํฅ์์ํค๊ธฐ ์ํด ์ด์ค ๋ชจ๋(code + image) ๋ณด์ ๋ฉ์ปค๋์ฆ๊ณผ ๋ฐ๋ณต์ ์ ํธ๋ ํ์ต์ ๊ฒฐํฉํ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค.
How
๊ฐ ๋ฐ๋ณต ๋จ๊ณ์์ ์์ฑ๋๋ ๋ณด์ ์ ํธ์ ํ๋ฆ
1. ์ด์ค ๋ณด์ ๋ฉ์ปค๋์ฆ (Dual Rewarding Mechanism)
- ์ฝ๋ ์ธก ํ๊ฐ: ํด๋ฆฌ์คํฑ F1 ๊ธฐ๋ฐ ์ ์ ๋งค๊ธฐ๊ธฐ๋ก ์์ฑ ์ฝ๋์ ๊ตฌ์กฐ์ ์์ ์ฑ๊ณผ ์๋ฏธ๋ก ์ ์ ํ์ฑ ํ๊ฐ
- ์ฐจํธ ํ์
(Type), ๋ฐ์ดํฐ(Data), ์์(Color), ํ
์คํธ(Text), ๋ ์ด์์(Layout), ์คํ์ผ(Style) ๋ฑ 6๊ฐ ์ข
ํก์ ๋ํด ๊ฐ๋ณ F1 ์ ์ ๊ณ์ฐ
- ์ด๋ฏธ์ง ์ธก ํ๊ฐ: ์๊ฐ ๋ณด์ ๋ชจ๋ธ(visual reward model)์ ํตํด ๋ ๋๋ง๋ ์ฐจํธ์ ์๊ฐ์ ์ถฉ์ค๋ ํ๊ฐ
- ์ข
ํก๋ณ ํผ๋๋ฐฑ ๋ฐ์ดํฐ์
์ผ๋ก ํ๋ จ๋ ์๊ฐ ๋ณด์ ๋ชจ๋ธ์ด ๋ ์ด์์, ์คํ์ผ, ์ง๊ฐ์ ์์ฑ ๋ณด์กด ์ ๋ ์ธก์
2. ๊ตฌ์กฐํ๋ ๋ณํ ์์ฑ ์ ๋ต (Structured Variant Generation)
- ๊ธํ์ค ์ฝ๋๋ก๋ถํฐ ์ ์ด๋ ํธ์ฐจ๋ฅผ ๊ฐ์ง ํฉ์ฑ ์ฝ๋ ์ํ ์์ฑ
- ์ข
ํก๋ณ ๊ท์น ๊ธฐ๋ฐ ๋ณํ: Shuffling(์์ ์ฌ์ ๋ ฌ), Removing(ํ
์คํธ ์ ๊ฑฐ), Changing(์คํ์ผ ๋ณ๊ฒฝ) ๋ฑ
- ๋ค์ํ ์ฌํ ์์ค์ ๊ฑธ์น ์ ํธ๋ ์ ์์ฑ
3. ๋ฐ๋ณต์ ์ ํธ๋ ํ์ต (Iterative Preference Learning)
- Direct Preference Optimization (DPO) ๋ชฉํํจ์ ํ์ฉ
- ๋ชจ๋ธ ์์ฑ ์ฝ๋ vs ํฉ์ฑ ๋ณํ ์ฝ๋ ๊ฐ ์ ํธ๋ ์ ๊ตฌ์ฑ
- ๊ฐ ๋ฐ๋ณต ์ข
๋ฃ ํ ์๋ก์ด ์ฐธ์กฐ ์ฐจํธ ๋ฐฐ์น์ ๋ํด ๋ชจ๋ธ ํ๊ฐํ์ฌ ๋ค์ ๋ฐ๋ณต ์งํ
- ์ด์ค ํผ๋๋ฐฑ ๊ธฐ๋ฐ ์ต์ ํ๋ก ์ง์์ ์ ์
4. ์ข
ํก๋ณ ํผ๋๋ฐฑ ๋ฐ์ดํฐ์
๊ตฌ์ฑ
- ๊ฐ ์์ฑ ๊ฒฐ๊ณผ์ ๋ํด ์ข
ํก๋ณ ์ค๋ช
๊ณผ ์ ์ ์ ๊ณต
- ์๊ฐ ๋ณด์ ๋ชจ๋ธ ํ๋ จ์ ๊ฐ๋
์ ํธ๋ก ์ฌ์ฉ
Evaluation
์ดํ: ์ฐจํธ-to-์ฝ๋ ์์ฑ์ ๋ณธ์ง์ ์ด์ค์ฑ(์ฝ๋ ์ ํ์ฑ + ์๊ฐ์ ์ถฉ์ค๋)์ ์ง์ ๋ฐ์ํ ์ด์ค ๋ณด์ ๋ฉ์ปค๋์ฆ๊ณผ ๋ฐ๋ณต์ ์ ํธ๋ ํ์ต์ ๊ฒฐํฉ์ด ํจ๊ณผ์ ์ด๋ฉฐ, ๋ฒ์ฉ MLLM์ ์ค์ง์ ํฅ์์ ๋ฌ์ฑํ ์ ์ด ์ฃผ๋ชฉํ ๋งํจ. ๋ค๋ง ๋ณด์ ํจ์์ ํด๋ฆฌ์คํฑ ์ฑ๊ฒฉ๊ณผ ๋๋ฉ์ธ ํ์ฅ์ฑ์ ๋ํ ์ถ๊ฐ ๊ฒ์ฆ์ด ํ์ํจ.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
SciCap ๋
ผ๋ฌธ์ ๊ณผํ ๊ทธ๋ฆผ์ ์๋ ์บก์
์์ฑ ๋ฐ์ดํฐ์
๊ณผ ๊ณผ์ ์ ์๋ฅผ ์ ๊ณตํด, Chart-to-Code ์์ฑ ํ๋ ์์ํฌ์ multimodal ์ดํด ๊ธฐ๋ฐ์ ๋ง๋ จํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
199๋ ์ฐจํธ ์ดํด์ ์ถ๋ก ์ ์ํ ๋ฉํฐ๋ชจ๋ฌ ๋ฐ์ดํฐ์
๊ณผ ๋ชจ๋ธ๋ง์ ์ ๊ณตํด, 315์ ์ฐจํธ-to-์ฝ๋ ์์ฑ ๊ธฐ์ ์ ๊ธฐ๋ณธ์ด ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
FRAG ๋
ผ๋ฌธ์ retrieval-augmented generation ํ๋ ์์ํฌ๋ฅผ ์ ์ํ์ฌ ์ฐจํธ-to-์ฝ๋ ์์ฑ ๋ฐฉ์์ ํ์์ ์ธ ๊ธฐ๋ณธ ๊ตฌ์กฐ๋ฅผ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Enhancing chart-to-code generation in MLLMs๋ ์ฐจํธ์ ์๊ฐ์ ์ ๋ณด ํ์ฉ์์ chart ์ฝ๊ธฐ์ ๊ณํต์ ์ ๊ทผ์ ์ด๋ก ์ ๊ธฐ๋ฐ์ด ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
198์ ChartGemma๋ ์๊ฐ์ ์ฐจํธ ์ถ๋ก ํ๋ ์ค์ฌ, 315๋ ๋ฉํฐ๋ชจ๋ฌ ์ฝ๋ ์์ฑ ๋ฐ ๋ฐ๋ณต์ ์ ํธ๋ ํ์ต์ ์ค์ ์ ๋ก๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
315 ๋
ผ๋ฌธ์ ๋ฉํฐ๋ชจ๋ฌ LLM ๊ธฐ๋ฐ ๊ณผํ ์ฐจํธโ์ฝ๋ ์์ฑ ๊ฐ์ ์ ๋๋ชจํด, 783์ ์ฐจํธ ์์ฑ ๋ฐ QA ๋ฌธ์ ํด๊ฒฐ ๋ฐฉ๋ฒ๊ณผ ๋ค์์ฑ์ ์ ๊ณตํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
566์ ํ
์คํธ-์ฐจํธ ํผํฉ ๊ฒฐ๊ณผ๋ฌผ์ ์์ฑํ๋ ๋ฉํฐ๋ชจ๋ฌ ์์คํ
์ ์๊ฐํด, 315์ ์ ์ฌ ๋ชฉ์ ์ ๋ฐ์ดํฐ ๋ ์ด์์ ์ค์ฌ์ผ๋ก ์ ๊ทผํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
Enhancing chart-to-code generation ๋
ผ๋ฌธ์ ๋
ผ๋ฌธ ๋ด ๋ค์ค๋ชจ๋ฌ ์ ๋ณด์ ์๋ ์ฒ๋ฆฌ ๋ฐ ์ฝ๋ ๋ณํ์ด๋ผ๋ ๋์ผ ๊ณผ์ ๋ฅผ ๋ค์ํ ๋ฐฉ์์ผ๋ก ์ ๊ทผํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
315๋ ํํ ํฉ์ฑ ๊ฒฝ๋ก ์์ธก์ LLM์ ํ์ฉํ๋ ์ ์ฉ ๋
ผ๋ฌธ์ผ๋ก, ๋ฌด๊ธฐ๋ฌผ ์ค๊ณ์ generative AI ์ ์ฉ ๋ฆฌ๋ทฐ์ธ 3144์ ์ ๊ทผ๋ฒ์ ๋น๊ตํ ์ ์์ต๋๋ค.
ํ์ ์ฐ๊ตฌ
์ฐจํธ-์ฝ๋ ์์ฑ ๊ณผ์ ์์ ๊ตฌ์กฐ์ ๋ฐ์ดํฐ์ ๋ฉํฐ๋ชจ๋ฌ LLM ํ์ฉ๋ฒ ์ฑ๋ฅ์ ๋ณด์ ๋น๊ตํ ์ ์์ต๋๋ค.
ํ์ ์ฐ๊ตฌ
Chart to code ๋ฑ ๊ตฌ์กฐํ ๋ฐ์ดํฐ์ ๋ํ ๋ฉํฐ๋ชจ๋ฌ LLM ํ๋ ์์ํฌ ์์ฉ์ฌ๋ก๋ก Tablemaster์ ์ํฅ ๋ฒ์๋ฅผ ํ์ฅํฉ๋๋ค.
์์ฉ ์ฌ๋ก
์ํ์ ์ด๋ฏธ์ง์ LaTeX ๋ณํ๊ณผ ๊ฐ์ ์ด๋ฏธ์ง-ํฌ-์ฝ๋ ์์
์ ๋ํ์ฌ ๋ค์ํ ์ ๊ทผ๋ฒ์ ์ ์ํ๋ ๋
ผ๋ฌธ์
๋๋ค.
์์ฉ ์ฌ๋ก
Enhancing chart-to-code generation ๋
ผ๋ฌธ์ ์ฐจํธ ์ด๋ฏธ์ง ์ดํด ๋ฐ ์ฝ๋ ์์ฑ์ด๋ผ๋ ์ค์ง์ ์ ์ฉ ์ฌ๋ก๋ฅผ ํตํด ์ฐจํธ์ดํด ํ๋ ๋ฐ์ดํฐ ํ์ฉ์ ์คํ์ ์ผ๋ก ๋ณด์ฌ์ค๋๋ค.