์ ์: Yucheng Han, Chi Zhang, Xin Chen, Xu Yang, Zhibin Wang, Gang Yu, Bin Fu, Hanwang Zhang | ๋ ์ง: 2023 | DOI: 10.48550/ARXIV.2311.16483 📄 PDF
Essence
๊ทธ๋ฆผ 1: ChartLlama์ ๋ค์ํ ๋ฅ๋ ฅ ์์ฐ. ์ ์๋ ๋ฐ์ดํฐ ์์ฑ ํ์ดํ๋ผ์ธ์ ๊ธฐ๋ฐ์ผ๋ก ํ instruction-tuning ๋ฐ์ดํฐ์
์ ๊ตฌ์ถํ๊ณ , ์ด๋ฅผ ํตํด ์ฐจํธ ์ดํด ๋ฐ ์์ฑ ๋ฅ๋ ฅ ํ๋
๊ธฐ์กด ๋ฉํฐ๋ชจ๋ฌ ๋ํ์ธ์ด๋ชจ๋ธ(LLM)๋ค์ด ์ผ๋ฐ์ ์ธ ์๊ฐ-์ธ์ด ์์
์์๋ ์ฐ์ํ๋, ์ฐจํธ ํด์ ๊ฐ์ ํน์ ๋๋ฉ์ธ ๋ฐ์ดํฐ ์ดํด์๋ ํฌ๊ฒ ๋ถ์กฑํ๋ค๋ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, GPT-4 ๊ธฐ๋ฐ์ ์๋ํ๋ 3๋จ๊ณ ๋ฐ์ดํฐ ์์ฑ ํ์ดํ๋ผ์ธ์ ์ ์ํ๊ณ , ์ด๋ก๋ถํฐ ํ์ตํ ChartLlama๊ฐ ๊ธฐ์กด ๋ฒค์น๋งํฌ์์ ์ต๊ณ ์ฑ๋ฅ์ ๋ฌ์ฑํ ์ฐ๊ตฌ๋ค.
How
๊ทธ๋ฆผ 2: ๋ฐ์ดํฐ์
๋ด ์์
์ ํ(์)๊ณผ ์ฐจํธ ์ ํ(์๋) ๋ถํฌ
3๋จ๊ณ ๋ฐ์ดํฐ ์์ฑ ํ์ดํ๋ผ์ธ:
- Stage 1 (Chart Data Generation): GPT-4์ ์ฃผ์ , ๋ฐ์ดํฐ ๋ถํฌ, ์ถ์ธ ๋ฑ์ ํน์ฑ์ ์ง์ ํ์ฌ ๋ค์ํ ํ ํ์์ ๋ฐ์ดํฐ ์์ฑ. ์น ํฌ๋กค๋ง ์์ด ํฉ์ฑ ๋ฐ์ดํฐ๋ฅผ ์ ์ฐํ๊ฒ ์์ฑ ๊ฐ๋ฅ.
- Stage 2 (Chart Figure Generation): GPT-4์ ์ฝ๋ฉ ๋ฅ๋ ฅ์ ํ์ฉํ์ฌ Stage 1์ ๋ฐ์ดํฐ์ Matplotlib ๋ฑ์ ๋ผ์ด๋ธ๋ฌ๋ฆฌ ๋ฌธ์๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ฐจํธ ์์ฑ ์ฝ๋(Python) ์์ฑ ๋ฐ ์คํ. ์ ํํ๊ณ ๋ค์ํ ์ฐจํธ ์ด๋ฏธ์ง ํ๋.
- Stage 3 (Instruction Tuning Data Generation): Stage 1, 2์ ๊ฒฐ๊ณผ๋ฌผ(์๋ณธ ๋ฐ์ดํฐ, ์์ฑ๋ ์ด๋ฏธ์ง, ์ฝ๋)์ ๋ฐํ์ผ๋ก GPT-4๊ฐ ์ฐจํธ ๋ด์ฉ ํด์, ๊ด๋ จ ์ง๋ฌธ-๋ต๋ณ ์ ๊ตฌ์ฑ. ์ค๋ช
๋ฌธ, Q&A, ์์ ์ฝ๋ ๋ฑ์ ํฌํจํ ์ข
ํฉ์ ์ธ instruction-tuning ์ฝํผ์ค ์์ฑ.
๋ชจ๋ธ ๊ตฌ์ถ: LLaVA-1.5๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ์ฌ ์์ฑ๋ ๋ฐ์ดํฐ์
์ผ๋ก fine-tuning. ๋น์ ์ธ์ฝ๋์ LLM์ ์กฐํฉ ๊ตฌ์กฐ ํ์ฉ.
Evaluation
Novelty: 4.5/5 Technical Soundness: 4.5/5 Significance: 4.5/5 Clarity: 4/5 Overall: 4.5/5
์ดํ: ์ฐจํธ ์ดํด์ ํนํ๋ ๋ฉํฐ๋ชจ๋ฌ LLM ๊ฐ๋ฐ์ด๋ผ๋ ๋ช
ํํ ๋ชฉํ ํ์, GPT-4 ๊ธฐ๋ฐ์ ์ฒด๊ณ์ ์ด๊ณ ์ ์ฐํ ๋ฐ์ดํฐ ์์ฑ ํ์ดํ๋ผ์ธ์ ์ ์ํ๊ณ , ์ด๋ก๋ถํฐ ๊ธฐ์กด ๋ฒค์น๋งํฌ์์ ์ฐ์ํ ์ฑ๋ฅ์ ๋ฌ์ฑํ ์๋ฏธ ์๋ ์ฐ๊ตฌ๋ค. ๋ค๋ง ํฉ์ฑ ๋ฐ์ดํฐ ์์กด๋, ์ค์ ๋ฐ์ดํฐ ์ผ๋ฐํ, ๊ท๋ชจ ํ๊ณ ๋ฑ์ ๋ํ ์ถ๊ฐ ๊ฒ์ฆ์ด ํ์ํ๋ฉฐ, ๊ณต๊ฐ๋ ๋ฐ์ดํฐ์
๊ณผ ๋ชจ๋ธ์ด ์ฐจํธ AI ์ฐ๊ตฌ ์ปค๋ฎค๋ํฐ์ ๋ฏธ์น ํ๊ธ๋ ฅ์ ํด ๊ฒ์ผ๋ก ์์๋๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
ChartLlama๋ ์ฐจํธ ์ดํดยท์์ฑ LLM์ ๋ฉํฐ๋ชจ๋ฌ ์ฆ๊ฑฐ ์ถ์ถ ๊ธฐ๋ฒ์ ์ ์ํ์ฌ, ํ
์ด๋ธ-ํ
์คํธ ์ฆ๊ฑฐ ๊ฐ์กฐ์ ์๋ฆฌ์ ๊ธฐ๋ฐ์ด ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
201 ๋
ผ๋ฌธ์ ์ฐจํธ์ ์๊ฐ์ ์ ๋ณด ์ดํด๋ฅผ ์ํ ๋ฉํฐ๋ชจ๋ฌ LLM์ ์ฑ๋ฅ ํ๊ณ๋ฅผ ํ๊ฐํ๋ฉฐ, 727 ๋
ผ๋ฌธ์ ScImage ๋ฒค์น๋งํฌ ๊ฐ๋ฐ์ ์์ด๋์ด์ ํ ๋์
๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
ChartQA ๋ฐ ์ฐจํธ๊ธฐ๋ฐ ๋ฌธ์ ํด๊ฒฐ์ ์ํ ๋ฉํฐ๋ชจ๋ฌ LLM(201)์ด Synchart ๋ฐ์ดํฐ์
๊ณผ ์ฐจํธ ์ ์ฉ ๋ชจ๋ธ ์ฐ๊ตฌ์ ๊ธฐ๋ฐ์
๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
ChartLlama๋ฅผ ๋น๋กฏํ ๋ฉํฐ๋ชจ๋ฌ ์ฐจํธ ์ดํด ์ฐ๊ตฌ๋ MMC์ ๋๊ท๋ชจ ์ฐจํธ ๋ฒค์น๋งํฌ ๊ตฌ์ถ๊ณผ ํ๊ฐ์ ๊ธฐ์ด๊ฐ ๋ฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
์ฐจํธ ์ดํด๋ฅผ ์ํ ์๋ํ๋ ๋ฐ์ดํฐ ์์ฑ ๋ฐ ๋ชจ๋ธ ํ์ต ๋ฐฉ๋ฒ๋ก ์ ์ ์ํ๋ ์ ์ฌํ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
201๋ฒ ๋
ผ๋ฌธ์ ์ฐจํธ์ ๋ฉํฐ๋ชจ๋ฌ ์ ๋ณด์ ๊ธฐ๋ฐํ LLM ๋ฅ๋ ฅ ํ๊ฐ๋ก, 657๋ฒ์ ChartBERT ์๋ ํฉํธ์ฒดํน๊ณผ ๋ชจ๋ธ ๊ตฌ์กฐ ๋ฐ ์ฑ๋ฅ์์ ๋น๊ตํ ์ ์๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋ ๋ค ๋ฉํฐ๋ชจ๋ฌ ์ฐจํธ ์ดํด๋ฅผ ์ํ LLM์ ์ ์ํ๋, 201๋ฒ์ GPT-4์ ์๋ํ๋ ๋ฐ์ดํฐ ํ์ดํ๋ผ์ธ์ ์ฐจ๋ณ์ ํน์ง์ผ๋ก ๋ด์ธ์๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
์ฐจํธ ๋ฑ ๋ฉํ์ ๋ณด๋ฅผ ํฌํจํ ๋ฉํฐ๋ชจ๋ฌ LLM์ ์ดํด ๋ฐ ์์ฑ ๋ฅ๋ ฅ์ ํ
์คํธํด, ๋ณธ ๋
ผ๋ฌธ์ ๋ถ์ ๋์ ๋ค์ํ์ ๋์์ ์ค๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
ChartLlama๋ ๋ฉํฐ๋ชจ๋ฌ ์ฐจํธ ์ธ๋์คํ ๋ฉ์ ๋ชฉํ๋ก ํ์ง๋ง ๋ค๋ฅธ ๋ฐ์ดํฐ์
๊ณผ ์ฌ์ ํ์ต ๋ฐฉ์์ ์ฌ์ฉํ์ฌ ์ฑ๋ฅ ๊ฐ์ ์ ๋ชจ์ํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
ChartLlama๋ ์ฐจํธ ์ดํด๋ฅผ ์ํ ๋ค๋ฅธ ๋ฉํฐ๋ชจ๋ฌ LLM ์ ๊ทผ๋ฒ์ ์ ์ฉํ์ฌ ChartInstruct์ ๋น๊ตํ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
HypoChainer๊ฐ ์ฐจํธ์ ์ง์ ๊ทธ๋ํ, LLM, ์ ๋ฌธ๊ฐ ํ์
์ ํตํด ๊ณผํ์ ๋ฐ๊ฒฌ์ ์ง์ํ๋ ๋ฐฉ์์ ChartLlama ๋ฑ ๊ณ ์ฑ๋ฅ ์ฐจํธ ์ดํด ๋ชจ๋ธ์ ๋์ฒด์ ๋ฐ์ ๊ฒฝ๋ก๋ฅผ ๋ณด์ฌ์ค๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
ChartLlama๋ ์ฐจํธ์ ๊ฐ์ ๋๋ฉ์ธ์์ ๋ฉํฐ๋ชจ๋ฌ LLM์ ์ ์ฉํ์๊ธฐ ๋๋ฌธ์, WaveFormer์ ์์ฒด์ ํธ ์ฒ๋ฆฌ์ ์ฐจ๋ณ์ ์ ๋น๊ตํ ์ ์๋ค.
ํ์ ์ฐ๊ตฌ
Synchart ๋
ผ๋ฌธ์ LLM์ผ๋ก๋ถํฐ ์ฐจํธ ์ด๋ฏธ์ง๋ฅผ ์ง์ ํฉ์ฑํ๋ ๋ฐฉ๋ฒ์ ๋ค๋ฃจ๋ฉฐ, ChartLlama์ ์ฐจํธ ์์ฑ/์ดํด ๋ฅ๋ ฅ๊ณผ ์ฐ๊ด์ฑ์ด ํฌ๋ค.
ํ์ ์ฐ๊ตฌ
๊ณผํ ๋ฌธ์์์ ๋ค์ํ ์๊ฐยทํ ๊ตฌ์กฐ๋ก๋ถํฐ ์ ๋ณด ์ถ์ถ์ ์ง์ํ๋ ๋ฉํฐ๋ชจ๋ฌ IE ํ๋ ์์ํฌ๋ฅผ ์ ์ํ์ฌ, ChartLlama ๋ชจ๋ธ๊ณผ ์ฐ๊ณ ์ฐ๊ตฌ๊ฐ ๊ฐ๋ฅํ๋ค.
ํ์ ์ฐ๊ตฌ
201 ๋
ผ๋ฌธ์ ์ฐจํธ์ดํด ๋ฉํฐ๋ชจ๋ฌ LLM ChartLlama๋ฅผ ์ ์ํด, 204์ ChartVLM ๊ธฐ๋ฐ ์ฐจํธ ์ดํด๋ ฅ ํ๊ฐ ๋ถ๋ถ์ ํ์ฅ ๊ฒ์ฆํ๋ค.
ํ์ ์ฐ๊ตฌ
MMC ๋
ผ๋ฌธ์ ๋๊ท๋ชจ ์ฐจํธ ๋ช
๋ น์ด ํ๋๊ณผ ๋ฒค์น๋งํฌ๋ก ๋ฉํฐ๋ชจ๋ฌ ์ฐจํธ ์ดํด ์ฐ๊ตฌ์ ์ต์ ์งํ์ ์ ์ํฉ๋๋ค.