์ ์: Muye Huang, Lingling Zhang, Jie Ma, Han Lai, Fangzhi Xu, Yifei Li, Wenjun Wu, Yaqiang Wu, Jun Liu | ๋ ์ง: 2025 | DOI: arXiv:2505.19076 📄 PDF
Essence
ChartSketcher์ ๊ฐ์: ์ค๊ฐ ์ถ๋ก ๋ฐ ๋ฐ์ฑ ๊ณผ์ (์ ์ )๊ณผ ๊ฐ ๋จ๊ณ์ ์ค์ผ์น ์ถ๋ ฅ
๋ณธ ๋
ผ๋ฌธ์ ๋ฉํฐ๋ชจ๋ฌ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(MLLM)์ด ์ฐจํธ๋ฅผ ์ดํดํ ๋ ์๊ฐ์ ํผ๋๋ฐฑ์ ํตํ ๋ฐ๋ณต์ ์ค์ผ์นญ(Sketch-CoT)์ผ๋ก ์ถ๋ก ๊ณผ์ ์ ๊ฐ์ ํ๋ ๋ฐฉ๋ฒ์ ์ ์ํ๋ค. ์ธ๊ฐ์ ์ธ์ง ํ๋์์ ์๊ฐ์ ๋ฐ์, ๋ชจ๋ธ์ด ์ค๊ฐ ์ถ๋ก ๋จ๊ณ๋ฅผ ์ฐจํธ์ ์ง์ ์ฃผ์ ์ฒ๋ฆฌํ๊ณ ์ด๋ฅผ ๋ค์ ์
๋ ฅ์ผ๋ก ์ ๊ณตํ์ฌ ๋ฉํฐ๋ชจ๋ฌ ์ํธ์์ฉ์ ํตํ ๊น์ด ์๋ ์ดํด๋ฅผ ์คํํ๋ค.
Evaluation
Novelty: 4.5/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 3.5/5 Overall: 4/5
์ดํ: ChartSketcher๋ ์ธ๊ฐ์ ์๊ฐ์ ์ถ๋ก ํ๋์์ ์๊ฐ์ ๋ฐ์ MLLM์ ์ฐจํธ ์ดํด ๋ฅ๋ ฅ์ ํฅ์์ํค๋ ํ์ ์ ๋ฐฉ๋ฒ๋ก ์ ์ ์ํ๋ฉฐ, ์ฒด๊ณ์ ์ธ ๋ฐ์ดํฐ ๊ตฌ์ถ๊ณผ ๋ ๋จ๊ณ ํ๋ จ ์ ๋ต์ผ๋ก ์ค์ฆ์ ํจ๊ณผ๋ฅผ ์
์ฆํ์ผ๋, ๊ณ์ฐ ํจ์จ์ฑ๊ณผ ํ๋ก๊ทธ๋๋ฐ ์ค๋ฒํค๋ ๋ฌธ์ ์ ๋ํ ์ถฉ๋ถํ ๋ถ์์ด ํ์ํ๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
ChartSketcher ๋
ผ๋ฌธ์ ๋ฉํฐ๋ชจ๋ฌ ํผ๋๋ฐฑ๊ณผ ๋ฐ์์ ํตํฉํ์ฌ ์ฐจํธ ์ด๋ฏธ์ง์ ๋ฆฌ์ฆ๋ ํ์ง์ ๋์ด๊ธฐ ์ํ ๋์ฒด์ ์ ๊ทผ์ ์๊ฐํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๋ณดํธ์ ์ฐจํธ ๋ฉํฐ๋ชจ๋ฌ ์ธ์ด๋ชจ๋ธ๊ณผ ์ฐจํธ-ํ
์ด๋ธ ์ฌ์ ํ์ต์ ๊ธฐ๋ฐ ๊ธฐ์ ์ ์ ๊ณตํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
์๊ฐ์ ํผ๋๋ฐฑ์ ํ์ฉํ ๋ฉํฐ๋ชจ๋ฌ LLM์ ์ถ๋ก ๊ฐ์ ์ ๋ค๋ฃจ๋ ๊ด๋ จ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
203์์๋ ์ฐจํธ๋ฅผ ๋ฐ๋ณต์ ์ค์ผ์นญ(CoT)์ผ๋ก ์ดํดํ๋ ๋ฐฉ๋ฒ๋ก ์ ์ ์ํ์ฌ, 200์ ์์ ์ถ์ ๊ธฐ๋ฐ ์ธ์ง์ ์ด ๋ชจ๋ธ๊ณผ ์ฐจํธ ํด์ ์๋ํ์ ์ ํ ๋ค๋ฅธ ์ ๋ต์ ๋น๊ตํ ์ ์๋ค.
๋ค๋ฅธ ์ ๊ทผ
๊ณผํ ๋ํ์ ๋ฐ์ดํฐ ์ธํฐํ์ด์ค๋ก ์ฌ์ ์ํ๋ ์ ๊ทผ๋ฒ๊ณผ ๊ด๋ จ๋ ์ฐ๊ตฌ์ด๋ค.
ํ์ ์ฐ๊ตฌ
T-SciQ์์๋ ๋ฉํฐ๋ชจ๋ฌ chain-of-thought ํ์ต ๊ธฐ๋ฒ์ ์ ์ฉํ์ฌ Sketch-CoT ๋ฐฉ์์ ์์ด๋์ด์ ์ํธ๋ณด์์ ์ผ๋ก ๋์ํ๋ค.
ํ์ ์ฐ๊ตฌ
566์ ํ
์คํธ-์ฐจํธ ํผํฉ ๋ฐ์ดํฐ๋ฅผ ์์ฑ/์ดํดํ๋ MLLM ๊ธฐ๋ฐ ๋ฐฉ๋ฒ์ ์ ์ํด, 203์ ๋ฐ๋ณต์ ํผ๋๋ฐฑ ๋ฐ ๋ฉํฐ๋ชจ๋ฌ ์ถ๋ก ์ ๋ต์ ํ์ ๋ฐ์ ์ด๋ผ ํ ์ ์๋ค.
์์ฉ ์ฌ๋ก
338์ ์๊ฐ์ ์ ๋ณด๋ฅผ ํ์ฉํ ์บก์
์์ฑ์ ์ ์ฉ๋๋ ์ค์ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ์ฌ, 203์ ๋ฉํฐ๋ชจ๋ฌ ์ค์ผ์น ๋ฐ ํผ๋๋ฐฑ ์ ๋ต์ ์ค์ฉ์ ์ ์ฉ ์์๋ก ์ฐ๊ฒฐํ๋ค.
์์ฉ ์ฌ๋ก
๋ฉํฐ๋ชจ๋ฌ ์ธ์ง ๊ณผ์ ์ ์ธ๊ฐ ํ๋(์์ , ์ค์ผ์น ๋ฑ) ๊ด์ ์์ ํด์ํ ํ ์ค์ ๋ชจ๋ธ ์ ์ฉ์ ์ ์ํฉ๋๋ค.