์ ์: Fuxiao Liu, Xiaoyang Wang, Wenlin Yao, Jianshu Chen, Kaiqiang Song, Sangwoo Cho, Yaser Yacoob, Dong Yu | ๋ ์ง: 2024-04-15 | DOI: 10.48550/arXiv.2311.10774 📄 PDF
Essence
MMC์ 9๊ฐ์ง ๊ตฌ๋ณ๋๋ ์์
, ๋ค์ํ ์ฃผ์ (๋น์ฆ๋์ค, ๊ฑด๊ฐ, ์๋ฌผํ ๋ฑ), ๋ค์ํ ์ฐจํธ ์ ํ(๋ง๋, ํ์คํ ๊ทธ๋จ, ์ ํ, ์ฐ์ ๋, ํํธ๋งต ๋ฑ)์ผ๋ก ๊ตฌ์ฑ๋ ์ธ๊ฐ ์ฃผ์ ๋ฐ์ดํฐ์
๋๊ท๋ชจ ๋ฉํฐ๋ชจ๋ฌ ์ฐจํธ ๋ช
๋ น์ด ํ๋(600k ์ธ์คํด์ค)์ ํตํด ์ฐจํธ ์ดํด์ ํนํ๋ LMM(๋๊ท๋ชจ ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ)์ ๊ฐ๋ฐํ๊ณ , 9๊ฐ์ง ํ์ ์์
์ผ๋ก ๊ตฌ์ฑ๋ ํฌ๊ด์ ๋ฒค์น๋งํฌ๋ฅผ ์ ์ํ๋ ์ฐ๊ตฌ์ด๋ค.
Evaluation
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ ์ฐจํธ ์ดํด๋ผ๋ ์ค์ํ ํ์ ๋๋ฉ์ธ์์ ๋๊ท๋ชจ ๊ณ ํ์ง ๋ฐ์ดํฐ์
๊ณผ ํฌ๊ด์ ๋ฒค์น๋งํฌ๋ฅผ ์ ์ํจ์ผ๋ก์จ ๋ฉํฐ๋ชจ๋ฌ AI์ ์ค์ ์์ฉ ํ๋์ ๊ธฐ์ฌํ๋ ์๋ฏธ ์๋ ์์
์ด๋ค. ๊ธฐ์ ์ ํ์ ๋ณด๋ค๋ ๋ฐ์ดํฐ์
/ํ๊ฐ ์์ฐ์ ๊ฐ์น๊ฐ ๋์ผ๋ฉฐ, GPT-4V ํฌํจ ๊ด๋ฒ์ํ ์ค์ฆ์ ํตํด ํ์ฌ ๋ชจ๋ธ๋ค์ ํ๊ณ๋ฅผ ๋ช
ํํ ๋๋ฌ๋ธ ์ ์ด ๊ฐ์ ์ด๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
ChartLlama๋ฅผ ๋น๋กฏํ ๋ฉํฐ๋ชจ๋ฌ ์ฐจํธ ์ดํด ์ฐ๊ตฌ๋ MMC์ ๋๊ท๋ชจ ์ฐจํธ ๋ฒค์น๋งํฌ ๊ตฌ์ถ๊ณผ ํ๊ฐ์ ๊ธฐ์ด๊ฐ ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Gemini๋ ๋ฉํฐ๋ชจ๋ฌ ์ฐจํธยท์ด๋ฏธ์ง ๋ฑ ๋ณตํฉ ์
๋ ฅ์ ๋ค์ดํฐ๋ธํ๊ฒ ์ฒ๋ฆฌํ๋ ์์คํ
์ผ๋ก, ๋๊ท๋ชจ ์ฐจํธ ๋ช
๋ น์ด ํ๋ ๋ฐ ํ๊ฐ์ ๊ธฐ๋ฐ ์ฌ๋ก๋ฅผ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
ChartGemma์ ์ฐจํธ ์ค์ฌ ๋น์ -์ธ์ด ๋ชจ๋ธ๋ง ์ฑ๊ณผ๊ฐ MMC์ ๋๊ท๋ชจ ๋ช
๋ น์ด ํ๋์ ์ ํ ์ฐ๊ตฌ๋ก์ ๋ฐ์ ํ๊ฒ ์์ฉํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
551 ๋
ผ๋ฌธ์ ๋ค์ค๋ชจ๋ฌ ์ฐจํธ ์ดํด๋ฅผ ์ํ ๋๊ท๋ชจ LLM ๋ฒค์น๋งํฌ๋ก, SynChart์ ์ ์ฌํ ๋ฐ์ดํฐ ๋ฐ ํ๊ฐ ์ฒด๊ณ๋ฅผ ์ ๊ณตํ์ฌ ๊ธฐ๋ฐ์ด ๋ฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋ฉํฐ๋ชจ๋ฌ LLM์ ์ฑ๋ฅ ๋ฒค์น๋งํฌ๋ฅผ ๋น๊ตํ๋ ์ ์ฌํ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
551์ ๋๊ท๋ชจ ๋ฉํฐ๋ชจ๋ฌ ์ฐจํธ ๋ฐ์ดํฐ์
์ ํตํ ์ฐจํธ ์ดํด ๋ชจ๋ธ์ ์ ์ํ์ฌ ๋ฉํฐ๋ชจ๋ฌ ์ ๋ณด ์ดํด๋ผ๋ ์ธก๋ฉด์์ MMSD2.0์ ํ์ ํ์ง์ ์ ์ฌํ ๋ฌธ์ ์ ์ ๊ทผํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
SciFIBench๋ ๊ณผํ ์ฐจํธ๋ฅผ ํฌํจํ ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ ๋ฒค์น๋งํฌ๋ฅผ ์ ์ํ์ฌ ์ฐจํธ ์ดํด ๋ถ์ผ์ ๋ค๋ฅธ ํ๊ฐ ๊ธฐ์ค์ ์ ๊ณตํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
MMSCI์ ๋น์ทํ๊ฒ ๋ฉํฐ๋ชจ๋ฌ ์ฐจํธยท๋น์ฃผ์ผ ๋ฐ์ดํฐ์
์ ํ์ฉํ์ฌ ์ธ์ด๋น์ ๋ชจ๋ธ์ ๊ณผํ ์๊ฐํ ์ดํด๋๋ฅผ ํ๊ฐํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
551๋ฒ ๋
ผ๋ฌธ ์ญ์ ๋๊ท๋ชจ ์ฐจํธ ์ดํด MLLM ๋ฒค์น๋งํฌ์ ๋ฐ์ดํฐ์
์ ์ ๊ณตํ๋ฏ๋ก, ์๋ก์ ๋ฒค์น๋งํฌ ์ค๊ณ์ ์ฐจ์ด์ ์ ๋น๊ตํ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
551๋ ๋๊ท๋ชจ ์ฐจํธ-ํ
์คํธ ํ์ต ๋ฐ ์ฐจํธ ์ดํด ์ฑ๋ฅ ๊ฐ์ ์ ๋ชฉํ๋ก ํ๋ฉฐ, 196๊ณผ ์ฐจํธ ๋ฉํฐ๋ชจ๋ฌ LLM ๊ฐ๋ฐ์์ ๋ฐ์ดํฐ์ ์ํคํ
์ฒ ์ฐจ์ด๊ฐ ์๋ค.
๋ค๋ฅธ ์ ๊ทผ
Gemini ๊ณ์ด ๋ชจ๋ธ๊ณผ ๋น๊ต๋๋ ๋ค๋ฅธ ๋๊ท๋ชจ ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ์ ์ ์ํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
551์ ๋๊ท๋ชจ ๋ฉํฐ๋ชจ๋ฌ ์ฐจํธ ์ดํด๋ฅผ ์ํ ๋ฒค์น๋งํฌ์ ๋ชจ๋ธ์ ํจ๊ป ์ ์ํ์ฌ, 199์ ์ ์ฌํ ๋ฌธ์ ๋ฅผ ๋ค๋ฅธ ๋ฐฉ์์ผ๋ก ๋ค๋ฃน๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
MMC ๋
ผ๋ฌธ์ ๋ค์ค๋ชจ๋ฌ ์ฐจํธ ์ดํด ๋ฒค์น๋งํฌ์ ๊ธฐ์ด๋ชจ๋ธ์ ์ ์ํ์ฌ, ChartCoder์ ์ฐจํธ-to-์ฝ๋ ๋ชจ๋ธ๊ณผ ์ฐจ๋ณ๋๋ ์ฐจํธ ์ฒ๋ฆฌ ์ ๊ทผ๋ฒ์ ๋ณด์ฌ์ค๋๋ค.
ํ์ ์ฐ๊ตฌ
T-SciQ๋ ๋ฉํฐ๋ชจ๋ฌ ์ฑ๋ด์ ์ฒด์ธ ์ค๋ธ ์ํธ(Chain-of-Thought) ์ถ๋ก ๋ฅ๋ ฅ์ ํ๊ฐํ์ฌ ์ฐจํธ ์ดํด์ ๋
ผ๋ฆฌ์ ์ถ๋ก ์ ๊ฒฐํฉํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
MMC ๋
ผ๋ฌธ์ ๋๊ท๋ชจ ์ฐจํธ ๋ช
๋ น์ด ํ๋๊ณผ ๋ฒค์น๋งํฌ๋ก ๋ฉํฐ๋ชจ๋ฌ ์ฐจํธ ์ดํด ์ฐ๊ตฌ์ ์ต์ ์งํ์ ์ ์ํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
MMC ๋
ผ๋ฌธ์ ๋๊ท๋ชจ ๋ฉํฐ๋ชจ๋ฌ ์ฐจํธ ์ดํด ๋ฐ์ดํฐ์
๊ณผ ํฌ๊ด์ ๋ฒค์น๋งํฌ๋ฅผ ์ ์ํด ๊ฐ๋ ฅํ ์ฐจํธ ํนํ LMM ์ฐ๊ตฌ์ ๋ฐ์ ์ ๋ณด์ฌ์ค๋๋ค.
ํ์ ์ฐ๊ตฌ
MMC ๋ฑ ๋ฉํฐ๋ชจ๋ฌ chart ์ดํด ๋ํ ์ด๋ฏธ์ง-ํ
์คํธ ๋์ ํด์ ๋ฑ, ๋จ์ํ baseline ๋๋น ์ถ๊ฐ์ deep learning ๊ตฌ์กฐ ํ์ฅ์ ํ์์ฑ๊ณผ ๋ฐ์ดํฐ ํ์ฉ ๋ฐฉ๋ฒ๋ก ์ ์ฐธ๊ณ ๊ฐ ๋๋ค.
์์ฉ ์ฌ๋ก
MMC ๋
ผ๋ฌธ์ ๋ฉํฐ๋ชจ๋ฌ ์ฐจํธ ์ดํด๋ผ๋ ๋ณตํฉ ์๋ช
๊ณผํ ๋ฐ์ดํฐ๋ฅผ ๋ค๋ฃจ๋ ๋ฌธ์ ์ LMM์ ์ ์ฉํ์ฌ, DNA ์์ด-๋ฐํ ์์ธก ๊ตฌ์กฐ์ ์ค์ ๋ฐ์ดํฐํด์ ์ฐ๊ฒฐ๊ณ ๋ฆฌ๋ฅผ ์ ์ํฉ๋๋ค.