์ ์: Zekun Li, Xianjun Yang, Kyuri Choi, Wanrong Zhu, Ryan Hsieh, HyeonJung Kim, Jin Hyuk Lim, Sungyoung Ji, Byungju Lee, Xifeng Yan, Linda Ruth Petzold, Stephen D. Wilson, Woosang Lim, William Yang Wang | ๋ ์ง: 2024 | DOI: N/A 📄 PDF
Essence
๊ทธ๋ฆผ 1: MMSCI ๋ฐ์ดํฐ์
์ ์์ 20๊ฐ ๊ณผํ ๋ถ์ผ๋ณ ๋
ผ๋ฌธ ์์ ์ด๋ฏธ์ง ์
๋ณธ ๋
ผ๋ฌธ์ Nature Communications์ ๋๋ฃํ๊ฐ ๋
ผ๋ฌธ 131,393๊ฐ๋ก๋ถํฐ 742,273๊ฐ์ ์ด๋ฏธ์ง๋ฅผ ์์งํ์ฌ, 72๊ฐ ํ๋ฌธ ๋ถ์ผ์ ๋ํ์ ์์ค ๋ณต์กํ ๊ณผํ ์๊ฐํ๋ฅผ ์ดํดํ๊ธฐ ์ํ ๋๊ท๋ชจ ๋ฉํฐ๋ชจ๋ฌ ๋ฐ์ดํฐ์
(MMSCI)์ ์ ์ํ๋ค. ์ด๋ฅผ ํตํด 19๊ฐ ์ธ์ด๋น์ ๋ชจ๋ธ(Large Vision Language Models, LVLMs)์ ํ๊ฐํ๋ฉฐ, ๋ฏธ์ธ ์กฐ์ ๋ฐ ์ฌ์ ํ์ต์ ํตํด ๋ชจ๋ธ ์ฑ๋ฅ์ ํฅ์์ํฌ ์ ์์์ ๋ณด์ฌ์ค๋ค.
Evaluation
์ดํ: MMSCI๋ ๊ณผํ ๋ถ์ผ์ ๋ณต์กํ ๋ฉํฐ๋ชจ๋ฌ ์ดํด๋ฅผ ๋ค๋ฃจ๋ ๋๊ท๋ชจ ๊ณ ํ์ง ๋ฐ์ดํฐ์
์ผ๋ก, ๊ธฐ์กด ์ฐจํธ ์ค์ฌ ๋ฒค์น๋งํฌ์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ณ ๋ค์ํ ๋๋ฉ์ธ์ graduate-level ์๊ฐํ ํด์์ ๊ฐ๋ฅํ๊ฒ ํ๋ค. ์ค์ ๋ฏธ์ธ ์กฐ์ ๊ณผ ์ฌ์ ํ์ต์ ํตํ ์ฑ๋ฅ ํฅ์์ ์
์ฆํจ์ผ๋ก์จ ๊ณผํ AI ์ด์์คํดํธ ๊ฐ๋ฐ์ ์ค์ํ ๊ธฐ๋ฐ์ ์ ๊ณตํ๋ฉฐ, ํนํ ๋๋ฉ์ธ ์ ๋ฌธ๊ฐ ์์ค์ ๋ชจ๋ธ ์ฑ๋ฅ ๋ฌ์ฑ์ ์ค๋ฌด์ ๊ฐ์น๋ฅผ ์
์ฆํ๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
337(Figgen)์ ๊ณผํ์ ํ
์คํธ๋ฅผ ์๋์ผ๋ก ์๊ฐ ์๋ฃ๋ก ๋ณํํ๋ ๊ธฐ์ ์ ํ์ํด, 552์ ์ด๋ฏธ์ง์ ํ
์คํธ ํตํฉ ๋ฐ์ดํฐ ๊ฐ๋ฐ ๋
ผ์์ ๊ธฐ์ด๋ฅผ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๋ฉํฐ๋ชจ๋ฌ chain-of-thought reasoning ๋ฒค์น๋งํฌ๋ MMSCI๊ฐ ์งํฅํ๋ ๋ํ์ ์์ค ๋ณตํฉ ์๊ฐํ ์ดํด ํ๊ฐ์ ์ด๋ก ์ ๋ฐ๋ฐํ์ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
ํ
์คํธ-์ด๋ฏธ์ง ์์ฑ ๋๋ ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ์ ๊ธฐ๋ฐ ๊ธฐ์ ์ ์ ๊ณตํ๋ ์ฐ๊ตฌ์ด๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
552์์ ์ ์ํ ๋ฉํฐ๋ชจ๋ฌ ๊ณผํ ๋ฐ์ดํฐ ์ดํด ๊ณผ์ ๋ฅผ, 368์ Gemini 1.5 ์๋ฒ ์ด๋ฅผ ํตํด ๋ฉํฐ๋ชจ๋ฌ LLM ์ฑ๋ฅ์ ์ ๋ฐ์ ํํฉ ๋ฐ ํ๊ณ์ ํจ๊ป ํ์
ํ ์ ์์ต๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
737์ Sciverse ๋ฉํฐ๋ชจ๋ฌ LLM ๋ฒค์น๋งํฌ ๊ตฌ์ถ์ 552์ MMSCI ๋๊ท๋ชจ ๊ณผํ์ด๋ฏธ์ง-ํ
์คํธ ๋ฐ์ดํฐ์
์ ๊ทธ ๊ทผ๊ฐ์ ๋๊ณ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
์ฐจํธ ์ดํด๋ฅผ ์ํ ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ ํ์ต ๋ฐฉ๋ฒ๋ก ์ ๋ค๋ฃจ๋ ๊ด๋ จ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
๊ณผํ์ ์ด๋ฏธ์ง ๋ถ์์ ์ํ ๋๊ท๋ชจ ์ธ์ด/์๊ฐ ๋ชจ๋ธ ํ์ฉ์ ๋ค๋ฅธ ๋ฐฉ๋ฒ์ผ๋ก ์ ๊ทผํ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
์๋ฃ AI ์์คํ
์ ๋ค์ํ ์์ ์์ฉ์ ๋ค๋ฅธ ๋ฐฉ๋ฒ๋ก ์ผ๋ก ์ ๊ทผํ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
๊ธด ์ปจํ
์คํธ ์ฒ๋ฆฌ ๋ฅ๋ ฅ์ ๊ฐ์ถ ๋ค๋ฅธ ๋๊ท๋ชจ ์ธ์ด๋ชจ๋ธ์ ์ ์ํ๋ ์ ์ฌํ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
MMSCI์ ๋น์ทํ๊ฒ ๋ฉํฐ๋ชจ๋ฌ ์ฐจํธยท๋น์ฃผ์ผ ๋ฐ์ดํฐ์
์ ํ์ฉํ์ฌ ์ธ์ด๋น์ ๋ชจ๋ธ์ ๊ณผํ ์๊ฐํ ์ดํด๋๋ฅผ ํ๊ฐํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
552(MMSCI)๋ ๋ฉํฐ๋ชจ๋ฌ ๊ณผํ ์ด๋ฏธ์ง์ ์ธ์ด ๋ฐ์ดํฐ์
ํ๋ฆฝ์ผ๋ก, 566์ ์ฐจํธ-ํ
์คํธ ํตํฉํ ๋ฆฌํฌํธ ์์ฑ ๋ฐ ํ๊ฐ ๋ฐฉ๋ฒ๊ณผ ๋ฌธ์ ์์์ ๊ณต์ ํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋ค์ค๋ชจ๋ฌ ๋ฐ ๋ฉํฐ๋๋ฉ์ธ ๊ณผํ ๋ฐ์ดํฐ์
์ ํตํ LLM ํ๊ฐ๋ก ๋ค์ํ ๊ณผํ์ ๋งฅ๋ฝ์์ ์ฑ๋ฅ ์ฒ๋์ ์ผ์น์ ์ด ์์.
๋ค๋ฅธ ์ ๊ทผ
์ฐจํธ ์๊ฐ์ ๋ถ์์ ์ํ ๋ค๋ฅธ ๊ณ์ฐ ๋ชจ๋ธ์ ์ ์ํ๋ ๊ด๋ จ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
308์ด ์์ํํ ์ํฌํ๋ก์ฐ ์๋ํ์ ์ด์ ์ ๋๋ค๋ฉด, MMSCI(552)๋ ๋ฉํฐ๋ชจ๋ฌ ํ์ ๊ฐ ๊ณผํ ๋ฌธ์ ์์ LLM ๊ธฐ๋ฐ ์์ด์ ํธ์ ๋ฅ๋ ฅ์ ํ๊ฐํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋ค์ค ๋ชจ๋ฌ ๊ณผํ์ ์ถ๋ก ๋ฅ๋ ฅ์ ํ๊ฐํ๋ ๋ฐ์ดํฐ์
๊ณผ ๋ฒค์น๋งํฌ๋ฅผ ์ ๊ณตํ์ฌ ์ด ๋
ผ๋ฌธ์ ์ฃผ์ฅ์ ์ค์ฆ์ ์ผ๋ก ํ
์คํธํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋ถ๋ฅ ์์
์์ ์๋ํ๋ ๋จธ์ ๋ฌ๋ ์ ๊ทผ๋ฒ์ ํจ์จ์ฑ์ ํ๊ฐํ๋ ๊ด๋ จ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
์๋ฃ ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ์ ๋ฅ๋ ฅ์ ํ๊ฐํ๊ธฐ ์ํ ๋์์ ๋ฒค์น๋งํฌ ๋๋ ํ๊ฐ ๋ฐฉ๋ฒ๋ก ์ ์ ์ํ๋ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
๊ฒฐ์ ๊ตฌ์กฐ ํน์ฑ ์์ธก์ ์ํ ํ๋ผ๋ฏธํฐ ํจ์จ์ ์ธ ๋์์ ๋ชจ๋ธ์ ์ ์ํ๋ ์ฐ๊ตฌ์ด๋ค.
ํ์ ์ฐ๊ตฌ
MMSCI๋ ๋ํ์ ์์ค์ ๊ณผํ ๋ฐ ์๋ฆฌ ๋ฉํฐ๋ชจ๋ฌ ๋ฌธ์ ๋ก ๊ตฌ์ฑ๋ ๋ฒค์น๋งํฌ๋ก, SciBench์ ๋์ด๋ยท์คํํธ๋ผ ํ์ฅ์ ์คํํ๋ค.
ํ์ ์ฐ๊ตฌ
ChartGemma๋ ์ฐจํธ ๋ฆฌ์ฆ๋ ๋ฉํฐ๋ชจ๋ฌ AI ์ฑ๋ฅ์ MMSCI ๋ฐ์ดํฐ์
๋งฅ๋ฝ์์ ๋์ฑ ์ฌ์ธต์ ์ผ๋ก ํ๊ฐํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
MMSCI์ ๋๋ฃํ๊ฐ ๋ฉํฐ๋ชจ๋ฌ ๊ณผํ ์๊ฐํ ์ดํด ๋ฐ์ดํฐ์
์์ ํ๊ฐ๋ 19๊ฐ LVLM์ ์ฑ๋ฅ์, Scimage์์ ์ถ๊ฐ์ ์ผ๋ก ์ฌํ ๋ถ์ํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
552์ ๋ํ์ ์์ค ๊ณผํ ์๊ฐํ ๋ฉํฐ๋ชจ๋ฌ ๋ฐ์ดํฐ์
(MMSCI)์, 737์์ ๋ค์ํ LMM/LLM ๋ฒค์น๋งํฌ์ ์ฐ๊ณํ์ฌ ์ค์ ํ๊ฐ ์ฌ๋ก๋ก ๋ฐ์ ์ํต๋๋ค.
์์ฉ ์ฌ๋ก
๊ณผํ์ ๊ทธ๋ฆผยท์ฐจํธ์ ๋ํ ์บก์
์์ฑ ์คํ ์ฌ๋ก๋ก MMSCI ๋ฐ์ดํฐ๋ฅผ ์ค์ ๋ก ํ์ฉํ๋ ๋ฐฉ๋ฒ์ ๋ณด์ฌ์ค๋๋ค.
์์ฉ ์ฌ๋ก
MMSCI๋ ๋คํ์ ์ ๋ฉํฐ๋ชจ๋ฌ ์์ํ ์์
์ ๋ํ ๋ฐ์ดํฐ์
์ ์ ๊ณตํ์ฌ, BioProBench์ ํ๋กํ ์ฝ ์ดํด ๋ฐ ์ ์ฐจ์ ์ถ๋ก ์ํ ๋ฌธ์ ์ ์ง์ ์ ์ธ ์์ฉ ๊ฐ๋ฅ์ฑ์ด ์์ต๋๋ค.
์์ฉ ์ฌ๋ก
MMSCI ๋
ผ๋ฌธ์ ์์ฒด ์ ํธ ๋ฐ ๋ฉํฐ๋ชจ๋ฌ ์ํ ๋ฐ์ดํฐ์ ๋ํ ํธ๋์คํฌ๋จธ๋ฅ ์ํคํ
์ฒ๋ค์ ์์ฉ ์คํ์ ๋ค๋ฃจ์ด WaveFormer ์ฑ๋ฅ ์ ์ฉ ์ฌ๋ก ๋น๊ต๊ฐ ๊ฐ๋ฅํ๋ค.