์ ์: Z. J. Guo, Renrui Zhang, Hao Chen, Jialin Gao, Dongzhi Jiang, Jiaze Wang, PhengโAnn Heng | ๋ ์ง: 2025 | DOI: ๋ฏธ์ ๊ณต 📄 PDF
Essence
Figure 1: 5๊ฐ์ง ๋ฌธ์ ๋ฒ์ ๊ณผ ๊ณผํ์ CoT ํ๊ฐ ์ ๋ต์ ๊ฐ์. ์ง์ ์์ค์ ๋ฌ๋ฆฌํ๋ 3๊ฐ์ง ๋ฒ์ ๊ณผ ์๊ฐ ์ ๋ณด ๋น์ค์ ๋ฌ๋ฆฌํ๋ 2๊ฐ์ง ๋ฒ์ , ๊ทธ๋ฆฌ๊ณ ๋จ๊ณ๋ณ ํ๊ฐ ์ ๋ต์ ์ ์.
SCIVERSE๋ ๋๊ท๋ชจ ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ(LMM)์ ๊ณผํ ๋ฌธ์ ํด๊ฒฐ ๋ฅ๋ ฅ์ ์ธ๋ฐํ๊ฒ ํ๊ฐํ๊ธฐ ์ํ ๋ฒค์น๋งํฌ๋ก, 1,147๊ฐ ๋ฌธ์ ๋ฅผ 5๊ฐ์ง ๋ฒ์ ์ผ๋ก ๋ณํํ 5,735๊ฐ ํ
์คํธ ์ธ์คํด์ค๋ฅผ ์ ๊ณตํ๋ฉฐ, ๊ณผํ ์ง์ ์ดํด, ๋ฉํฐ๋ชจ๋ฌ ์ฝํ
์ธ ํด์, ์ฐ์์ ์ฌ๊ณ (CoT) ์ถ๋ก ์ด๋ผ๋ ์ธ ๊ฐ์ง ํต์ฌ ์ฐจ์์ ์ฒด๊ณ์ ์ผ๋ก ํ๊ฐํ๋ค.
How
Figure 1 (ํ๋จ): ๊ณผํ์ CoT ํ๊ฐ ์ ๋ต. ๋จ๊ณ๋ณ ๋ถ๋ฅ, ์ง์ ๋ฐ ๋
ผ๋ฆฌ ์ ์ ์ฐ์ถ.
๋ฐ์ดํฐ ์์ง ๋ฐ ๋ณํ
- ๊ธฐ์กด ๊ณต๊ฐ ๋ฐ์ดํฐ์
(SceMQA, MMMU, CMMMU)์์ 1,200๊ฐ ๋ฌธ์ ์ด์์ง
- ๋ฐ์ฌ๊ธ ๊ณผํ ์ ๋ฌธ๊ฐ 8๋ช
์ด ์ง์ ๋ณต์ก๋์ ์๊ฐ์ ํ๋ถ์ฑ์ ๊ธฐ์ค์ผ๋ก 1,147๊ฐ ์ ๋ณ
- ๋ชจ๋ ํ
์คํธ๋ฅผ LaTeX ํ์ ์๋ฌธ์ผ๋ก ํ์คํ, ๋ชจ๋ ๋ฌธ์ ๋ฅผ ๊ฐ๊ด์์ผ๋ก ํต์ผ
5๊ฐ์ง ๋ฌธ์ ๋ฒ์ ์ค๊ณ
๊ณผํ ์ง์ ์ดํด ํ๊ฐ:
- Knowledge-free: ์ฃผ์ด์ง ์กฐ๊ฑด + ํต์ฌ ์ง๋ฌธ๋ง ํฌํจ (๋ฐฐ๊ฒฝ ์ง์ ์์)
- Knowledge-lite: ์์ ๊ฐ๋
๋ช
๋๋ ๊ณต์ ์ฐธ์กฐ ์ถ๊ฐ (๊ธฐ๋ณธ ์ง์ ๋จ์)
- Knowledge-rich: ๊ตฌ์ฒด์ ๋ฐฉ์ ์ ๋ฐ ์ ๋ฆฌ ์ ์ฉ ๋ฐฉ๋ฒ ์์ธ ์ ๊ณต (์ ๋ฌธ๊ฐ ์์ค ์ง์)
๋ฉํฐ๋ชจ๋ฌ ์ฝํ
์ธ ํด์ ํ๊ฐ:
- Vision-rich: ํต์ฌ ์ ๋ณด๊ฐ ๋ค์ด์ด๊ทธ๋จ์๋ง ํฌํจ๋๋๋ก ํ
์คํธ ์ต์ํ
- Vision-only: ํ
์คํธ ์
๋ ฅ ์์ด ์๊ฐ ์ ๋ณด๋ง ํฌํจ (์ค์บ ๋ฌธ์, ํ๊ธฐ ๋ฑ์ ์๋ฎฌ๋ ์ด์
)
๊ณผํ์ CoT ํ๊ฐ ์ ๋ต
- LMM์ ์ถ๋ก ์ถ๋ ฅ์ GPT-4o์ ์
๋ ฅํ์ฌ ๋จ๊ณ๋ณ๋ก ์ถ์ถ
- ๊ฐ ๋จ๊ณ๋ฅผ ์ง์ ๊ฒํ ๋จ๊ณ์ ๋
ผ๋ฆฌ ์ถ๋ก ๋จ๊ณ๋ก ๋ถ๋ฅ
- ๊ฐ ๋จ๊ณ์์ ์ง์ ์ค๋ฅ(Knowledge Score)์ ๋
ผ๋ฆฌ ์ค๋ฅ(Logical Score) ๋
๋ฆฝ์ ํ๊ฐ
- ์ต์ข
์ ์ ์ฐ์ถ๋ก ์ ๋ต์ ๋ง์ง๋ง ๊ณผ์ ์ด ์๋ชป๋ ๊ฒฝ์ฐ ๋ฑ์ ๋ถ๋ณ
Evaluation
์ดํ: SCIVERSE๋ ๊ณผํ ๋ฌธ์ ํด๊ฒฐ์์ LMM์ ์ง์ ์ดํด, ๋ฉํฐ๋ชจ๋ฌ ํด์, ์ถ๋ก ๋ฅ๋ ฅ์ ์ฒด๊ณ์ ์ผ๋ก ๋ถ์ํ ์ ์๋ ์ ์ค๊ณ๋ ๋ฒค์น๋งํฌ๋ก, ํนํ ํ์ค์ ์ธ Vision-only ์๋๋ฆฌ์ค์ ๋จ๊ณ๋ณ ์ค๋ฅ ๋ถ์์ด ๊ฐ์ ์ด์ง๋ง, ํ๊ฐ ๋๊ตฌ ์์กด์ฑ๊ณผ ๋ฐ์ดํฐ ๊ท๋ชจ ์ธก๋ฉด์์ ๊ฐ์ ์ ์ฌ์ง๊ฐ ์๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
Gemini: a family of highly capable multimodal models ๋
ผ๋ฌธ์ ๋๊ท๋ชจ ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ์ ํ๊ฐ ํ์ค๊ณผ ํธ๋ ๋๋ฅผ ์ฌ๋์๊ฒ ๋
ผ์ํ์ฌ, Sciverse ๋ฒค์น๋งํฌ ์ค๊ณ ๋
ผ์์ ๊ธฐ์ด์ ๋งฅ๋ฝ์ด๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
737์ Sciverse ๋ฉํฐ๋ชจ๋ฌ LLM ๋ฒค์น๋งํฌ ๊ตฌ์ถ์ 552์ MMSCI ๋๊ท๋ชจ ๊ณผํ์ด๋ฏธ์ง-ํ
์คํธ ๋ฐ์ดํฐ์
์ ๊ทธ ๊ทผ๊ฐ์ ๋๊ณ ์์ต๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๋ฉํฐ๋ชจ๋ฌ ์ธ์ปจํ
์คํธ ํ์ต์ ์ด๋ก ์ ๋ถ์์ด SCIVERSE ๋ฒค์น๋งํฌ์ ํ๊ฐ ์งํ ์ค๊ณ์ ์ง๊ฒฐ๋ฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
737์ด CoT, ๋ฉํฐ๋ชจ๋ฌ ์ง์ ๋ฌธ์ ์ค์ฌ ๋ฒค์น๋งํฌ๋ผ๋ฉด 722๋ ๋ค์ํ large vision-language model(LVLM) ๊ณผํ ๋ฒค์น๋งํฌ์ ์ด์ ์ ๋ง์ถ์ด ๋น๊ต์ ๋ค๋ฅธ ํ๊ฐ์ถ์ ์ ๊ณตํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
552์ ๋ํ์ ์์ค ๊ณผํ ์๊ฐํ ๋ฉํฐ๋ชจ๋ฌ ๋ฐ์ดํฐ์
(MMSCI)์, 737์์ ๋ค์ํ LMM/LLM ๋ฒค์น๋งํฌ์ ์ฐ๊ณํ์ฌ ์ค์ ํ๊ฐ ์ฌ๋ก๋ก ๋ฐ์ ์ํต๋๋ค.
ํ์ ์ฐ๊ตฌ
SCIVERSE๊ฐ ํ๊ฐํ๋ ๋ฉํฐ๋ชจ๋ฌ ์ฒด์ธ์ค๋ธ์ฝํฌ ์ถ๋ก ์ ๋ณธ์ง์ ๋ฉ์ปค๋์ฆ์ '์๊ฐ์ ์ฌ๊ณ ' ๊ด์ ์ผ๋ก ์ถ๊ฐ ๋ถ์ํฉ๋๋ค.
์์ฉ ์ฌ๋ก
737์ ๋ฉํฐ๋ชจ๋ฌ ๊ณผํ ๋ฌธ์ ํด๊ฒฐ๋ฅ๋ ฅ ๋ฒค์น๋งํน์ 055์ Gemini ๋ฑ ์ฒจ๋จ ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ์ ์ค์ ์๋ฃ ๋ถ์ผ์ ์ ์ฉํ๋ ์ค์ฆ์ฐ๊ตฌ์ ์ํธ๋ณด์์ ์
๋๋ค.
์์ฉ ์ฌ๋ก
์๊ฐ์ ์ฌ๊ณ ๋ฉ์ปค๋์ฆ ๋ถ์์ด ์ค์ SCIVERSE ๋ฉํฐ๋ชจ๋ฌ LLM ํ๊ฐ ๋ฒค์น๋งํฌ์ ์ธ๋ถ ๋ฉํธ๋ฆญ ํด์์ ํ์ฉ๋ ์ ์์ต๋๋ค.
์์ฉ ์ฌ๋ก
ํ
์ด๋ธ ๊ธฐ๋ฐ ๋ฌธ์ ํด๊ฒฐ ๋ฅ๋ ฅ ํฅ์์ด ์ค์ ๋ฉํฐ๋ชจ๋ฌ ๊ณผํ ๋ฒค์น๋งํฌ(SCIVERSE) ํ๊ฐ ํญ๋ชฉ๊ณผ ์ฐ๊ฒฐ๋ฉ๋๋ค.
์์ฉ ์ฌ๋ก
๊ณผํ ์ฐ๊ตฌ ์๋ํ ๊ณผ์ ์์ ๋ฉํฐ๋ชจ๋ฌ LLM ํ๊ฐ ๋ฒค์น๋งํฌ๋ก ์ค์ ์ ์ฉ ๋ฐฉ์์ ๋ชจ์ํ ์ ์์ต๋๋ค.