Essence
๋ฉํฐ๋ชจ๋ฌ ์ธ-์ปจํ
์คํธ ํ์ต์ ์ธ ๊ฐ์ง ํต์ฌ ๋จ๊ณ: ์์ฐ(demonstration) ๊ฒ์, ์์ ์ง์ , ํ๋กฌํํธ ๊ตฌ์ฑ
๋ณธ ๋
ผ๋ฌธ์ ์๊ฐ ์ธ์ด ๋ชจ๋ธ(Vision LLM)์์ ๋ฉํฐ๋ชจ๋ฌ ์ธ-์ปจํ
์คํธ ํ์ต(MM-ICL)์ ์ฑ๋ฅ์ ๊ฒฐ์ ํ๋ ์์๋ค์ ์ฒด๊ณ์ ์ผ๋ก ๋ถ์ํฉ๋๋ค. 6๊ฐ ๋ชจ๋ธ๊ณผ 20๊ฐ์ง ์ ๋ต์ ํตํด ์์ฐ ๊ฒ์, ์์ ์ง์ , ํ๋กฌํํธ ๊ตฌ์ฑ์ ์ธ ๋จ๊ณ์์ ์ฑ๋ฅ์ ์ํฅ์ ๋ฏธ์น๋ ํต์ฌ ์์ธ๋ค์ ๊ท๋ช
ํฉ๋๋ค.
Evaluation
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ ๊ธ์ํ ๋ฐ์ ํ๋ MM-ICL ๋ถ์ผ์์ ์ฑ๋ฅ์ ๊ฒฐ์ ํ๋ ๊ทผ๋ณธ ์์ธ๋ค์ ์ฒ์์ผ๋ก ์ฒด๊ณ์ ์ผ๋ก ๊ท๋ช
ํ ์ค์ํ ๊ธฐ์ด ์ฐ๊ตฌ์
๋๋ค. ํนํ ๋ฉํฐ๋ชจ๋ฌ ์ ๋ ฌ์ ๋ณ๋ชฉ ํ์๊ณผ ๋ชจ๋ฌ๋ฆฌํฐ ์์์ ์ค์์ฑ ๋ฑ์ ๋ฐ๊ฒฌ์ ํฅํ ์๊ฐ ์ธ์ด ๋ชจ๋ธ ๊ฐ๋ฐ๊ณผ ํ๋กฌํํธ ์ต์ ํ ์ฐ๊ตฌ์ ์ค์ง์ ๋ฐฉํฅ์ ์ ์ํฉ๋๋ค. ๋ค๋ง ์์
๋ฒ์ ํ๋, ํต๊ณ์ ์๋ฐ์ฑ ๊ฐํ, ๋์ ์ต์ ํ ๋ฐฉํฅ ํ์์ ํตํด ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ์ ๋์ผ ํ์๊ฐ ์์ต๋๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
Gemini ๊ณ์ด ๊ณ ์ฑ๋ฅ ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ์ ๋ํ ๊ธฐ์ ๋ฆฌํฌํธ๋ก, MM-ICL ์ฑ๋ฅ ๋ถ์ ๋
ผ์์ ๊ธฐ๋ฐ์ด ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
368์ Gemini 1.5์ ๋ฉํฐ๋ชจ๋ฌ ์ฑ๋ฅ๊ณผ ์ํคํ
์ฒ๋ฅผ ํญ๋๊ฒ ์ค๋ช
ํ์ฌ, 879์ ์คํ ๋ถ์์ ๊ธฐ๋ณธ ๋ชจ๋ธ ์ ๋ณด๋ฅผ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๋ฉํฐ๋ชจ๋ฌ ์ธ์ปจํ
์คํธ ํ์ต ๋ฐ ์ฅ๋ฌธ๋งฅ ๋ชจ๋ธ์ ์ฑ๋ฅ ํ๊ฐ์ ์ฌ์ธต์ ์ผ๋ก ๋ค๋ฃจ์ด, L-CiteEval ๋ฒค์น๋งํฌ์ ๋
ผ๋ฆฌ์ ๊ธฐ๋ฐ์ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
879๋ ๋ค์ํ VLM์ ์ฐจํธ ์ดํด ๋ฐ ๋ฉํฐ๋ชจ๋ฌ ์ธ-์ปจํ
์คํธ ํ์ต ์์๋ฅผ ๋ถ์ํด, 199์ ์ฐจํธ ํนํ ํ๋ ๋ฐ์ดํฐ์
์ค๊ณ์ ๊ธฐ๋ฐ์ด ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๋ฉํฐ๋ชจ๋ฌ ์ธ์ปจํ
์คํธ ํ์ต์ ์ด๋ก ์ ๋ถ์์ด SCIVERSE ๋ฒค์น๋งํฌ์ ํ๊ฐ ์งํ ์ค๊ณ์ ์ง๊ฒฐ๋ฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
์ฐจํธ ๋ฑ ๋ฉํ์ ๋ณด๋ฅผ ํฌํจํ ๋ฉํฐ๋ชจ๋ฌ LLM์ ์ดํด ๋ฐ ์์ฑ ๋ฅ๋ ฅ์ ํ
์คํธํด, ๋ณธ ๋
ผ๋ฌธ์ ๋ถ์ ๋์ ๋ค์ํ์ ๋์์ ์ค๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM์ ํ์ฉํ ๋ชจ๋ธ ์ ํ ๋ฐ ํ์ดํผํ๋ผ๋ฏธํฐ ํ๋ ์๋ํ์ ๊ด๋ จ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
What factors affect multimodal in-context learning ๋
ผ๋ฌธ์ ์ธ์ฉ๋ฌธ๋งฅ ์์ฑ์์ ๋ฉํฐ๋ชจ๋ฌ ๋ฐ ๋กฑ์ปจํ
์คํธ ์ฒ๋ฆฌ ๋ฐฉ๋ฒ์ ๋์์ ์คํ ๊ฒฐ๊ณผ๋ฅผ ์ ๊ณตํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋ฉํฐ๋ชจ๋ฌยท์นดํ
๊ณ ๋ฆฌ๋ณ ์ธ์ฉ ์ถ๋ก ๋ฐ ํธํฅ ํ์๊น์ง ํฌํจํ์ฌ LLM์ ํ๋ฌธ ์ง์ ๋ด์ฌํ ๋ฒ์๋ฅผ ํ์ฅํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
T-SciQ ๋
ผ๋ฌธ์ ๋ฉํฐ๋ชจ๋ฌ ์ฐ์์ถ๋ก (chain-of-thought) ํ์ต๋ฐฉ๋ฒ์ ๋ค๋ฃจ์ด, 879 ๋
ผ๋ฌธ์ ๋ฉํฐ๋ชจ๋ฌ ICL ์ฑ๋ฅ ํฅ์ ๋
ผ์๋ฅผ ํ์ฅํ๋ค.
ํ์ ์ฐ๊ตฌ
๋ค์ธ์ด ํ๊ฒฝ์์ LLM ์ฑ๋ฅ ๋ฐ ์ฌํ์ ์ํฅ๊น์ง ์ฐ๊ฒฐ๋๋ ๋ฉํฐ๋ชจ๋ฌ, ๋ฉํฐ๋ญ๊ท์ง LLM ์ฐ๊ตฌ ๋ํฅ์ ํจ๊ป ์ดํด๋ณด๋ฉด ํตํฉ์ ์์ผ๊ฐ ์ ๊ณต๋๋ค.
์์ฉ ์ฌ๋ก
What factors affect multimodal in-context learning ๋
ผ๋ฌธ์ ๋ค๊ตญ์ด, ์๋ฏธ์ ๋ชจํธ์ฑ ํ์ต ๋ฑ ์ค์ ์ค๋ฅ ์ง๋จ์ ์ํ ๋ค์ํ in-context factor ์คํ์ ๋ค๋ฃฌ๋ค.
์์ฉ ์ฌ๋ก
199๋ ์ฐจํธ๋ผ๋ ํนํ๋ ๋ฉํฐ๋ชจ๋ฌ ๋ฐ์ดํฐ์ ๋ํด ์ธ-์ปจํ
์คํธ ํ์ต์ ์ค์ ๋ก ์ ์ฉ/ํ๊ฐํฉ๋๋ค.
์์ฉ ์ฌ๋ก
๋ฉํฐ๋ชจ๋ฌ ์ธ-์ปจํ
์คํธ ํ์ต ์ฐ๊ตฌ๋ ์๋ฃ ์์, ์์ ํ
์คํธ ๋ฑ ๋ค์ํ ํํ์ ๋ฉํฐ๋ชจ๋ฌ ์์ฑ์ ๋ถ์ํ 359 ๋
ผ๋ฌธ๊ณผ ์ง๊ฒฐ๋ฉ๋๋ค.
๋ฐ๋ก /๋นํ
What factors affect multimodal in-context learning? ๋
ผ๋ฌธ์ ๋ค์ํ ์์๊ฐ LLM ํ๊ฐ์ ์ํฅ์ ์ฃผ๋ ์ ์ ๋นํ์ ์ผ๋ก ์กฐ๋ช
ํ๋ค.
๋ฐ๋ก /๋นํ
879 ๋
ผ๋ฌธ์ ๋ฉํฐ๋ชจ๋ฌ ์ธ์ปจํ
์คํธ ํ์ต์ ์ฃผ์ ์ํฅ์ ๋ถ์ํ์ฌ, 244์์ ๋ํ๋ LLM ๋ฆฌ๋ทฐ ์ ๋ขฐ์ฑ ํ๊ณ์ ๊ทผ๋ณธ์ ์์ธ์ ์ ์ํฉ๋๋ค.