What factors affect multimodal in-context learning? an in-depth exploration

์ €์ž: Libo Qin, Qiguang Chen, Hao Fei, Zhi Chen, Min Li, Wanxiang Che | ๋‚ ์งœ: 2024 | DOI: 10.48550/arXiv.2410.20482 📄 PDF


Essence

Figure 1

๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ธ-์ปจํ…์ŠคํŠธ ํ•™์Šต์˜ ์„ธ ๊ฐ€์ง€ ํ•ต์‹ฌ ๋‹จ๊ณ„: ์‹œ์—ฐ(demonstration) ๊ฒ€์ƒ‰, ์ˆœ์„œ ์ง€์ •, ํ”„๋กฌํ”„ํŠธ ๊ตฌ์„ฑ

๋ณธ ๋…ผ๋ฌธ์€ ์‹œ๊ฐ ์–ธ์–ด ๋ชจ๋ธ(Vision LLM)์—์„œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ธ-์ปจํ…์ŠคํŠธ ํ•™์Šต(MM-ICL)์˜ ์„ฑ๋Šฅ์„ ๊ฒฐ์ •ํ•˜๋Š” ์š”์†Œ๋“ค์„ ์ฒด๊ณ„์ ์œผ๋กœ ๋ถ„์„ํ•ฉ๋‹ˆ๋‹ค. 6๊ฐœ ๋ชจ๋ธ๊ณผ 20๊ฐ€์ง€ ์ „๋žต์„ ํ†ตํ•ด ์‹œ์—ฐ ๊ฒ€์ƒ‰, ์ˆœ์„œ ์ง€์ •, ํ”„๋กฌํ”„ํŠธ ๊ตฌ์„ฑ์˜ ์„ธ ๋‹จ๊ณ„์—์„œ ์„ฑ๋Šฅ์— ์˜ํ–ฅ์„ ๋ฏธ์น˜๋Š” ํ•ต์‹ฌ ์š”์ธ๋“ค์„ ๊ทœ๋ช…ํ•ฉ๋‹ˆ๋‹ค.

Motivation

Achievement

Figure 2

์‹œ์—ฐ ๊ฒ€์ƒ‰ ํ”„๋กœ์„ธ์Šค: ์ƒ˜ํ”Œ ํ‘œํ˜„, ๋น„๊ต, ์„ ํƒ์˜ ์„ธ ๋‹จ๊ณ„

Figure 3

์‹œ์—ฐ ์ˆœ์„œ ์ง€์ •: ์‹œ์—ฐ ๋‚ด๋ถ€(intra) ๋ฐ ์‹œ์—ฐ ๊ฐ„(inter) ์ˆœ์„œ์˜ ์˜ํ–ฅ

  1. ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ •๋ ฌ์ด ๋ณ‘๋ชฉ: ๋‹ค์ค‘๋ชจ๋‹ฌ ๊ฒ€์ƒ‰๊ธฐ(retriever)๊ฐ€ ๋‹จ์ผ๋ชจ๋‹ฌ ๋ฐฉ์‹๋ณด๋‹ค ํ‰๊ท ์ ์œผ๋กœ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋‚˜ํƒ€๋ƒ„. ๋ชจ๋ธ์˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ •๋ ฌ(alignment) ์ˆ˜์ค€์ด ๋งค๊ฐœ๋ณ€์ˆ˜ ํฌ๊ธฐ๋ณด๋‹ค MM-ICL ํšจ๊ณผ์„ฑ์— ๋” ํฐ ์˜ํ–ฅ์„ ๋ฏธ์นจ. ์ฆ‰, ๋ฐฑ๋ณธ ๊ตฌ์กฐ์™€ ์‹œ์—ฐ ํ’ˆ์งˆ ๋ชจ๋‘์—์„œ ์ •๋ ฌ์ด ํ•ต์‹ฌ ์ œ์•ฝ ์š”์†Œ์ž„์„ ํ™•์ธ
  2. ์‹œ์—ฐ ๋‚ด๋ถ€ ์ˆœ์„œ์˜ ์ค‘์š”์„ฑ: ์‹œ์—ฐ ๋‚ด๋ถ€์˜ ์ˆœ์„œ(ํŠนํžˆ ์ด๋ฏธ์ง€-ํ…์ŠคํŠธ ๋“ฑ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ์˜ ์ˆœ์„œ)๊ฐ€ ์‹œ์—ฐ ๊ฐ„ ์ˆœ์„œ๋ณด๋‹ค ๋ชจ๋ธ ์„ฑ๋Šฅ์— ํ›จ์”ฌ ๋” ํฐ ์˜ํ–ฅ์„ ๋ฏธ์นจ. ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ ์ˆœ์„œ ์กฐ์ •๋งŒ์œผ๋กœ๋„ ์ƒ๋‹นํ•œ ์„ฑ๋Šฅ ๊ฐœ์„ ์ด ๊ฐ€๋Šฅํ•จ์„ ์ž…์ฆ
  3. ๋„์ž…๋ถ€ ์ง€์‹œ๋ฌธ์˜ ํšจ๊ณผ: ์‹œ์—ฐ ์ „์— ๋ฐฐ์น˜๋œ ๋„์ž…๋ถ€ ์ง€์‹œ๋ฌธ(introductory instruction)์ด ์‹œ์—ฐ ํ›„์˜ ์ด๊ด„ ์ง€์‹œ๋ฌธ์ด๋‚˜ ์‹œ์—ฐ ๋‚ด๋ถ€์˜ ์ง€์‹œ๋ฌธ๋ณด๋‹ค ์ž‘์—… ์ดํ•ด๋„์™€ ์„ฑ๋Šฅ ํ–ฅ์ƒ์— ๋”์šฑ ํšจ๊ณผ์ 

How

Figure 4

์„ธ ๊ฐ€์ง€ ์ง€์‹œ๋ฌธ ์ฃผ์ž… ๋ฐฉ์‹: ๋„์ž…๋ถ€(a), ์ด๊ด„(b), ์‹œ์—ฐ ๋‚ด๋ถ€(c)

์‹œ์—ฐ ๊ฒ€์ƒ‰(Demonstration Retrieval)

์‹œ์—ฐ ์ˆœ์„œ ์ง€์ •(Demonstration Ordering)

ํ”„๋กฌํ”„ํŠธ ๊ตฌ์„ฑ(Prompt Construction)

Originality

Limitation & Further Study

Evaluation

์ดํ‰: ๋ณธ ๋…ผ๋ฌธ์€ ๊ธ‰์†ํžˆ ๋ฐœ์ „ํ•˜๋Š” MM-ICL ๋ถ„์•ผ์—์„œ ์„ฑ๋Šฅ์„ ๊ฒฐ์ •ํ•˜๋Š” ๊ทผ๋ณธ ์š”์ธ๋“ค์„ ์ฒ˜์Œ์œผ๋กœ ์ฒด๊ณ„์ ์œผ๋กœ ๊ทœ๋ช…ํ•œ ์ค‘์š”ํ•œ ๊ธฐ์ดˆ ์—ฐ๊ตฌ์ž…๋‹ˆ๋‹ค. ํŠนํžˆ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ •๋ ฌ์˜ ๋ณ‘๋ชฉ ํ˜„์ƒ๊ณผ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ ์ˆœ์„œ์˜ ์ค‘์š”์„ฑ ๋“ฑ์˜ ๋ฐœ๊ฒฌ์€ ํ–ฅํ›„ ์‹œ๊ฐ ์–ธ์–ด ๋ชจ๋ธ ๊ฐœ๋ฐœ๊ณผ ํ”„๋กฌํ”„ํŠธ ์ตœ์ ํ™” ์—ฐ๊ตฌ์— ์‹ค์งˆ์  ๋ฐฉํ–ฅ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค. ๋‹ค๋งŒ ์ž‘์—… ๋ฒ”์œ„ ํ™•๋Œ€, ํ†ต๊ณ„์  ์—„๋ฐ€์„ฑ ๊ฐ•ํ™”, ๋™์  ์ตœ์ ํ™” ๋ฐฉํ–ฅ ํƒ์ƒ‰์„ ํ†ตํ•ด ์ผ๋ฐ˜ํ™” ๊ฐ€๋Šฅ์„ฑ์„ ๋†’์ผ ํ•„์š”๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Gemini ๊ณ„์—ด ๊ณ ์„ฑ๋Šฅ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ชจ๋ธ์— ๋Œ€ํ•œ ๊ธฐ์ˆ  ๋ฆฌํฌํŠธ๋กœ, MM-ICL ์„ฑ๋Šฅ ๋ถ„์„ ๋…ผ์˜์˜ ๊ธฐ๋ฐ˜์ด ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
368์€ Gemini 1.5์˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์„ฑ๋Šฅ๊ณผ ์•„ํ‚คํ…์ฒ˜๋ฅผ ํญ๋„“๊ฒŒ ์„ค๋ช…ํ•˜์—ฌ, 879์˜ ์‹คํ—˜ ๋ถ„์„์˜ ๊ธฐ๋ณธ ๋ชจ๋ธ ์ •๋ณด๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ธ์ปจํ…์ŠคํŠธ ํ•™์Šต ๋ฐ ์žฅ๋ฌธ๋งฅ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ ํ‰๊ฐ€์— ์‹ฌ์ธต์ ์œผ๋กœ ๋‹ค๋ฃจ์–ด, L-CiteEval ๋ฒค์น˜๋งˆํฌ์˜ ๋…ผ๋ฆฌ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
879๋Š” ๋‹ค์–‘ํ•œ VLM์˜ ์ฐจํŠธ ์ดํ•ด ๋ฐ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ธ-์ปจํ…์ŠคํŠธ ํ•™์Šต ์š”์†Œ๋ฅผ ๋ถ„์„ํ•ด, 199์˜ ์ฐจํŠธ ํŠนํ™” ํŠœ๋‹ ๋ฐ์ดํ„ฐ์…‹ ์„ค๊ณ„์˜ ๊ธฐ๋ฐ˜์ด ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ธ์ปจํ…์ŠคํŠธ ํ•™์Šต์˜ ์ด๋ก ์  ๋ถ„์„์ด SCIVERSE ๋ฒค์น˜๋งˆํฌ์˜ ํ‰๊ฐ€ ์ง€ํ‘œ ์„ค๊ณ„์™€ ์ง๊ฒฐ๋ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ฐจํŠธ ๋“ฑ ๋ฉ”ํƒ€์ •๋ณด๋ฅผ ํฌํ•จํ•œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ LLM์˜ ์ดํ•ด ๋ฐ ์ƒ์„ฑ ๋Šฅ๋ ฅ์„ ํ…Œ์ŠคํŠธํ•ด, ๋ณธ ๋…ผ๋ฌธ์˜ ๋ถ„์„ ๋Œ€์ƒ ๋‹ค์–‘ํ™”์— ๋„์›€์„ ์ค๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM์„ ํ™œ์šฉํ•œ ๋ชจ๋ธ ์„ ํƒ ๋ฐ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ํŠœ๋‹ ์ž๋™ํ™”์˜ ๊ด€๋ จ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
What factors affect multimodal in-context learning ๋…ผ๋ฌธ์€ ์ธ์šฉ๋ฌธ๋งฅ ์ƒ์„ฑ์—์„œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ฐ ๋กฑ์ปจํ…์ŠคํŠธ ์ฒ˜๋ฆฌ ๋ฐฉ๋ฒ•์˜ ๋Œ€์•ˆ์  ์‹คํ—˜ ๊ฒฐ๊ณผ๋ฅผ ์ œ๊ณตํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋ฉ€ํ‹ฐ๋ชจ๋‹ฌยท์นดํ…Œ๊ณ ๋ฆฌ๋ณ„ ์ธ์šฉ ์ถ”๋ก  ๋ฐ ํŽธํ–ฅ ํ˜„์ƒ๊นŒ์ง€ ํฌํ•จํ•˜์—ฌ LLM์˜ ํ•™๋ฌธ ์ง€์‹ ๋‚ด์žฌํ™” ๋ฒ”์œ„๋ฅผ ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
T-SciQ ๋…ผ๋ฌธ์€ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์—ฐ์‡„์ถ”๋ก (chain-of-thought) ํ•™์Šต๋ฐฉ๋ฒ•์„ ๋‹ค๋ฃจ์–ด, 879 ๋…ผ๋ฌธ์˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ICL ์„ฑ๋Šฅ ํ–ฅ์ƒ ๋…ผ์˜๋ฅผ ํ™•์žฅํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
๋‹ค์–ธ์–ด ํ™˜๊ฒฝ์—์„œ LLM ์„ฑ๋Šฅ ๋ฐ ์‚ฌํšŒ์  ์˜ํ–ฅ๊นŒ์ง€ ์—ฐ๊ฒฐ๋˜๋Š” ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ, ๋ฉ€ํ‹ฐ๋žญ๊ท€์ง€ LLM ์—ฐ๊ตฌ ๋™ํ–ฅ์„ ํ•จ๊ป˜ ์‚ดํŽด๋ณด๋ฉด ํ†ตํ•ฉ์  ์‹œ์•ผ๊ฐ€ ์ œ๊ณต๋œ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
What factors affect multimodal in-context learning ๋…ผ๋ฌธ์€ ๋‹ค๊ตญ์–ด, ์˜๋ฏธ์  ๋ชจํ˜ธ์„ฑ ํ•™์Šต ๋“ฑ ์‹ค์ œ ์˜ค๋ฅ˜ ์ง„๋‹จ์„ ์œ„ํ•œ ๋‹ค์–‘ํ•œ in-context factor ์‹คํ—˜์„ ๋‹ค๋ฃฌ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
199๋Š” ์ฐจํŠธ๋ผ๋Š” ํŠนํ™”๋œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด ์ธ-์ปจํ…์ŠคํŠธ ํ•™์Šต์„ ์‹ค์ œ๋กœ ์ ์šฉ/ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ธ-์ปจํ…์ŠคํŠธ ํ•™์Šต ์—ฐ๊ตฌ๋Š” ์˜๋ฃŒ ์˜์ƒ, ์ž„์ƒ ํ…์ŠคํŠธ ๋“ฑ ๋‹ค์–‘ํ•œ ํ˜•ํƒœ์˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ƒ์„ฑ์„ ๋ถ„์„ํ•œ 359 ๋…ผ๋ฌธ๊ณผ ์ง๊ฒฐ๋ฉ๋‹ˆ๋‹ค.
๋ฐ˜๋ก /๋น„ํŒ
What factors affect multimodal in-context learning? ๋…ผ๋ฌธ์€ ๋‹ค์–‘ํ•œ ์š”์†Œ๊ฐ€ LLM ํ‰๊ฐ€์— ์˜ํ–ฅ์„ ์ฃผ๋Š” ์ ์„ ๋น„ํŒ์ ์œผ๋กœ ์กฐ๋ช…ํ•œ๋‹ค.
๋ฐ˜๋ก /๋น„ํŒ
879 ๋…ผ๋ฌธ์€ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ธ์ปจํ…์ŠคํŠธ ํ•™์Šต์˜ ์ฃผ์š” ์˜ํ–ฅ์„ ๋ถ„์„ํ•˜์—ฌ, 244์—์„œ ๋‚˜ํƒ€๋‚œ LLM ๋ฆฌ๋ทฐ ์‹ ๋ขฐ์„ฑ ํ•œ๊ณ„์˜ ๊ทผ๋ณธ์  ์›์ธ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •