Few-shot Learning with Retrieval Augmented Language Models

์ €์ž: Gautier Izacard, Patrick Lewis, M. Lomeli, Lucas Hosseini, F. Petroni | ๋‚ ์งœ: 2022 | DOI: N/A 📄 PDF


Essence

Figure 1

Figure 1: Atlas๋Š” ์‚ฌ์ „ํ•™์Šต๊ณผ ๋ฏธ์„ธ์กฐ์ • ๋‹จ๊ณ„ ๋ชจ๋‘์—์„œ ๊ฒ€์ƒ‰์„ ํ™œ์šฉํ•˜๋Š” ๊ฒ€์ƒ‰ ์ฆ๊ฐ• ์–ธ์–ด ๋ชจ๋ธ๋กœ, ์ง€์‹ ๊ธฐ๋ฐ˜ ์ž‘์—…์—์„œ ๊ฐ•๋ ฅํ•œ few-shot ์„ฑ๋Šฅ์„ ๋ณด์ž„

๋ณธ ๋…ผ๋ฌธ์€ ๋งค๊ฐœ๋ณ€์ˆ˜ ๋ฉ”๋ชจ๋ฆฌ์— ์˜์กดํ•˜์ง€ ์•Š๊ณ  ์™ธ๋ถ€ ์ง€์‹ ์†Œ์Šค๋ฅผ ํ™œ์šฉํ•˜๋Š” ๊ฒ€์ƒ‰ ์ฆ๊ฐ• ์–ธ์–ด ๋ชจ๋ธ(Atlas)์„ ์ œ์‹œํ•˜์—ฌ, 550์–ต ๊ฐœ ๋งค๊ฐœ๋ณ€์ˆ˜ ๋ชจ๋ธ๋ณด๋‹ค 50๋ฐฐ ์ ์€ ๋งค๊ฐœ๋ณ€์ˆ˜(110์–ต)๋กœ ์šฐ์ˆ˜ํ•œ few-shot ํ•™์Šต ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•œ๋‹ค.

Motivation

Achievement

  1. Few-shot ์„ฑ๋Šฅ ์šฐ์ˆ˜์„ฑ: NaturalQuestions์—์„œ 64๊ฐœ ์˜ˆ์‹œ๋งŒ์œผ๋กœ 42.4% ์ •ํ™•๋„ ๋‹ฌ์„ฑ (PaLM 540B ๋Œ€๋น„ 3% ์šฐ์ˆ˜), Wikipedia ์ธ๋ฑ์Šค๋งŒ ์‚ฌ์šฉ ์‹œ 45.1% ๋‹ฌ์„ฑ
  2. Full-dataset ์„ฑ๋Šฅ ์ตœ๊ณ  ์„ฑ๊ณผ: NaturalQuestions (+8.1%), TriviaQA (+9.3%), FEVER, KILT์˜ 5๊ฐœ ์ž‘์—…์—์„œ ์ƒˆ๋กœ์šด ์ตœ๊ณ  ์„ฑ๋Šฅ ๊ธฐ๋ก
  3. MMLU ์„ฑ๋Šฅ: ๋งค๊ฐœ๋ณ€์ˆ˜ 15๋ฐฐ ๋งŽ์€ ๋ชจ๋ธ๊ณผ ๋™๋“ฑํ•˜๊ฑฐ๋‚˜ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ ๋‹ฌ์„ฑ
  4. ์ธ๋ฑ์Šค ์••์ถ•: Product quantization์„ ์ด์šฉํ•œ ์••์ถ• ์ธ๋ฑ์Šค๊ฐ€ ๋น„์••์ถ• ์ธ๋ฑ์Šค์™€ ์œ ์‚ฌํ•œ ์„ฑ๋Šฅ์„ ์œ ์ง€ํ•˜๋ฉด์„œ 5๋ฐฐ ๋ฉ”๋ชจ๋ฆฌ ๊ฐ์†Œ ๋‹ฌ์„ฑ

How

์•„ํ‚คํ…์ฒ˜ ์„ค๊ณ„

Retriever ํ•™์Šต ๋ชฉ์  ํ•จ์ˆ˜

  1. Attention Distillation (ADist): ์–ธ์–ด ๋ชจ๋ธ์˜ ๊ต์ฐจ-์ฃผ์˜ ์ ์ˆ˜(ฮฑ_n โˆฅv_nโˆฅยฒ)๋ฅผ retriever ํ™•๋ฅ  ๋ถ„ํฌ๋กœ KL-divergence ์ตœ์†Œํ™”ํ•˜์—ฌ ์ฆ๋ฅ˜
  2. EMDRยฒ (End-to-end Multi-Document Reader and Retriever): EM ์•Œ๊ณ ๋ฆฌ์ฆ˜ ์˜๊ฐ, ๊ฒ€์ƒ‰๋œ ๋ฌธ์„œ๋ฅผ ์ž ์žฌ ๋ณ€์ˆ˜๋กœ ์ทจ๊ธ‰ํ•˜์—ฌ $\log[\sum_{k=1}^K p_{lm}(a|q,d_k)p_{retr}(d_k|q)]$ ์ตœ๋Œ€ํ™”
  3. Perplexity Distillation (PDist): ์–ธ์–ด ๋ชจ๋ธ์ด ๊ฐ ๋ฌธ์„œ๋กœ๋ถ€ํ„ฐ ๋ฐ›๋Š” perplexity ๊ฐœ์„ ์„ ํ•™์Šต ์‹ ํ˜ธ๋กœ ํ™œ์šฉํ•˜๋Š” ๋‹จ์ˆœํ•œ ์†์‹ค ํ•จ์ˆ˜
  4. Margin-MSE: ๋ฌธ์„œ ์Œ ๊ฐ„์˜ ์ƒ๋Œ€์  ์ˆœ์œ„๋ฅผ ๊ณ ๋ คํ•œ ๋งˆ์ง„ ๊ธฐ๋ฐ˜ ํ‰๊ท ์ œ๊ณฑ์˜ค์ฐจ(MSE) ์†์‹ค

์‚ฌ์ „ํ•™์Šต ์ „๋žต

๋ฏธ์„ธ์กฐ์ • ์ „๋žต

Originality

Limitation & Further Study

Evaluation

์ดํ‰: ๋ณธ ๋…ผ๋ฌธ์€ ๊ฒ€์ƒ‰ ์ฆ๊ฐ• ์–ธ์–ด ๋ชจ๋ธ์˜ few-shot ํ•™์Šต ๋Šฅ๋ ฅ์„ ์ฒด๊ณ„์ ์œผ๋กœ ํƒ๊ตฌํ•˜์—ฌ, ๋งค๊ฐœ๋ณ€์ˆ˜ ํšจ์œจ์„ฑ๊ณผ ์„ฑ๋Šฅ ๊ฐ„์˜ ์ƒˆ๋กœ์šด ๊ท ํ˜•์ ์„ ์ œ์‹œํ•œ ๊ณ ํ’ˆ์งˆ ์—ฐ๊ตฌ๋‹ค. ํŠนํžˆ ์‹ค๋ฌด ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ๊ณผ ์ง€์‹ ์—…๋ฐ์ดํŠธ ์šฉ์ด์„ฑ ์ธก๋ฉด์—์„œ ํ•™๊ณ„์™€ ์‚ฐ์—…๊ณ„์— ๋ชจ๋‘ ๊ธฐ์—ฌํ•  ์ˆ˜ ์žˆ๋Š” ์ค‘์š”ํ•œ ์ž‘์—…์ด๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
REALM์€ ๊ฒ€์ƒ‰ ์ฆ๊ฐ•(ํ‡ด์น˜) ์–ธ์–ด๋ชจ๋ธ์˜ ๋ฐฉํ–ฅ์„ฑ์„ ์ œ์‹œํ•˜๋ฉฐ, 335๋ฒˆ์˜ Atlas ๋ชจ๋ธ ์„ค๊ณ„์— ํ† ๋Œ€๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
few-shot ํ™˜๊ฒฝ์—์„œ RAG์™€ LLM ๊ฒฐํ•ฉ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ ์—ฐ๊ณ„๋ฅผ ๋ถ„์„ํ•ด, Table-Specialist์˜ ๋ฐ์ดํ„ฐ ์ƒ์„ฑยทํ™•์žฅ ๋ฐฉ๋ฒ•์— ๊ทผ๊ฑฐ๋ฅผ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
335 ๋…ผ๋ฌธ์€ RAG์™€ LLM ๊ฒฐํ•ฉ ๊ธฐ๋ฐ˜ ์†Œ์ˆ˜์ƒท ํ•™์Šต์„ ๋‹ค๋ค„, 649์˜ ํ›„ํ•™์Šต ํšจ์œจ ๊ทน๋Œ€ํ™” ์ „๋žต์— ๋ฐฉ๋ฒ•๋ก ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Retrieval-augmented LLM์—์„œ ๋‹ค์–‘ํ•œ ์‹œ์—ฐ ์„ ํƒ ๋ฐฉ์‹์— ๋Œ€ํ•œ ์—ฐ๊ตฌ๊ฐ€ Text-to-SQL ์‹œ์—ฐ ๋‹ค์–‘์„ฑ ํ–ฅ์ƒ ๋ฐฉ์•ˆ์˜ ์ด๋ก ์  ๊ทผ๊ฑฐ๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
335๋Š” few-shot ํ•™์Šต์—์„œ RAG ๊ธฐ๋ฐ˜ ๊ตฌ์กฐ์  ์ผ๋ฐ˜ํ™” ๋ฐฉ์‹์„ ๋‹ค๋ฃจ๋ฉฐ, 856์˜ UniMatch๊ฐ€ ๋‹ค์ธต ๊ตฌ์กฐ ๋งค์นญ๊ณผ ๋ฉ”ํƒ€๋Ÿฌ๋‹์„ ๋„์ž…ํ•œ ๋ฐฐ๊ฒฝ์ด ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
335๋ฒˆ ๋…ผ๋ฌธ์€ retrieval-augmented ๋ฐฉ๋ฒ•์„ ํ™œ์šฉํ•œ few-shot ํ‘œ ๋ฐ์ดํ„ฐ ์ดํ•ด ๊ฐœ์„ ์„ ๋‹ค๋ค„, 802๋ฒˆ ๋ฒค์น˜๋งˆํฌ ์„ค๊ณ„์˜ ์ด๋ก ์  ๋’ท๋ฐ›์นจ์ด ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
335๋Š” ๊ฒ€์ƒ‰์ฆ๊ฐ• LLM์˜ few-shot ์„ฑ๋Šฅ๊ณผ ๋ฌธ๋งฅ ์ฒ˜๋ฆฌ ํ•œ๊ณ„ ์—ฐ๊ตฌ๋กœ, 318์˜ ํ•˜์ด๋ธŒ๋ฆฌ๋“œ RAG์™€ ์žฅ๋ฌธ๋งฅ ์กฐ์ • ๋ฌธ์ œ์˜ ์ด๋ก ์  ์ถœ๋ฐœ์ ์ด ๋ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์˜ˆ/์•„๋‹ˆ์˜ค ํ˜•์‹์˜ ์ž์—ฐ์–ด ์ดํ•ด ๊ณผ์ œ์—์„œ LLM์˜ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ์œ ์‚ฌํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
335๋Š” RAG ๊ธฐ๋ฐ˜ ํŒจํ„ด ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์„ ๋ฒค์น˜๋งˆํ‚นํ•˜๋ฉฐ, 727์˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ LLM ํ‰๊ฐ€์™€ ์ƒํ˜ธ ์—ฐ๊ด€๋œ LLM ์„ฑ๋Šฅ ๊ฒ€์ฆ ๋ฐฉ๋ฒ•์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM๊ณผ ์™ธ๋ถ€ ์ง€์‹ ํ†ตํ•ฉ์— ๊ด€ํ•œ ์œ ์‚ฌํ•œ ์ฃผ์ œ๋ฅผ ๋‹ค๋ฅธ ๊ด€์ ์—์„œ ๋‹ค๋ฃจ๋Š” ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
335๋Š” RAG ๊ธฐ๋ฐ˜ ์†Œ์ˆ˜์ƒท ํ•™์Šต ๋ฐ ๊ฒ€์ƒ‰ ๊ฐ•ํ™” LLM ์‹œ์Šคํ…œ ์„ฑ๋Šฅ์„ ๋ถ„์„ํ•˜์—ฌ, 295๊ฐ€ ์ œ์•ˆํ•˜๋Š” ๋™์  ์งˆ์˜ ๋ผ์šฐํŒ… ๋ฐฉ์‹์˜ ๋‹ค์–‘ํ•œ ์‹คํ—˜์  ๋Œ€์•ˆ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ฃผ์ œ ์—ฐ๊ตฌ ๋ฐ ์•„์›ƒ๋ผ์ธ ์ƒ์„ฑ์˜ ์œ ์‚ฌํ•œ ๋ฌธ์ œ๋ฅผ ๋‹ค๋ฅธ ๋ฐฉ์‹์œผ๋กœ ์ ‘๊ทผํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Few-shot Learning with Retrieval Augmented Language Models ๋…ผ๋ฌธ์€ RAG์˜ ๋‹ค๋ฅธ ํ™œ์šฉ ํ˜•ํƒœ๋ฅผ ๋ณด์—ฌ์ฃผ๋ฉด์„œ, PGraphRAG ๊ตฌ์กฐ ๋ฐ ์„ฑ๋Šฅ์„ ๋น„๊ต๋ถ„์„ํ•˜๋Š” ๋ฐ ํ™œ์šฉ๋œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Atlas ์‹œ์Šคํ…œ์€ REALM์˜ retrieval-augmented ์‚ฌ์ „ํ•™์Šต ์ ‘๊ทผ์„ few-shot ํ•™์Šต ๋ฐ ์™ธ๋ถ€๋ฉ”๋ชจ๋ฆฌ ํ™œ์šฉ๊นŒ์ง€ ํ™•์žฅํ•œ ๋Œ€ํ‘œ์  ํ›„์† ์—ฐ๊ตฌ์ž…๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Retrieval-Augmented Generation for LLMs ๋…ผ๋ฌธ์€ ๊ฒ€์ƒ‰ ์ฆ๊ฐ• ๊ธฐ๋ฒ• ์ „๋ฐ˜์˜ ์ตœ์‹  ํŠธ๋ Œ๋“œ์™€ ์„ฑ๋Šฅ ํ‰๊ฐ€๋ฅผ ๋ณด์™„์ ์œผ๋กœ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
Few-shot ๋ฐ ๋‹ค์–ธ์–ด ํ™˜๊ฒฝ์—์„œ์˜ ๊ฒ€์ƒ‰ ์ฆ๊ฐ• ์–ธ์–ด๋ชจ๋ธ ํ‰๊ฐ€๋ฅผ ํ†ตํ•ด XLM-R์˜ ํ™œ์šฉ ๊ฐ€๋Šฅ์„ฑ์„ ์‹ค์ œ ํƒœ์Šคํฌ์—์„œ ์ธก์ •ํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
SPLADE v2๋Š” ๊ฒ€์ƒ‰ ์ฆ๊ฐ• ์–ธ์–ด๋ชจ๋ธ์˜ ํšจ์œจ์  ์ธ๋ฑ์‹ฑยทํ™•์žฅ ๋ฐฉ์‹ ๊ตฌํ˜„์˜ ์‹ค์ œ ์‚ฌ๋ก€๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •