Splade v2: Sparse lexical and expansion model for information retrieval

์ €์ž: Thibault Formal, Carlos Lassance, Benjamin Piwowarski, Stรฉphane Clinchant | ๋‚ ์งœ: 2021 | DOI: 10.1145/nnnnnnn.nnnnnnn 📄 PDF


Essence

๋ณธ ๋…ผ๋ฌธ์€ ์‹ ๊ฒฝ๋ง ๊ธฐ๋ฐ˜ ์ •๋ณด๊ฒ€์ƒ‰์—์„œ ํฌ์†Œ(sparse) ๋ ‰์‹œ์ปฌ ํ‘œํ˜„์„ ํ•™์Šตํ•˜๋Š” SPLADE ๋ชจ๋ธ์„ ๊ฐœ์„ ํ•˜์—ฌ, ๋ฐ€์ง‘ ํ‘œํ˜„(dense embedding)์˜ ํšจ์œจ์„ฑ๊ณผ ์ „ํ†ต์  ๊ฐ€๋ฐฉ ๋‹จ์–ด(bag-of-words) ๋ชจ๋ธ์˜ ํ•ด์„๊ฐ€๋Šฅ์„ฑ์„ ๊ฒฐํ•ฉํ•œ ์ฒซ ๋‹จ๊ณ„ ๊ฒ€์ƒ‰๊ธฐ๋ฅผ ์ œ์•ˆํ•œ๋‹ค.

Motivation

Achievement

  1. NDCG@10 ํ–ฅ์ƒ: TREC DL 2019์—์„œ ๊ธฐ์กด SPLADE ๋Œ€๋น„ 9% ์ด์ƒ์˜ ์„ฑ๋Šฅ ํ–ฅ์ƒ ๋‹ฌ์„ฑ
  2. BEIR ๋ฒค์น˜๋งˆํฌ ์ตœ๊ณ  ์„ฑ๋Šฅ: ์ œ๋กœ์ƒท ํ‰๊ฐ€์—์„œ BEIR ๋ฒค์น˜๋งˆํฌ์˜ ์ตœ๊ณ  ์„ฑ๋Šฅ ๋‹ฌ์„ฑ
  3. ํšจ์œจ์„ฑ ๊ฐœ์„ : SPLADE-doc ๋ชจ๋ธ๋กœ ๋ชจ๋“  ๊ณ„์‚ฐ์„ ์˜คํ”„๋ผ์ธ์—์„œ ์ˆ˜ํ–‰ ๊ฐ€๋Šฅํ•˜๋ฉด์„œ๋„ ๊ฒฝ์Ÿ๋ ฅ ์žˆ๋Š” ์„ฑ๋Šฅ ์œ ์ง€
  4. MS MARCO ํ†ต๊ณผ: ์ฆ๋ฅ˜๋œ SPLADE (DistilSPLADE-max)๋กœ ์ตœ์‹  ๊ธฐ์ˆ  ์ˆ˜์ค€์— ๊ทผ์ ‘ํ•œ ๊ฒฐ๊ณผ ๋‹ฌ์„ฑ

How

Figure 2: Performance vs average document length

Figure 2: ๋ฌธ์„œ ๊ธธ์ด์— ๋”ฐ๋ฅธ ์„ฑ๋Šฅ ๋ณ€ํ™” ๋ถ„์„

ํ•ต์‹ฌ ๊ธฐ์ˆ  ๊ฐœ์„ ์‚ฌํ•ญ:

```

w_j = max_{iโˆˆt} log(1 + ReLU(w_ij))

```

์ด๋ฅผ ํ†ตํ•ด ํ† ํฐ ๊ฐ„ ์ƒํ˜ธ์ž‘์šฉ์„ ๋ณด๋‹ค ํšจ๊ณผ์ ์œผ๋กœ ๋ชจ๋ธ๋ง

```

s(q,d) = ฮฃ_{jโˆˆq} w_d_j

```

๋ฌธ์„œ์˜ ๊ฐ€์ค‘์น˜๋ฅผ ๋ชจ๋‘ ์˜คํ”„๋ผ์ธ์—์„œ ์‚ฌ์ „ ๊ณ„์‚ฐ

```

โ„“_FLOPS = ฮฃ_{jโˆˆV} (1/N ฮฃ_{i=1}^N w(d_i)_j)^2

```

๊ฒŒ์‹œ ๋ชฉ๋ก(posting list) ๊ท ํ˜• ๋ถ„๋ฐฐ๋ฅผ ํ†ตํ•œ ๊ฒ€์ƒ‰ ํšจ์œจ์„ฑ ํ–ฅ์ƒ

1๋‹จ๊ณ„: SPLADE ๊ฒ€์ƒ‰๊ธฐ์™€ ํฌ๋กœ์Šค-์ธ์ฝ”๋” ์žฌ์ •๋ ฌ๊ธฐ ํ•™์Šต

2๋‹จ๊ณ„: ๋” ์–ด๋ ค์šด ๋ถ€์ • ์ƒ˜ํ”Œ๋กœ ์žฌํ•™์Šต

```

L = L_rank-IBN + ฮป_q L_q_reg + ฮป_d L_d_reg

```

ํ›ˆ๋ จ ์ƒ์„ธ:

Originality

Limitation & Further Study

ํ›„์† ์—ฐ๊ตฌ ๋ฐฉํ–ฅ:

Evaluation

Novelty: 4/5 Technical Soundness: 5/5 Significance: 5/5 Clarity: 4/5 Overall: 4.5/5

์ดํ‰: ๋ณธ ๋…ผ๋ฌธ์€ SPLADE ๋ชจ๋ธ์— ๋Œ€ํ•œ ์ •๋ฐ€ํ•œ ๊ฐœ์„ ์„ ํ†ตํ•ด ํฌ์†Œ ๋ ‰์‹œ์ปฌ ํ‘œํ˜„ ๊ธฐ๋ฐ˜ ์ •๋ณด๊ฒ€์ƒ‰์˜ ์ƒˆ๋กœ์šด ์ตœ๊ณ  ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ์œผ๋ฉฐ, ํŠนํžˆ ์ตœ๋Œ€๊ฐ’ ํ’€๋ง๊ณผ ๋ฌธ์„œ ์ „์šฉ ์ธ์ฝ”๋” ๊ฐ™์€ ๋‹จ์ˆœํ•˜๋ฉด์„œ๋„ ํšจ๊ณผ์ ์ธ ๊ธฐ๋ฒ•๋“ค์ด ์‹ค๋ฌด ์ ์šฉ ๊ฐ€์น˜๊ฐ€ ๋†’๋‹ค. ๋‹ค๋งŒ ์ดˆ๋Œ€๊ทœ๋ชจ ์ปฌ๋ ‰์…˜๊ณผ ์‹ค์ œ ANN ๊ฒ€์ƒ‰ ํ™˜๊ฒฝ์— ๋Œ€ํ•œ ๊ฒ€์ฆ์ด ๋” ํ•„์š”ํ•˜๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
REALM ๋…ผ๋ฌธ์€ RAG์˜ ์‚ฌ์ „ํ•™์Šต ๋‹จ๊ณ„ ํšจ์œจํ™” ๋ฐฉ๋ฒ•๋ก ์„ ์ œ์‹œํ•˜์—ฌ SPLADE์™€ ๊ฐ™์€ sparse RAG ๋ชจ๋ธ ๊ฐœ๋ฐœ์— ์ด๋ก ์  ํ† ๋Œ€๋ฅผ ์ œ๊ณตํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Retrieval-Augmented Generation for LLMs ๋…ผ๋ฌธ์€ ์ตœ์‹  RAG ๊ธฐ๋ฒ•๊ณผ ๊ทธ ์„ฑ๋Šฅ ํ‰๊ฐ€๋ฅผ ๊ฐ€์ด๋“œ๋ผ์ธ ์ฐจ์›์—์„œ ํ’๋ถ€ํ•˜๊ฒŒ ๋…ผ์˜ํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
SPLADE v2๋Š” ๊ฒ€์ƒ‰ ์ฆ๊ฐ• ์–ธ์–ด๋ชจ๋ธ์˜ ํšจ์œจ์  ์ธ๋ฑ์‹ฑยทํ™•์žฅ ๋ฐฉ์‹ ๊ตฌํ˜„์˜ ์‹ค์ œ ์‚ฌ๋ก€๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
PaperQA๋Š” ํ•™์ˆ  ๋ฌธํ—Œ ๊ฒ€์ƒ‰์— retrieval-augmented generation(RAG) ์‹œ์Šคํ…œ์„ ์ ์šฉํ•˜์—ฌ SPLADE ๋ฐฉ์‹์˜ ์‹ค์ œ ์‚ฌ์šฉ์„ ๋ณด์—ฌ์ค€๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
OAG-Bench ๋…ผ๋ฌธ์€ SPLADE์™€ ๊ฐ™์€ ๊ฒ€์ƒ‰ ๋ชจ๋ธ ์„ฑ๋Šฅ์„ ์‹ค์ œ ํ•™์ˆ  ๊ทธ๋ž˜ํ”„ ๋งˆ์ด๋‹ ์ž‘์—…์— ์ ์šฉยทํ‰๊ฐ€ํ•œ ์‚ฌ๋ก€์ž…๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
AAAR-1.0 ๋ฒค์น˜๋งˆํฌ๋Š” ์ •๋ณด ๊ฒ€์ƒ‰ ๊ธฐ๋ฐ˜ ์–ธ์–ด๋ชจ๋ธ๋“ค์ด ์‹ค์ œ ๊ณผํ•™ ์ž‘์—…์— ์–ด๋–ป๊ฒŒ ์ ์šฉ๋  ์ˆ˜ ์žˆ๋Š”์ง€ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
ํฌ์†Œ ๋ฐ ๋ฐ€์ง‘ ์ž„๋ฒ ๋”ฉ ๊ธฐ๋ฐ˜ ์ •๋ณด ๊ฒ€์ƒ‰ ์„ฑ๋Šฅ์ด ์‹ค์ œ ๊ณผํ•™ ๋ฐ์ดํ„ฐ(๋‡Œ ํŒŒํ˜• ๋“ฑ)์—์„œ ์–ด๋–ป๊ฒŒ ์ ์šฉ๋˜๋Š”์ง€ ์‚ดํŽด๋ณผ ์ˆ˜ ์žˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •