REALM: Retrieval-Augmented Language Model Pre-Training

์ €์ž: Kelvin Guu, Kenton Lee, Zora Tung, Panupong Pasupat, Ming-Wei Chang | ๋‚ ์งœ: 2020 | DOI: arXiv:2002.08909 📄 PDF


Essence

REALM์€ ์ง€์‹์„ ์‹ ๊ฒฝ๋ง ํŒŒ๋ผ๋ฏธํ„ฐ์— ์•”๋ฌต์ ์œผ๋กœ ์ €์žฅํ•˜๋Š” ๋Œ€์‹ , ํ•™์Šต ๊ฐ€๋Šฅํ•œ ํ…์ŠคํŠธ ๊ฒ€์ƒ‰ ๋ชจ๋“ˆ์„ ํ†ตํ•ด ๋ช…์‹œ์ ์œผ๋กœ ์™ธ๋ถ€ ์ฝ”ํผ์Šค(์˜ˆ: Wikipedia)์—์„œ ๊ด€๋ จ ๋ฌธ์„œ๋ฅผ ๋™์ ์œผ๋กœ ๊ฒ€์ƒ‰ํ•˜๊ณ  ํ™œ์šฉํ•˜๋Š” ๊ฒ€์ƒ‰์ฆ๊ฐ• ์–ธ์–ด ๋ชจ๋ธ ์‚ฌ์ „ํ•™์Šต ํ”„๋ ˆ์ž„์›Œํฌ๋‹ค. ๋น„์ง€๋„ ๋งˆ์Šคํฌ๋œ ์–ธ์–ด ๋ชจ๋ธ(MLM) ๋ชฉํ‘œ ์‹ ํ˜ธ๋ฅผ ํ†ตํ•ด ๊ฒ€์ƒ‰๊ธฐ๋ฅผ end-to-end๋กœ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋‹ค.

Motivation

Achievement

  1. Open-QA ๋ฒค์น˜๋งˆํฌ์—์„œ SOTA ๋‹ฌ์„ฑ: NaturalQuestions-Open, WebQuestions, CuratedTrec์˜ ์„ธ ๊ฐ€์ง€ ์ฃผ์š” Open-QA ๋ฒค์น˜๋งˆํฌ์—์„œ ๊ธฐ์กด ๋ฐฉ๋ฒ• ๋Œ€๋น„ 4-16% ์ ˆ๋Œ€ ์ •ํ™•๋„(absolute accuracy) ํ–ฅ์ƒ์„ ๋‹ฌ์„ฑํ–ˆ๋‹ค. ์ด๋Š” ๋ช…์‹œ์  ์ง€์‹ ์ €์žฅ(retrieval-based) ๋ฐฉ๋ฒ•๊ณผ ์•”๋ฌต์  ์ง€์‹ ์ €์žฅ(T5 ๊ฐ™์€ ๋Œ€๊ทœ๋ชจ ์ƒ์„ฑ ๋ชจ๋ธ) ๋ชจ๋‘๋ฅผ ๋Šฅ๊ฐ€ํ•œ๋‹ค.
  2. ๋น„์ง€๋„ ํ•™์Šต์œผ๋กœ ๊ฒ€์ƒ‰๊ธฐ ์ตœ์ ํ™”: ์ฒ˜์Œ์œผ๋กœ ์ˆ˜๋ฐฑ๋งŒ ๊ฐœ์˜ ๋ฌธ์„œ๋ฅผ ๊ณ ๋ คํ•˜๋Š” ๊ฑฐ๋Œ€ ๊ทœ๋ชจ ๊ฒ€์ƒ‰ ๋‹จ๊ณ„๋ฅผ ํ†ตํ•ด ์—ญ์ „ํŒŒ๋ฅผ ์ˆ˜ํ–‰ํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ, ๋ผ๋ฒจ ์—†์ด MLM ์‹ ํ˜ธ๋งŒ์„ ์ด์šฉํ•˜์—ฌ ์‹ ๊ฒฝ๋ง ๊ฒ€์ƒ‰๊ธฐ๋ฅผ ์‚ฌ์ „ํ•™์Šตํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์ œ์‹œํ–ˆ๋‹ค.
  3. ํ•ด์„ ๊ฐ€๋Šฅ์„ฑ ๋ฐ ๋ชจ๋“ˆํ™”: ๊ฒ€์ƒ‰๋œ ๋ฌธ์„œ๊ฐ€ ๋ช…์‹œ์ ์œผ๋กœ ๋…ธ์ถœ๋˜์–ด ๋ชจ๋ธ ์˜ˆ์ธก์˜ ๊ทผ๊ฑฐ๋ฅผ ์ถ”์ ํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ๊ฒ€์ƒ‰๊ธฐ์™€ ์ธ์ฝ”๋”๋ฅผ ๋…๋ฆฝ์ ์œผ๋กœ ์—…๋ฐ์ดํŠธํ•˜๊ฑฐ๋‚˜ ์ง€์‹ ์ฝ”ํผ์Šค๋ฅผ ๊ต์ฒดํ•  ์ˆ˜ ์žˆ๋‹ค.

How

Figure 3

REALM ์‚ฌ์ „ํ•™์Šต์—์„œ ๋น„๋™๊ธฐ MIPS๋ฅผ ํ™œ์šฉํ•œ ๋Œ€๊ทœ๋ชจ ๊ฒ€์ƒ‰ ์ตœ์ ํ™”.

ํ•ต์‹ฌ ๋ฐฉ๋ฒ•๋ก :

Originality

Limitation & Further Study

Evaluation

Novelty: 5/5 Technical Soundness: 4/5 Significance: 5/5 Clarity: 4/5 Overall: 4.5/5

์ดํ‰: REALM์€ ๊ฒ€์ƒ‰ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ์‹ ๊ฒฝ๋ง ์‚ฌ์ „ํ•™์Šต ๋‹จ๊ณ„์— ์ตœ์ดˆ๋กœ ํ†ตํ•ฉํ•˜์—ฌ ๊ทœ๋ชจ ์žˆ๋Š” ๋น„์ง€๋„ ํ•™์Šต์„ ๋‹ฌ์„ฑํ•œ ํš๊ธฐ์  ์—ฐ๊ตฌ๋‹ค. ๋ช…์‹œ์  ์ง€์‹ ์ ‘๊ทผ์„ ํ†ตํ•ด ํ•ด์„ ๊ฐ€๋Šฅ์„ฑ๊ณผ ๋ชจ๋“ˆํ™”๋ฅผ ํ™•๋ณดํ•˜๋ฉด์„œ๋„ Open-QA์—์„œ ๊ธฐ์กด ๋ชจ๋“  ๋ฐฉ๋ฒ•์„ ๋Šฅ๊ฐ€ํ•˜๋Š” ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์คฌ๋‹ค. ๋‹ค๋งŒ ๋Œ€๊ทœ๋ชจ ๊ฒ€์ƒ‰์˜ ๊ณ„์‚ฐ ๋น„์šฉ ๋ฐ ๋ฌธ์„œ ํ‘œํ˜„ ์—…๋ฐ์ดํŠธ์˜ ์ง€์—ฐ์„ฑ์€ ์‹ค๋ฌด ์ ์šฉ ์‹œ ๊ณ ๋ คํ•  ์ ์ด๋ฉฐ, ํ–ฅํ›„ ๋” ์ •๊ตํ•œ retrieval ์ „๋žต๊ณผ์˜ ๊ฒฐํ•ฉ์œผ๋กœ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•  ์—ฌ์ง€๊ฐ€ ์žˆ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
REALM ๋…ผ๋ฌธ์€ RAG์˜ ์‚ฌ์ „ํ•™์Šต ๋‹จ๊ณ„ ํšจ์œจํ™” ๋ฐฉ๋ฒ•๋ก ์„ ์ œ์‹œํ•˜์—ฌ SPLADE์™€ ๊ฐ™์€ sparse RAG ๋ชจ๋ธ ๊ฐœ๋ฐœ์— ์ด๋ก ์  ํ† ๋Œ€๋ฅผ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
REALM์€ ๊ฒ€์ƒ‰ ์ฆ๊ฐ•(ํ‡ด์น˜) ์–ธ์–ด๋ชจ๋ธ์˜ ๋ฐฉํ–ฅ์„ฑ์„ ์ œ์‹œํ•˜๋ฉฐ, 335๋ฒˆ์˜ Atlas ๋ชจ๋ธ ์„ค๊ณ„์— ํ† ๋Œ€๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Augmented Language Models ๋…ผ๋ฌธ์€ REALM๊ณผ ๊ฐ™์ด ์™ธ๋ถ€ ๊ฒ€์ƒ‰ ๊ธฐ๋Šฅ์„ ๊ฒฐํ•ฉํ•œ RAGํ˜• LLM์˜ ๋‹ค์–‘ํ•œ ์‚ฌ๋ก€์™€ ์ด๋ก ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
REALM ๋“ฑ RAG ์‚ฌ์ „ํ•™์Šต ํ”„๋ ˆ์ž„์›Œํฌ ์—ฐ๊ตฌ๊ฐ€ RAG ๊ธฐ๋ฐ˜ LLM์˜ ์—ญ์‚ฌ ๋ฐ ๊ทผ๋ณธ์ ์ธ ๋™์ž‘ ์›๋ฆฌ ํƒ๊ตฌ์˜ ํ† ๋Œ€๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
659 REALM์€ ์ดˆ๊ธฐ RAG ๊ธฐ๋ฐ˜ ์–ธ์–ด๋ชจ๋ธ ์ œ์•ˆ ๋…ผ๋ฌธ์œผ๋กœ 034์˜ RAG ๋ฐœ์ „์‚ฌ ์„œ์ˆ ์— ๊ทผ๋ณธ์  ํ† ๋Œ€๋ฅผ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
REALM๋„ ๋ชจ๋“ˆ๋Ÿฌ ๊ฒ€์ƒ‰-์ฆ๊ฐ• ์–ธ์–ด๋ชจ๋ธ์„ ์‚ฌ์ „ํ•™์Šต์— ์ ์šฉํ•œ ์ดˆ๊ธฐ ์—ฐ๊ตฌ๋กœ, Deepseek-v3์˜ MoE ๋ฐ ์™ธ๋ถ€๊ธฐ์–ต ์ „๋žต๊ณผ ์ƒํ˜ธ๋ณด์™„์ ์œผ๋กœ ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Retrieval-augmented language model์˜ ์‚ฌ์ „ํ•™์Šต๊ณผ ํŒŒ์ธํŠœ๋‹ ์ „๋žต์ด Phi-4์˜ ์†Œ๊ทœ๋ชจ ๋ชจ๋ธ ๊ณ ์„ฑ๋Šฅ ์„ค๊ณ„์— ์ด๋ก ์  ํ† ๋Œ€ ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
REALM ๋…ผ๋ฌธ์€ ๊ฒ€์ƒ‰ ์ฆ๊ฐ• ์–ธ์–ด๋ชจ๋ธ์˜ ๊ธฐ๋ณธ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ๊ณตํ•˜์—ฌ 667์—์„œ ๊ฒ€์ƒ‰๊ณผ ์ถ”๋ก  ๊ฒฐํ•ฉ ํ•™์Šต์˜ ์ด๋ก ์  ๊ธฐ๋ฐ˜์ด ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
659๋ฒˆ์˜ Retrieval-Augmented Pre-Training ๋ฐฉ์‹์€ ํˆด ๋˜๋Š” ์ง€์‹ ๊ทธ๋ž˜ํ”„ ๊ธฐ๋ฐ˜ LLM์˜ ํšจ์œจ์  ์ •๋ณด๊ฒ€์ƒ‰ ๊ธฐ๋ฒ•์— ๊ธฐ์ดˆ์  ์ด๋ก ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
REALM ๋…ผ๋ฌธ์€ ๊ตฌ์กฐํ™”๋œ ๊ฒ€์ƒ‰๊ณผ LLM ์ƒ์„ฑ์˜ ๊ฒฐํ•ฉ ๊ธฐ์ดˆ ์›๋ฆฌ๋ฅผ ์„ค๋ช…ํ•˜์—ฌ, ๊ทธ๋ž˜ํ”„ ๊ธฐ๋ฐ˜ ๊ฒ€์ƒ‰ ์ฆ๊ฐ• ๋ชจ๋ธ์˜ ์ด๋ก ์  ํ† ๋Œ€๋ฅผ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์‚ฌ์ „ํ•™์Šต ์–ธ์–ด ๋ชจ๋ธ์˜ NLP ํƒœ์Šคํฌ ์„ฑ๋Šฅ์„ ๋‹ค๋ฃจ๋Š” ์œ ์‚ฌํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋…ํ•ด ๋ฐ ์งˆ์˜์‘๋‹ต ํƒœ์Šคํฌ์—์„œ ์‚ฌ์ „ํ•™์Šต ์–ธ์–ด๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ๊ด€๋ จ ๋ฒค์น˜๋งˆํฌ ๋…ผ๋ฌธ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
RAG ๊ณ„์—ด์˜ ์‚ฌ์ „ํ•™์Šต ๋ชจ๋ธ(REALM)์„ ํ†ตํ•œ retrieval-augmented paradigm์˜ ์‹คํ—˜์  ๊ฒ€์ฆ ์‚ฌ๋ก€๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Toolformer๋Š” ๊ฒ€์ƒ‰๋ฟ ์•„๋‹ˆ๋ผ ๋‹ค์–‘ํ•œ ์™ธ๋ถ€ ๋„๊ตฌ์™€ ์—ฐ๋™ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์ œ์•ˆํ•˜๋ฉฐ, ๋„๊ตฌ ์‚ฌ์šฉ ๋ฒ”์œ„๋ฅผ ํ™•์žฅ์‹œํ‚ต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
659(REALM)์€ ์™ธ๋ถ€ ๊ฒ€์ƒ‰์„ ํ™œ์šฉํ•˜๋Š” ๋ฐ˜๋ฉด, 266(Deepseek-v3)์€ ํ˜ผํ•ฉ์ „๋ฌธ๊ฐ€ ๋Œ€ํ˜• ์–ธ์–ด๋ชจ๋ธ๋กœ ๋‚ด์žฌ์  ์ง€์‹ ํ™œ์šฉ์— ์ค‘์ ์„ ๋‘”๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Wikipedia ์ˆ˜์ค€์˜ ๋ฌธ์„œ ์ž๋™ ์ƒ์„ฑ์—์„œ ์œ ์‚ฌํ•œ ๋ฌธ์ œ๋ฅผ ๋‹ค๋ฅด๊ฒŒ ์ ‘๊ทผํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Atlas ์‹œ์Šคํ…œ์€ REALM์˜ retrieval-augmented ์‚ฌ์ „ํ•™์Šต ์ ‘๊ทผ์„ few-shot ํ•™์Šต ๋ฐ ์™ธ๋ถ€๋ฉ”๋ชจ๋ฆฌ ํ™œ์šฉ๊นŒ์ง€ ํ™•์žฅํ•œ ๋Œ€ํ‘œ์  ํ›„์† ์—ฐ๊ตฌ์ž…๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Retrieval-Augmented Generation for Large Language Models ๋…ผ๋ฌธ์€ RAG ๋ฐฉ์‹์„ ๊ฐ์ข… ๊ณผํ•™ ์ž„๋ฌด์— ์ ์šฉํ•˜๋Š” ์ตœ์‹  ๋™ํ–ฅ์„ ์„œ๋ฒ ์ดํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
HLM-Cite ๋…ผ๋ฌธ์€ ์ฝ”์–ด ์ธ์šฉ ๋ถ„๋ฅ˜ ์ž๋™ํ™”์— ๊ฒ€์ƒ‰์ฆ๊ฐ• ์–ธ์–ด ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜๋ฅผ ์‹ค์งˆ์  ์›Œํฌํ”Œ๋กœ์šฐ๋กœ ํ™•์žฅ ์ ์šฉํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
659 ๋…ผ๋ฌธ์€ 447์˜ ์ •๋ณด ๊ฒ€์ƒ‰ ์—์ด์ „ํŠธ ์„ฑ๋Šฅ์„ ์‹ค์งˆ์  RAG ํ”„๋ ˆ์ž„์›Œํฌ์— ์ ์šฉํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
์ž๋™ํ™”๋œ ๋จธ์‹ ๋Ÿฌ๋‹(Automl)์—์„œ REALM๊ณผ ์œ ์‚ฌํ•œ ๊ฒ€์ƒ‰์ฆ๊ฐ• ์ ‘๊ทผ๋ฒ•์„ ์‹ค์ œ ๋ฌธ์ œ์— ์ ์šฉํ•˜์—ฌ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ์˜ˆ๋ฅผ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
REALM๊ณผ ์œ ์‚ฌํ•˜๊ฒŒ ๋ฐ”์ด์˜ค/์žฌ๋ฃŒ ์ง€์‹๊ณผ ์ž์—ฐ์–ธ์–ด ๊ฒ€์ƒ‰ ๊ฒฐํ•ฉ์„ ์‹คํ—˜์ ์œผ๋กœ ์ ์šฉํ•œ ์‹ค์ œ ์‚ฌ๋ก€์ž…๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •