Unsupervised Crosslingual Representation Learning at Scale

์ €์ž: Alexis Conneau, Kartikay Khandelwal, et al. (Facebook AI) | ๋‚ ์งœ: 2019 | DOI: arXiv:1911.02116 📄 PDF


Essence

Figure 1

๊ทธ๋ฆผ 1: 88๊ฐœ ์–ธ์–ด์— ๋Œ€ํ•œ ๋ฐ์ดํ„ฐ ํฌ๊ธฐ ๋น„๊ต (GiB, ๋กœ๊ทธ ์Šค์ผ€์ผ). CommonCrawl์€ ์ €์ž์› ์–ธ์–ด์˜ ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์‹ญ ๋ฐฐ ์ด์ƒ ์ฆ๊ฐ€์‹œํ‚ด

๋ณธ ๋…ผ๋ฌธ์€ 100๊ฐœ ์–ธ์–ด์—์„œ 2TB ์ด์ƒ์˜ ํ•„ํ„ฐ๋ง๋œ CommonCrawl ๋ฐ์ดํ„ฐ๋กœ ์‚ฌ์ „ํ•™์Šตํ•œ XLM-RoBERTa (XLM-R)๋ฅผ ์ œ์‹œํ•˜๋ฉฐ, ๋‹ค์–ธ์–ด ๋งˆ์Šคํฌ ์–ธ์–ด ๋ชจ๋ธ๋ง์ด ๋Œ€๊ทœ๋ชจ๋กœ ํ•™์Šต๋  ๋•Œ ๊ต์ฐจ์–ธ์–ด ์ „์ดํ•™์Šต ์„ฑ๋Šฅ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œํ‚ด์„ ๋ณด์—ฌ์ค€๋‹ค.

Motivation

Achievement

  1. ๊ต์ฐจ์–ธ์–ด ์„ฑ๋Šฅ ํ–ฅ์ƒ: XNLI์—์„œ ํ‰๊ท  14.6% ์ •ํ™•๋„, MLQA์—์„œ ํ‰๊ท  13% F1, NER์—์„œ 2.4% F1 ํ–ฅ์ƒ
  2. ์ €์ž์› ์–ธ์–ด ๊ฐœ์„ : Swahili 15.7%, Urdu 11.4% XNLI ์ •ํ™•๋„ ํ–ฅ์ƒ (์ด์ „ XLM ๋Œ€๋น„)
  3. ๋‹จ์–ธ์–ด ์„ฑ๋Šฅ ๊ฒฝ์Ÿ๋ ฅ: GLUE์™€ XNLI์—์„œ RoBERTa ๊ฐ™์€ ์ตœ๊ฐ• ๋‹จ์–ธ์–ด ๋ชจ๋ธ๊ณผ ๊ฒฝ์Ÿ ๊ฐ€๋Šฅํ•œ ์„ฑ๋Šฅ ๋‹ฌ์„ฑ (๋‹ค์–ธ์–ด ๋ชจ๋ธ์œผ๋กœ๋Š” ์ฒ˜์Œ)

How

Figure 1 Data Comparison

Originality

Limitation & Further Study

Evaluation

Novelty: 4.5/5 Technical Soundness: 4.5/5 Significance: 5/5 Clarity: 4/5 Overall: 4.5/5

์ดํ‰: XLM-R์€ ๋Œ€๊ทœ๋ชจ ๋‹ค์–ธ์–ด ๋ฐ์ดํ„ฐ์™€ ๋ชจ๋ธ ํ™•์žฅ์ด ๊ต์ฐจ์–ธ์–ด ์ดํ•ด์˜ ์ƒˆ๋กœ์šด ์ง€ํ‰์„ ์—ด ์ˆ˜ ์žˆ์Œ์„ ๋ช…ํ™•ํžˆ ๋ณด์—ฌ์ค€ ์˜ํ–ฅ๋ ฅ ์žˆ๋Š” ์—ฐ๊ตฌ๋กœ, ํŠนํžˆ ๋‹ค์–ธ์–ด์„ฑ์˜ ์ €์ฃผ ๊ฐœ๋… ๋„์ž…๊ณผ ์ €์ž์› ์–ธ์–ด ์„ฑ๋Šฅ ํ˜์‹ ์ด ํ›„์† ์—ฐ๊ตฌ์— ๋ฏธ์นœ ์˜ํ–ฅ์ด ๋งค์šฐ ํผ. ๋‹ค๋งŒ ๊ณ„์‚ฐ ํšจ์œจ์„ฑ ์ธก๋ฉด์˜ ๊ฐœ์„  ๋ฐฉ์•ˆ์€ ํ–ฅํ›„ ๊ณผ์ œ๋กœ ๋‚จ์Œ.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
BERT์˜ ์–‘๋ฐฉํ–ฅ ์‚ฌ์ „ํ•™์Šต ๊ตฌ์กฐ๋Š” XLM-R ๋“ฑ์˜ ๋‹ค์–ธ์–ด ๋ชจ๋ธ ๊ฐœ๋ฐœ์˜ ํ•ต์‹ฌ ๋ฐฉ๋ฒ•๋ก ์  ๊ธฐ์ดˆ๊ฐ€ ๋œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
858 ๋…ผ๋ฌธ์€ ๋Œ€๊ทœ๋ชจ ๋น„์ง€๋„ ๊ต์ฐจ์–ธ์–ด ํ‘œํ˜„ ํ•™์Šต๊ธฐ๋ฒ•์„ ๊ณ ์ฐฐํ•˜์—ฌ, 245์—์„œ ๋ฌธ์ œ์‹œํ•˜๋Š” crosslingual knowledge barrier์˜ ๊ทผ๋ณธ ์›์ธ ํ•ด์„์— ๋„์›€์„ ์ค„ ์ˆ˜ ์žˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
858 ๋…ผ๋ฌธ์€ ๋น„์ง€๋„ ๊ต์ฐจ์–ธ์–ด ํ‘œํ˜„ ํ•™์Šต์˜ ๋Œ€๊ทœ๋ชจ ์—ฐ๊ตฌ๋กœ, 119์—์„œ ์ œ์‹œํ•œ cross-lingual alignment ์ž๋™ํ™”์˜ ๋ฐฉ๋ฒ•๋ก ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
SimAlign์€ ๋‹ค์–ธ์–ด ํ‘œํ˜„์˜ ์ •๋ ฌ ๋ฌธ์ œ๋ฅผ ๋น„์ง€๋„ ๋ฐฉ์‹์œผ๋กœ ํ•ด๊ฒฐํ•˜์—ฌ, XLM-RoBERTa๊ฐ€ ์ถ”๊ตฌํ•˜๋Š” ๋Œ€๊ทœ๋ชจ ๊ต์ฐจ์–ธ์–ด ํ•™์Šต ๋ชฉํ‘œ์™€ ์œ ์‚ฌํ•œ ๋ฌธ์ œ๋ฅผ ๋‹ค๋ฃฌ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋Œ€๊ทœ๋ชจ LLM์˜ ๋ถ„์•ผ๋ณ„, ์–ธ์–ด๋ณ„ ํฌ๋กœ์Šค๋ง๊ตฌ์–ผ ์„ฑ๋Šฅ ๊ฐœ์„ ์— ์ž์ฒด ํ”„๋ฆฌํŠธ๋ ˆ์ธ ํ˜น์€ ๋ฉ€ํ‹ฐ๋žญ๊ท€์ง€ ๋ชจ๋ธ์ด ๋ฏธ์น˜๋Š” ํšจ๊ณผ๋ฅผ ๋น„๊ตํ•  ์ˆ˜ ์žˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
884 ๋…ผ๋ฌธ์€ WikiAtomicEdits๋ผ๋Š” ๋ฉ€ํ‹ฐ๋ง๊ตฌ์–ผ ์œ„ํ‚คํ”ผ๋””์•„ ํŽธ์ง‘ ์ฝ”ํผ์Šค๋ฅผ ๊ตฌ์ถ•ํ•˜์—ฌ, XLM-R์˜ ๋Œ€๊ทœ๋ชจ ํฌ๋กœ์Šค๋ง๊ตฌ์–ผ ํ‘œ์ƒ ํ•™์Šต ์„ฑ๊ณผ๋ฅผ ์‹ค์งˆ์  ๋ฐ์ดํ„ฐ ์‘์šฉ ์‚ฌ๋ก€๋กœ ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
245๋ฒˆ ๋…ผ๋ฌธ์€ ๋‹ค๊ตญ์–ด ํ™˜๊ฒฝ์—์„œ ์ง€์‹ ์žฅ๋ฒฝ๊ณผ ๊ต์ฐจ์–ธ์–ด ๋Šฅ๋ ฅ์„ ์‹ฌ์ธต ๋ถ„์„ํ•˜์—ฌ, 858๋ฒˆ์˜ XLM-RoBERTa ๊ธฐ๋ฐ˜ ๊ต์ฐจ์–ธ์–ด ํ‘œํ˜„ ์—ฐ๊ตฌ์˜ ์˜ํ–ฅ์„ ๋ฐฉ๋ฒ•๋ก ์ ์œผ๋กœ ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
858 ๋…ผ๋ฌธ์€ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ์˜ ๋น„์ง€๋„ ํฌ๋กœ์Šค๋ง๊ตฌ์–ผ ํ•™์Šต์„ ๋Œ€๊ทœ๋ชจ๋กœ ๋‹ค๋ค„, 690์˜ ์ €์ž์› ์‹œ๋‚˜๋ฆฌ์˜ค ๋ถ„์„์— ํ›„์†์  ๊นŠ์ด๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
Few-shot ๋ฐ ๋‹ค์–ธ์–ด ํ™˜๊ฒฝ์—์„œ์˜ ๊ฒ€์ƒ‰ ์ฆ๊ฐ• ์–ธ์–ด๋ชจ๋ธ ํ‰๊ฐ€๋ฅผ ํ†ตํ•ด XLM-R์˜ ํ™œ์šฉ ๊ฐ€๋Šฅ์„ฑ์„ ์‹ค์ œ ํƒœ์Šคํฌ์—์„œ ์ธก์ •ํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
๋Œ€๊ทœ๋ชจ ๋‹ค๊ตญ์–ด ์–ธ์Šˆํผ๋ฐ”์ด์ฆˆ๋“œ ์‚ฌ์ „ํ•™์Šต ๋…ผ๋ฌธ์€ ๋ฉ€ํ‹ฐ๋ง๊ตฌ์–ผ ์Œ์„ฑ-ํ…์ŠคํŠธ ํƒœ์Šคํฌ์—์„œ์˜ ์ „๋ฐ˜์ ์ธ ๊ธฐ๋ฐ˜ ๊ธฐ์ˆ ๋กœ ํ™œ์šฉ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
858 ๋…ผ๋ฌธ์€ 100๊ฐœ ์ด์ƒ์˜ ์–ธ์–ด ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ•œ ๋Œ€๊ทœ๋ชจ ์‚ฌ์ „ํ•™์Šต ๋ชจ๋ธ ํ›ˆ๋ จ ๊ฒฐ๊ณผ๋ฅผ ์ œ์‹œํ•˜์—ฌ, Toolformer์˜ ๋„๊ตฌ ํ™œ์šฉ ๊ธฐ๋ฐ˜ ๋ฉ€ํ‹ฐ๋ง๊ตฌ์–ผ ์–ธ์–ด๋ชจ๋ธ ์ ์šฉ ์‚ฌ๋ก€์™€ ์—ฐ๋™์ด ๊นŠ์Šต๋‹ˆ๋‹ค.
๋ฐ˜๋ก /๋น„ํŒ
์ž๋™ํ™”๋œ ๊ณผํ•™ ์‹ค์ฒœ์— ์žˆ์–ด ๋น„์ง€๋„ยทํ”„๋ฆฌํŠธ๋ ˆ์ด๋‹ ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•์ด ๋ฐ์ดํ„ฐ์™€ ์–ธ์–ด์  ํ•œ๊ณ„๋ฅผ ์–ด๋–ป๊ฒŒ ๊ทน๋ณตํ•  ์ˆ˜ ์žˆ๋Š”์ง€๋ฅผ ๋น„ํŒ์ ์œผ๋กœ ๋‹ค๋ฃจ์–ด ๋…ผ์˜์˜ ๊ท ํ˜•์„ ์ค€๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •