SimAlign: High quality word alignments without parallel training data using static and contextualized embeddings

์ €์ž: Masoud Jalili Sabet, Philipp Dufter, Franรงois Yvon, Hinrich Schรผtze | ๋‚ ์งœ: 2021 | DOI: arXiv:2004.08728 📄 PDF


Essence

๋ณธ ๋…ผ๋ฌธ์€ ๋ณ‘๋ ฌ ํ•™์Šต ๋ฐ์ดํ„ฐ ์—†์ด ๋‹ค๊ตญ์–ด ๋‹จ์–ด ์ž„๋ฒ ๋”ฉ(์ •์  ๋ฐ ๋ฌธ๋งฅํ™”๋œ)์„ ํ™œ์šฉํ•˜์—ฌ ๊ณ ํ’ˆ์งˆ์˜ ๋‹จ์–ด ์ •๋ ฌ์„ ์ˆ˜ํ–‰ํ•˜๋Š” SimAlign ๋ฐฉ๋ฒ•์„ ์ œ์•ˆํ•œ๋‹ค. ์ „ํ†ต์ ์ธ ํ†ต๊ณ„์  ์ •๋ ฌ๊ธฐ(efloral ๋“ฑ)์™€ ๋น„๊ตํ•ด์„œ๋„ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์ธ๋‹ค.

Motivation

Achievement

  1. ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ: ๋ฌธ๋งฅํ™”๋œ ์ž„๋ฒ ๋”ฉ(contextualized embeddings)์œผ๋กœ๋ถ€ํ„ฐ ์–ป์€ ์ •๋ ฌ์ด 100K ๋ณ‘๋ ฌ ๋ฌธ์žฅ์œผ๋กœ ํ•™์Šตํ•œ efloral๋ณด๋‹ค ์˜์–ด-๋…์ผ์–ด ์Œ์—์„œ F1์ด 5% ํฌ์ธํŠธ ๋†’์Œ (6๊ฐœ ์–ธ์–ด์Œ ์ค‘ 4์Œ์—์„œ ์šฐ์ˆ˜, 2์Œ์—์„œ ๋™๋“ฑ)
  2. ๋ณ‘๋ ฌ ๋ฐ์ดํ„ฐ ๋ถˆํ•„์š”: ์ „๋ฌธ ์šฉ์–ด ์—†์ด ๋‹จ์ผ์–ธ์–ด ๋ฐ์ดํ„ฐ๋งŒ์œผ๋กœ ์ž„๋ฒ ๋”ฉ ํ•™์Šต ๊ฐ€๋Šฅํ•˜์—ฌ ์ €์ž์› ์–ธ์–ด์™€ ํ˜ผํ•ฉ ์–ธ์–ด ๋ฌธ์žฅ ์ •๋ ฌ ๊ฐ€๋Šฅ
  3. ์œ ์—ฐํ•œ ์ •๋ ฌ ์ถ”์ถœ ๋ฐฉ๋ฒ•: 3๊ฐ€์ง€ ์„œ๋กœ ๋‹ค๋ฅธ ์•Œ๊ณ ๋ฆฌ์ฆ˜(Argmax, IterMax, Match)์œผ๋กœ ์ •ํ™•๋„(precision)์™€ ์žฌํ˜„์œจ(recall)์˜ ํŠธ๋ ˆ์ด๋“œ์˜คํ”„ ์กฐ์ ˆ ๊ฐ€๋Šฅ

How

Figure 3

์„œ๋ธŒ๋‹จ์–ด ์ˆ˜์ค€ ์ •๋ ฌ์„ ๋‹จ์–ด ์ˆ˜์ค€์œผ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ํ”„๋กœ์„ธ์Šค

์ฃผ์š” ๋ฐฉ๋ฒ•๋ก 

Originality

Limitation & Further Study

Evaluation

Novelty: 4.5/5 Technical Soundness: 4/5 Significance: 4.5/5 Clarity: 4/5 Overall: 4.3/5

์ดํ‰: SimAlign์€ ๋‹ค๊ตญ์–ด ์ž„๋ฒ ๋”ฉ์˜ ์œ ์‚ฌ๋„ ํ–‰๋ ฌ์—์„œ ๋‹จ์–ด ์ •๋ ฌ์„ ์ถ”์ถœํ•˜๋Š” ์ฐฝ์˜์ ์ด๊ณ  ์‹ค์šฉ์ ์ธ ๋ฐฉ๋ฒ•์„ ์ œ์•ˆํ•˜์—ฌ, ๋ณ‘๋ ฌ ํ•™์Šต ๋ฐ์ดํ„ฐ์˜ ์˜์กด์„ฑ์„ ์ œ๊ฑฐํ•˜๋ฉด์„œ๋„ ์ „ํ†ต์  ํ†ต๊ณ„ ์ •๋ ฌ๊ธฐ๋ฅผ ๋Šฅ๊ฐ€ํ•˜๋Š” ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ๋‹ค๋Š” ์ ์—์„œ ์˜์˜๊ฐ€ ์žˆ๋‹ค. ๋‹ค๋งŒ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ์ตœ์ ํ™”์™€ ๋” ๊ด‘๋ฒ”์œ„ํ•œ ์–ธ์–ด ์ปค๋ฒ„๋ฆฌ์ง€ ๊ฐœ์„ ์ด ํ–ฅํ›„ ๊ณผ์ œ์ด๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
์ €์ž์› ์–ธ์–ด์—์„œ์˜ crosslingual ์—ญ๋ฒˆ์—ญ ๋ถ„์„์„ ๋‹ค๋ฃฌ ๋ณธ ๋…ผ๋ฌธ์€ ๊ณ ํ’ˆ์งˆ ์›Œ๋“œ alignments ๊ธฐ๋ฒ•(755)๊ณผ ๋ฐ€์ ‘ํ•œ ์ด๋ก ์  ์—ฐ๊ด€์ด ์žˆ์Šต๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
SimAlign ๋…ผ๋ฌธ์€ ๋ณ‘๋ ฌ ๋ง๋ญ‰์น˜ ์—†์ด ๋‹จ์–ด ์ •๋ ฌ ์„ฑ๋Šฅ์„ ์ธก์ •ํ•˜์—ฌ ๊ต์ฐจ์–ธ์–ด ์ •๋ ฌ ๊ธฐ๋ฒ•์˜ ์ด๋ก ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๊ณผํ•™ ๋ถ„์•ผ์˜ ํŠนํ™”๋œ ์–ธ์–ด์ž์›(์ธ๋ฒ ๋”ฉ ๋“ฑ) ํ™œ์šฉ์— ์žˆ์–ด, SimAlign๊ณผ SciBERT์˜ ๋‹ค์–ธ์–ด/์ „๋ฌธ์šฉ์–ด ์ฒ˜๋ฆฌ ์ „๋žต์„ ๋น„๊ตํ•  ์ˆ˜ ์žˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
858์€ ๋Œ€๊ทœ๋ชจ ํฌ๋กœ์Šค๋ง๊ตฌ์–ผ ํ‘œํ˜„ ํ•™์Šต์— ์ดˆ์ ์„ ๋งž์ถ”์–ด, SimAlign๊ณผ ์œ ์‚ฌ ๋ชฉ์ ์„ ๋‹ค์ธต ์ž„๋ฒ ๋”ฉ ๊ธฐ๋ฐ˜์œผ๋กœ ๋‹ฌ์„ฑํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
SimAlign ๋…ผ๋ฌธ์ด ๋ฉ€ํ‹ฐ๋ทฐ ์•ต์ปค ์ •๋ ฌ ๋ฌธ์ œ์™€ ์œ ์‚ฌํ•˜๊ฒŒ ๋น„์ง€๋„ ์›Œ๋“œ ์ •๋ ฌ ํšจ์œจํ™” ๋ฌธ์ œ๋ฅผ ๋‹ค๋ฃจ๋ฉฐ, ์ •๋ ฌ๊ณผ ๋ถˆ์ผ์น˜ ์ด์Šˆ์— ๋Œ€ํ•œ ๋‹ค์–‘ํ•œ ์ ‘๊ทผ์„ ๋น„๊ตํ•˜๊ฒŒ ํ•ด์ค๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
ํฌ๋กœ์Šค๋ง๊ตฌ์–ผ ์ •๋ ฌ ๋ฐ ํ”Œ๋ž˜๋‹ ๋ฌธ์ œ์— ๋Œ€ํ•œ ์ž๋™ ๊ณ„ํš๊ณผ ๋ฉ€ํ‹ฐ์—์ด์ „ํŠธ ํ˜‘์—… ์ ์šฉ์˜ ์ตœ์‹  ๋ฐฉ์‹์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
485๋Š” ์œ„ํ‚คํ”ผ๋””์•„ ํŽธ์ง‘ ์ด๋ ฅ ์ž๋ฃŒ๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ์ •๋ ฌ ๋ฐ ๋ถ„ํ•  ๋ชจ๋ธ ํ›ˆ๋ จ์„ ๋‹ค๋ฃจ์–ด, 755์˜ ๋ฐฉ๋ฒ•๋ก ์„ ์‹ค์ œ ํƒœ์Šคํฌ์— ์ ์šฉํ•ฉ๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •