Hit-scir at mmnlu22: Consistency regularization for multilingual spoken language understanding

์ €์ž: Bo Zheng, Zhouyang Li, Fuxuan Wei, Qiguang Chen, Libo Qin, Wanxiang Che | ๋‚ ์งœ: 2023 | DOI: N/A 📄 PDF


Essence

๋‹ค๊ตญ์–ด ์Œ์„ฑ์–ธ์–ด์ดํ•ด(multilingual spoken language understanding, SLU) ํƒœ์Šคํฌ์—์„œ ์ผ๊ด€์„ฑ ์ •๊ทœํ™”(consistency regularization)์™€ ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ๋ฐ์ดํ„ฐ ์ฆ๊ฐ•(hybrid data augmentation) ์ „๋žต์„ ๊ฒฐํ•ฉํ•˜์—ฌ ์˜๋„ ํƒ์ง€(intent detection)์™€ ์Šฌ๋กฏ ์ฑ„์šฐ๊ธฐ(slot filling) ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚จ ์—ฐ๊ตฌ์ด๋‹ค. MASSIVE ๋ฐ์ดํ„ฐ์…‹์—์„œ ์ „์ฒด ๋ฐ์ดํ„ฐ์…‹ ์„ค์ •์—์„œ 1์œ„๋ฅผ ๋‹ฌ์„ฑํ–ˆ๋‹ค.

Motivation

Achievement

Figure 2

์ผ๊ด€์„ฑ ์ •๊ทœํ™” ๊ธฐ๋ฐ˜ ๋ฏธ์„ธ์กฐ์ • ํ”„๋ ˆ์ž„์›Œํฌ. ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ๋ฐ์ดํ„ฐ ์ฆ๊ฐ•์œผ๋กœ ๊ธฐ๊ณ„ ๋ฒˆ์—ญ(MT)๊ณผ ๋ถ€๋ถ„๋‹จ์–ด ์ƒ˜ํ”Œ๋ง(SS)์„ ํ™œ์šฉ

  1. ๊ฒฝ์Ÿ ์šฐ์œ„: MMNLU-22 ๊ฒฝ์Ÿ์—์„œ ์ „์ฒด ๋ฐ์ดํ„ฐ์…‹ ์„ค์ • ํ•˜์— 1์œ„ ๋‹ฌ์„ฑ (์ •ํ™• ๋งค์นญ ์ •ํ™•๋„ 49.65์ , 2์œ„๋ณด๋‹ค 1.02์  ์šฐ์ˆ˜)
  2. ์„ฑ๋Šฅ ํ–ฅ์ƒ:
    • XLM-Align Base: ์˜๋„ ์ •ํ™•๋„ 86.16% โ†’ 87.12%, ์Šฌ๋กฏ F1 76.36 โ†’ 77.99
    • mT5 Base: ์˜๋„ ์ •ํ™•๋„ 85.33% โ†’ 87.60%, ์Šฌ๋กฏ F1 76.77 โ†’ 78.22
  3. ํฌ๊ด„์  ํšจ๊ณผ: ์ „์ฒด ๋ฐ์ดํ„ฐ์…‹ ์„ค์ •๊ณผ ์ œ๋กœ์ƒท(zero-shot) ์„ค์ • ๋ชจ๋‘์—์„œ ์ง€์†์ ์ธ ์„ฑ๋Šฅ ๊ฐœ์„  ๋‹ฌ์„ฑ

How

Figure 1

MASSIVE ๋ฐ์ดํ„ฐ์…‹์˜ ์˜์–ด ์˜ˆ์ œ: ์˜๋„(set alarm)์™€ ์Šฌ๋กฏ ๋ ˆ์ด๋ธ”(time, date) ํ‘œ๊ธฐ

์ผ๊ด€์„ฑ ์ •๊ทœํ™”(Consistency Regularization)

ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ๋ฐ์ดํ„ฐ ์ฆ๊ฐ• ์ „๋žต

์†์‹ค ํ•จ์ˆ˜

```

L = L_I + ฮปโ‚L_S + ฮปโ‚‚R_I + ฮปโ‚ƒR_S

```

๊ตฌํ˜„ ์„ธ๋ถ€์‚ฌํ•ญ

Originality

Limitation & Further Study

Evaluation

Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

์ดํ‰: ์ผ๊ด€์„ฑ ์ •๊ทœํ™”์™€ ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ๋ฐ์ดํ„ฐ ์ฆ๊ฐ•์˜ ๊ฒฐํ•ฉ์œผ๋กœ ๋‹ค๊ตญ์–ด SLU์—์„œ ์ฒด๊ณ„์ ์ด๊ณ  ํšจ๊ณผ์ ์ธ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๋‹ฌ์„ฑํ–ˆ์œผ๋ฉฐ, MMNLU-22 ๊ฒฝ์Ÿ ์šฐ์Šน์œผ๋กœ ์‹ค์šฉ์„ฑ์„ ์ž…์ฆํ•œ ๊ฒฌ๊ณ ํ•œ ์—ฐ๊ตฌ์ด๋‹ค. ๋‹ค๋งŒ ๊ธฐ๊ณ„ ๋ฒˆ์—ญ์—์„œ์˜ ์Šฌ๋กฏ ์ •๋ ฌ ํ•œ๊ณ„์™€ ์ƒ์šฉ API ์˜์กด์„ฑ์ด ๊ฐœ์„  ์—ฌ์ง€๋ฅผ ๋‚จ๊ธด๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๋ฐ์ดํ„ฐ ์ฆ๊ฐ• ๋ฐ ์ •๊ทœํ™” ๊ธฐ๋ฐ˜ ๋ผ๋ฒจ๋ง ์„ฑ๋Šฅ ๊ฐœ์„  ์ „๋žต์ด LLM ์‹œ์—ฐ ๋‹ค์–‘์„ฑ ํ–ฅ์ƒ ์—ฐ๊ตฌ์˜ ๊ทผ๊ฐ„์ด ๋œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋Œ€๊ทœ๋ชจ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ชจ๋ธ์˜ ๋‹ค๋ฅธ ์•„ํ‚คํ…์ฒ˜ ์„ค๊ณ„๋ฅผ ์ œ์‹œํ•˜๋Š” ๊ด€๋ จ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
ChatGPT๊ฐ€ ํ…์ŠคํŠธ ์ฃผ์„ ํƒœ์Šคํฌ์—์„œ ์ง‘๋‹จ ๋…ธ๋™์ž๋ฅผ ๋Šฅ๊ฐ€ํ•˜๋Š” ์‚ฌ๋ก€๋ฅผ ์ œ์‹œํ•˜๋ฉฐ, ๋ฐ์ดํ„ฐ ๋ผ๋ฒจ๋ง ์ž๋™ํ™”์˜ ๋‹ค์–‘ํ•œ ์ „๋žต์„ ๋…ผ์˜ํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์Œ์„ฑ ์–ธ์–ด ์ดํ•ด ๋ถ„์•ผ์˜ ๋ฐ์ดํ„ฐ ์ฆ๊ฐ• ๋ฐ ์ •๊ทœํ™” ๋ฐฉ๋ฒ•์„ ๋ฌธ๋ฒ• ์˜ค๋ฅ˜ ๊ต์ •์˜ ๋ฌธ๋งฅ ๊ธฐ๋ฐ˜ ๋ฐ์ดํ„ฐ ์ฆ๊ฐ• ์—ฐ๊ตฌ์™€ ๋Œ€๋น„์‹œ์ผœ ์œ ์‚ฌํ•œ generalization ์ „๋žต์„ ๋…ผ์˜ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
๋Œ€๊ทœ๋ชจ ๋‹ค๊ตญ์–ด ์–ธ์Šˆํผ๋ฐ”์ด์ฆˆ๋“œ ์‚ฌ์ „ํ•™์Šต ๋…ผ๋ฌธ์€ ๋ฉ€ํ‹ฐ๋ง๊ตฌ์–ผ ์Œ์„ฑ-ํ…์ŠคํŠธ ํƒœ์Šคํฌ์—์„œ์˜ ์ „๋ฐ˜์ ์ธ ๊ธฐ๋ฐ˜ ๊ธฐ์ˆ ๋กœ ํ™œ์šฉ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
๋‹ค๊ตญ์–ด ์Œ์„ฑ ๋ฐ SLU์˜ ์‹ค์ œ ์‘์šฉ์‚ฌ๋ก€๋กœ, ์ผ๊ด€์„ฑ ์ •๊ทœํ™”์™€ ๋ฐ์ดํ„ฐ ์ฆ๊ฐ•์˜ ์‹ค์ œ์  ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๊ฒ€์ฆํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ์˜ ๋‹ค์–‘ํ•œ ์‘์šฉ๋ฒ• ์‚ฌ๋ก€๋ฅผ ์ฒด๊ณ„ํ™”ํ•œ ํ”„๋ ˆ์ž„์›Œํฌ๋กœ, 405์—์„œ์˜ ๋ฐ์ดํ„ฐ ์ฆ๊ฐ• ๊ธฐ๋ฒ•์ด ๋‹ค๋ฅธ NLP ํƒœ์Šคํฌ์— ์–ด๋–ป๊ฒŒ ์ ์šฉ๋˜๋Š”์ง€ ํ†ต์ฐฐ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •