Unsupervised pretraining for fact verification by language model distillation

์ €์ž: Adriรกn Bazaga, Pรญetro Liรณ, Gos Micklem | ๋‚ ์งœ: 2023 | ์†Œ์†: University of Cambridge 📄 PDF


Essence

๋ณธ ๋…ผ๋ฌธ์€ SFAVEL(Self-supervised Fact Verification via Language Model Distillation)์„ ์ œ์•ˆํ•˜์—ฌ, ์ธ๊ฐ„์˜ ์ฃผ์„ ์—†์ด ์‚ฌ์ „ํ•™์Šต๋œ ์–ธ์–ด๋ชจ๋ธ์˜ ์ง€์‹์„ ์ฆ๋ฅ˜(distillation)ํ•จ์œผ๋กœ์จ ํด๋ ˆ์ž„๊ณผ ๊ทผ๊ฑฐ ๊ฐ„์˜ ์˜๋ฏธ๋ก ์  ์ •๋ ฌ์„ ํ•™์Šตํ•˜๋Š” ์ž๊ธฐ์ง€๋„ํ•™์Šต ๊ธฐ๋ฐ˜ ํŒฉํŠธ ๊ฒ€์ฆ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์†Œ๊ฐœํ•œ๋‹ค. ์ด๋Š” FB15k-237์—์„œ +5.3% Hits@1, FEVER์—์„œ +8% ์ •ํ™•๋„ ๊ฐœ์„ ์„ ๋‹ฌ์„ฑํ–ˆ๋‹ค.

Motivation

Achievement

  1. SOTA ์„ฑ๋Šฅ ๋‹ฌ์„ฑ: FB15k-237์—์„œ Hits@1 ๊ธฐ์ค€ +5.3% ๊ฐœ์„ , FEVER์—์„œ +8% ์ •ํ™•๋„ ํ–ฅ์ƒ์œผ๋กœ ์„ ํ˜•ํ‰๊ฐ€(linear evaluation) ๊ธฐ์ค€ ์ƒˆ๋กœ์šด SOTA ๋‹ฌ์„ฑ
  2. ์ฃผ์„ ๋ถˆํ•„์š”ํ•œ ์ž๊ธฐ์ง€๋„ํ•™์Šต: ์ธ๊ฐ„์˜ ๋ ˆ์ด๋ธ” ์—†์ด ์ˆœ์ „ํžˆ ์ž๊ธฐ์ง€๋„ํ•™์Šต๋งŒ์œผ๋กœ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ ๋‹ฌ์„ฑ, ๋Œ€๊ทœ๋ชจ ๋ฏธํ‘œ์ง€ ๋ฐ์ดํ„ฐ ํ™œ์šฉ ๊ฐ€๋Šฅ
  3. ์–ธ์–ด๋ชจ๋ธ ์ฆ๋ฅ˜์˜ ํšจ๊ณผ์„ฑ: 8๊ฐœ ์‚ฌ์ „ํ•™์Šต ์–ธ์–ด๋ชจ๋ธ์˜ ์˜๋ฏธ๋ก ์  ์ง€์‹์„ ํšจ๊ณผ์ ์œผ๋กœ ์ง€์‹๋ชจ๋ธ ๊ณต๊ฐ„์œผ๋กœ ์ด์ „ํ•˜๋ฉฐ, ์ž‘์—… ํŠนํ™” ์„ค๊ณ„์˜ ์ค‘์š”์„ฑ์„ ์ž…์ฆ

How

Figure 1: SFAVEL ํ”„๋ ˆ์ž„์›Œํฌ ๊ฐœ์š” - (a) ์ž๊ธฐ์ง€๋„ํ•™์Šต ๊ธฐ๋ฐ˜ ์–ธ์–ด๋ชจ๋ธ ์ฆ๋ฅ˜ ์‚ฌ์ „ํ•™์Šต ๊ณผ์ •์„ ๋ณด์—ฌ์ฃผ๋ฉฐ, ๊ณ ์ •๋œ ์–ธ์–ด๋ชจ๋ธ๋กœ๋ถ€ํ„ฐ ํด๋ ˆ์ž„ ์ž„๋ฒ ๋”ฉ์„ ํš๋“ํ•˜๊ณ , ์ง€์‹๋ชจ๋ธ๋กœ ์‚ฌ์‹ค ์ž„๋ฒ ๋”ฉ์„ ์ƒ์„ฑํ•œ ํ›„, ์Šค์ฝ”์–ด๋ง ๋ชจ๋“ˆ์ด ๊ทผ๊ฑฐ๋ฅผ ์ ์ˆ˜ํ™”ํ•˜๊ณ , ์„ธ ๊ฐ€์ง€ ์†์‹คํ•จ์ˆ˜(์ฆ๋ฅ˜, ์Šค์ฝ”์–ด๋ง, ๋Œ€๋น„)๋ฅผ ๊ฒฐํ•ฉํ•˜์—ฌ ์ตœ์ ํ™”ํ•œ๋‹ค.

๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ ํŒŒ์ดํ”„๋ผ์ธ:

์‚ฌ์ „ํ•™์Šต ๋ฐฉ๋ฒ•๋ก :

์„ธ ๊ฐ€์ง€ ์†์‹คํ•จ์ˆ˜ ์กฐํ•ฉ:

  1. ์ฆ๋ฅ˜ ์†์‹ค(โ„’_distill): ํด๋ ˆ์ž„๊ณผ ์–‘์„ฑ ์‚ฌ์‹ค ์ž„๋ฒ ๋”ฉ ๊ฐ„ ๋Œ€๋น„ ์†์‹ค๋กœ ์–ธ์–ด๋ชจ๋ธ ์ง€์‹์„ ์ง€์‹๋ชจ๋ธ ๊ณต๊ฐ„์œผ๋กœ ์ฆ๋ฅ˜
  2. ์Šค์ฝ”์–ด๋ง ์†์‹ค(โ„’_scoring): ์–‘์„ฑ ์‚ฌ์‹ค์— ๋†’์€ ์ ์ˆ˜, ์Œ์„ฑ ์‚ฌ์‹ค์— ๋‚ฎ์€ ์ ์ˆ˜๋ฅผ ๋ถ€์—ฌํ•˜๋„๋ก ์Šค์ฝ”์–ด๋ง ๋ชจ๋“ˆ ํ•™์Šต
  3. ๋Œ€๋น„ ์†์‹ค(โ„’_intra): ๋™์ผ ํด๋ ˆ์ž„์˜ ์–‘์„ฑ ์‚ฌ์‹ค๋“ค ๊ฐ„ ์˜๋ฏธ ๊ด€๊ณ„ ๋ณด์กด, ์ฝ”์‚ฌ์ธ ์œ ์‚ฌ๋„ ๊ธฐ๋ฐ˜ ๋Œ€๋น„ ํ•™์Šต

์„ ํƒ์  ๋ฏธ์„ธ์กฐ์ •: ์‚ฌ์ „ํ•™์Šต๋œ ๋ชจ๋ธ์„ ์ง€๋„ํ•™์Šต ํŒฉํŠธ ๊ฒ€์ฆ ๋ถ„๋ฅ˜ ์ž‘์—…์— ๋ฏธ์„ธ์กฐ์ • ๊ฐ€๋Šฅ

Originality

Limitation & Further Study

ํ•œ๊ณ„:

ํ›„์† ์—ฐ๊ตฌ:

Evaluation

์ดํ‰: SFAVEL์€ ํŒฉํŠธ ๊ฒ€์ฆ์— ํŠนํ™”๋œ ์ž๊ธฐ์ง€๋„ํ•™์Šต ํ”„๋ ˆ์ž„์›Œํฌ๋กœ SOTA ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ์œผ๋ฉฐ, ์ฃผ์„ ๋ถˆํ•„์š”ํ•œ ํ™•์žฅ ๊ฐ€๋Šฅํ•œ ์ ‘๊ทผ๋ฒ•์„ ์ œ์‹œํ•œ ์˜๋ฏธ ์žˆ๋Š” ๊ธฐ์—ฌ์ด๋‹ค. ๋‹ค๋งŒ ์ง€์‹๊ทธ๋ž˜ํ”„ ์˜์กด์„ฑ๊ณผ ์„ค๊ณ„ ์„ ํƒ์˜ ์ด๋ก ์  ๊นŠ์ด๊ฐ€ ๋ณด๊ฐ•๋œ๋‹ค๋ฉด ๋”์šฑ ๊ฐ•๋ ฅํ•œ ์—ฐ๊ตฌ๊ฐ€ ๋  ์ˆ˜ ์žˆ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
859๋Š” ์–ธ์–ด๋ชจ๋ธ ๊ธฐ๋ฐ˜์˜ ์‚ฌ์‹ค ๊ฒ€์ฆ๊ณผ ๋‚ด์žฌ์  ์‹ ๋ขฐ์„ฑ์„ ๋‹ค๋ฃจ์–ด, RL์˜ ํ–‰๋™ ๋ฐ ๋ณด์ƒ ํ‰๊ฐ€์— ๊ด€ํ•œ ์‹ ๋ขฐ์„ฑ ๋…ผ์˜์— ์ด๋ก ์  ํ† ๋Œ€๋ฅผ ์ œ์‹œํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
333์€ ํŒฉํŠธ์ฒดํ‚น์— ์ง€์‹ ๊ทธ๋ž˜ํ”„ ๊ธฐ๋ฐ˜ ์ถ”๋ก  ๋ฐฉ์‹์„ ์ ์šฉํ•˜์—ฌ, ์–ธ์–ด๋ชจ๋ธ ์ฆ๋ฅ˜ ๊ธฐ๋ฐ˜์˜ 859์™€ ์ ‘๊ทผ๋ฒ•์ด ์ƒ์ดํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
ํ˜•์‹์  ๊ฒ€์ฆ ๋ฐ ์‚ฌ์‹ค ๊ฒ€์ฆ์—์„œ ์–ธ์–ด๋ชจ๋ธ์˜ ๋ถˆํ™•์‹ค์„ฑ์„ ์ ๊ฒ€ํ•˜๋Š” ๋“ฑ ๋ณธ ๋…ผ๋ฌธ๊ณผ ์‹œ๋„ˆ์ง€๊ฐ€ ๋†’์€ ์ ‘๊ทผ๋ฒ•์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
์–ธ์ˆ˜ํผ๋ฐ”์ด์ฆˆ๋“œ ์‚ฌ์ „ํ•™์Šต๊ณผ ์–ธ์–ด๋ชจ๋ธ์„ ํ™œ์šฉํ•œ ์—ญ๋Ÿ‰ ํ™•์žฅ, ๊ณผํ•™์  ํŒฉํŠธ ๊ฒ€์ฆ ํƒœ์Šคํฌ ๊ฐ„ ์˜ํ–ฅ๋ ฅ์„ ๋น„๊ตํ•ด ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
๋ณตํ•ฉ์  ๊ณผํ•™ ์‚ฌ์‹ค ๊ฒ€์ฆ์˜ ํ•ด์„ค ๋ฐ ์„ค๋ช… ๊ฐ€๋Šฅํ•œ ๊ทผ๊ฑฐ ์ œ์‹œ๋กœ, SFAVEL ๋ชจ๋ธ์˜ ์‘์šฉ๋ ฅ์„ ๊ฐ•ํ™”ํ•ฉ๋‹ˆ๋‹ค.
๋ฐ˜๋ก /๋น„ํŒ
441์€ ์‚ฌ์‹ค ๊ฒ€์ฆ์—์„œ ์ œ๋กœ์ƒท๊ณผ ํ“จ์ƒท ์ผ๋ฐ˜ํ™”์˜ ํ•œ๊ณ„ ๋ฐ ๊ฐ•์ ์„ ๋‹ค๋ฃจ๋ฉฐ, 859์˜ ํ”„๋ ˆ์ž„์›Œํฌ์˜ ์„ฑ๋Šฅ ํ•ด์„์— ์‹œ์‚ฌ์ ์„ ์ค๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •