Prompt to be consistent is better than self-consistent? Few-shot and zero-shot fact verification with pre-trained language models

์ €์ž: Fengzhu Zeng, Wei Gao | ์†Œ์†: Singapore Management University | ๋‚ ์งœ: 2023 | DOI: arXiv:2306.02569 📄 PDF


Essence

๋ณธ ๋…ผ๋ฌธ์€ ์‚ฌ์ „ํ•™์Šต ์–ธ์–ด๋ชจ๋ธ(PLM)์˜ ์ผ๊ด€์„ฑ(consistency)์„ ๋ช…์‹œ์ ์œผ๋กœ ๊ฐ•์ œํ•˜์—ฌ ์†Œ์ˆ˜์ƒ˜ํ”Œ(few-shot) ๋ฐ ์˜์ƒ˜ํ”Œ(zero-shot) ์‚ฌ์‹ค๊ฒ€์ฆ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ProToCo ๋ฐฉ๋ฒ•์„ ์ œ์•ˆํ•œ๋‹ค. ํด๋ ˆ์ž„์˜ ๋‹ค์–‘ํ•œ ๋ณ€ํ˜•์„ ์ƒ์„ฑํ•˜๊ณ  ์ด๋“ค ๊ฐ„์˜ ๋…ผ๋ฆฌ์  ์ผ๊ด€์„ฑ์„ ์ œ์•ฝ์กฐ๊ฑด์œผ๋กœ ํ™œ์šฉํ•˜์—ฌ ํŒŒ๋ผ๋ฏธํ„ฐ-ํšจ์œจ์  ๋ฏธ์„ธ์กฐ์ •(PEFT)์„ ์ˆ˜ํ–‰ํ•œ๋‹ค.

Motivation

Achievement

Figure 2

ProToCo์˜ ์•„ํ‚คํ…์ฒ˜: ํด๋ ˆ์ž„-์ฆ๊ฑฐ ์Œ์—์„œ ํ”„๋กฌํ”„ํŠธ ํ…œํ”Œ๋ฆฟ ๋ณ€ํ˜•์„ ํ†ตํ•ด ํ™•์ธ(CON), ๋ถˆํ™•์‹ค์„ฑ(UNC), ๋ถ€์ •(NEG) ๋ณ€ํ˜•์„ ์ƒ์„ฑํ•˜๊ณ , (IA)3๋ฅผ ์ด์šฉํ•œ PEFT๋กœ ๋ชจ๋ธ ์ผ๊ด€์„ฑ ํ•™์Šต

  1. Few-shot ์„ฑ๋Šฅ: ์„ธ ๊ฐœ์˜ ๊ณต๊ฐœ ์‚ฌ์‹ค๊ฒ€์ฆ ๋ฐ์ดํ„ฐ์…‹์—์„œ ์ตœ์‹  few-shot ๊ธฐ์ค€์„  ๋Œ€๋น„ ์ตœ๋Œ€ 30.4% ์ƒ๋Œ€ F1 ๊ฐœ์„ 
  2. Zero-shot ์„ฑ๋Šฅ: ๋ ˆ์ด๋ธ” ์—†๋Š” ์ธ์Šคํ„ด์Šค๋งŒ์œผ๋กœ๋„ ๊ฐ•๋ ฅํ•œ ์˜์ƒ˜ํ”Œ ํ•™์Šต๊ธฐ T0-3B๋ฅผ ์ง€์†์ ์œผ๋กœ ์ƒํšŒ
  3. ๋Œ€๊ทœ๋ชจ ๋ชจ๋ธ ๋น„๊ต: OPT-30B๋ฅผ ๋Šฅ๊ฐ€ํ•˜๊ณ , Self-Consistency ๊ธฐ๋ฐ˜ OPT-6.7B๋ฅผ ์œ ์˜๋ฏธํ•˜๊ฒŒ ์ดˆ๊ณผ (few-shot, zero-shot ๋ชจ๋‘)

How

ํ”„๋กฌํ”„ํŠธ ๊ธฐ๋ฐ˜ ๋ณ€ํ˜• ์ƒ์„ฑ

์ผ๊ด€์„ฑ ์ œ์•ฝ์กฐ๊ฑด ์ •์˜

ํŒŒ๋ผ๋ฏธํ„ฐ-ํšจ์œจ์  ๋ฏธ์„ธ์กฐ์ •

Originality

Limitation & Further Study

Evaluation

์ดํ‰: ๋ณธ ๋…ผ๋ฌธ์€ ์‚ฌ์‹ค๊ฒ€์ฆ ๊ณผ์ œ์˜ ๋‚ด์žฌ์  ๋…ผ๋ฆฌ ๊ตฌ์กฐ๋ฅผ ํ™œ์šฉํ•˜์—ฌ ๋ช…์‹œ์  ์ผ๊ด€์„ฑ ์ œ์•ฝ์„ ํ†ตํ•œ few-shot/zero-shot ํ•™์Šต์„ ํšจ๊ณผ์ ์œผ๋กœ ๊ตฌํ˜„ํ–ˆ๋‹ค. ํ”„๋กฌํ”„ํŠธ ๊ธฐ๋ฐ˜์˜ ๊ฐ„๋‹จํ•˜๋ฉด์„œ๋„ ์‹ค์šฉ์ ์ธ ์ ‘๊ทผ์ด ๋‹๋ณด์ด๋‚˜, ์ด๋ก ์  ๊นŠ์ด์™€ ํ™•์žฅ์„ฑ ์ธก๋ฉด์—์„œ๋Š” ๊ฐœ์„  ์—ฌ์ง€๊ฐ€ ์žˆ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
ํŒฉํŠธ์ฒดํ‚น์—์„œ ๋ฐ˜์ฆ ์ฆ๊ฑฐ ๋ถ€์žฌ ๋ฌธ์ œ๋ฅผ ๋ถ„์„ํ•จ์œผ๋กœ์จ ์ผ๊ด€์„ฑ ๊ธฐ๋ฐ˜ ์ ‘๊ทผ์˜ ํ•œ๊ณ„๋ฅผ ๋…ผํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
FactKG๋Š” ์ง€์‹ ๊ทธ๋ž˜ํ”„๋ฅผ ํ†ตํ•œ ํŒฉํŠธ ๊ฒ€์ฆ ๋ฐ ์ถ”๋ก  ๋ฐฉ๋ฒ•์„ ์ œ์•ˆํ•ด ์ผ๊ด€์„ฑ ๊ธฐ๋ฐ˜ ์ ‘๊ทผ๋ฒ•์˜ ์ฃผ์š” ์ด๋ก ์  ๋ฐฐ๊ฒฝ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
636๋ฒˆ ๋…ผ๋ฌธ์€ ํ”„๋กฌํ”„ํŠธ ์ผ๊ด€์„ฑ์ด ์‹ค์ œ ์„ฑ๋Šฅ ํ–ฅ์ƒ์— ๋ฏธ์น˜๋Š” ์˜ํ–ฅ์— ์ง‘์ค‘ํ•˜์—ฌ, 876๋ฒˆ ๋…ผ๋ฌธ์˜ ๋ฉ€ํ‹ฐ์—์ด์ „ํŠธ ๊ธฐ๋ฐ˜ ๊ณ ํ’ˆ์งˆ ๋‹ค์ค‘ ํ™‰ ๋ฐ์ดํ„ฐ ํ•ฉ์„ฑ ๊ทผ๊ฑฐ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Multivers๋Š” ์•ฝํ•œ ๊ฐ๋… ๊ธฐ๋ฐ˜ ํŒฉํŠธ์ฒดํ‚น์— ์ดˆ์ ์„ ๋‘๋‚˜, ProToCo์™€ ๋น„๊ตํ•ด ๋ฌธ์žฅ๊ฐ„ ๋…ผ๋ฆฌ ์ผ๊ด€์„ฑ๊ณผ ๋งฅ๋ฝ ํ™œ์šฉ ๋ฐฉ์‹์—์„œ ์ฐจ๋ณ„์„ฑ์„ ๋ณด์ž…๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
self-refinement vs consistency prompting ๋“ฑ LLM ์ถœ๋ ฅ ์ž๊ธฐ ๊ฐœ์„  ๊ธฐ๋ฒ•์˜ ์ƒ์ดํ•œ ํšจ๊ณผ์™€ ํ•œ๊ณ„๋ฅผ ๋น„๊ตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์‚ฌ์‹ค ๊ฒ€์ฆ์—์„œ ๋‹ค์–‘ํ•œ ๋…ผ๋ฆฌ ๊ธฐ๋ฐ˜ ์ ‘๊ทผ ๋ฐฉ์‹์„ ํ†ตํ•ด ๊ฒฌ๊ณ ์„ฑ ํ–ฅ์ƒ์„ ๊พ€ํ•˜๋Š” ๋Œ€์•ˆ์  ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๊ต์ฐจ์–ธ์–ด ์ง€์‹ ํ™œ์šฉ ๋Šฅ๋ ฅ ํ–ฅ์ƒ์„ ์œ„ํ•œ ๋Œ€์•ˆ์  ๋ฐฉ๋ฒ•๋ก ์„ ์ œ์‹œํ•˜๋Š” ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
few-shot GEC ํ•™์Šต์—์„œ consistent prompt design ์ ‘๊ทผ๋ฒ•์œผ๋กœ ๋ฐ์ดํ„ฐ-๋ชจ๋ธ ์ƒ์˜ ์ผ๊ด€์„ฑ ๋ฌธ์ œ๋ฅผ ๋‹ค๋ฅด๊ฒŒ ํ•ด๊ฒฐํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ •๋ณด๋ฅผ ํ™œ์šฉํ•œ ํŒฉํŠธ์ฒดํ‚น ์ž๋™ํ™” ์—ฐ๊ตฌ๋กœ, ๋ณธ ๋…ผ๋ฌธ๊ณผ ๋‹ค๋ฅด๊ฒŒ ์ฆ๊ฑฐ ํ™œ์šฉ ๋ฒ”์œ„๋ฅผ ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Trust, But Verify๋Š” LLM์ด ํŒฉํŠธ์ฒดํ‚น ํƒœ์Šคํฌ์—์„œ ์ž๊ธฐ ๊ฒ€์ฆยท์ผ๊ด€์„ฑ ๊ฐ•ํ™”๋ฅผ ์‹œ๋„ํ•œ ์ ‘๊ทผ๋ฐฉ๋ฒ•์œผ๋กœ ProToCo์™€ ๋น„๊ต ๊ฐ€๋Šฅํ•˜๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Prompt ์ผ๊ด€์„ฑ ๋ฐ self-consistency ์œ ๋„ ๋ฐฉ๋ฒ•์ด ๋‹ค์ค‘์—์ด์ „ํŠธ ์‹œ์Šคํ…œ์˜ ๊ณ„ํš๊ณผ ๊ธฐ์–ต ์„ฑ๋Šฅ ๋ณด์™„์— ๋Œ€์•ˆ์ด ๋จ.
ํ›„์† ์—ฐ๊ตฌ
ProToCo๋Š” ์–ธ์–ด๋ชจ๋ธ ์ผ๊ด€์„ฑ ์ œ์•ฝ๊ณผ ์†Œ์ˆ˜์ƒ˜ํ”Œ ํ™˜๊ฒฝ์—์„œ ์‚ฌ์‹ค๊ฒ€์ฆ ์„ฑ๋Šฅ ํ–ฅ์ƒ์— ์ดˆ์ ์„ ๋‘์–ด, Multivers์˜ ์•„์ด๋””์–ด๋ฅผ ํ™•์žฅํ•œ ํ˜•ํƒœ์ž…๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Selfcheck ๋…ผ๋ฌธ์€ LLM์˜ ์Šคํ…๋ณ„ ์ž๊ธฐ ์ ๊ฒ€์„ ํ†ตํ•ด ์˜ยท์†Œ์ˆ˜์ƒ˜ํ”Œ ์‚ฌ์‹ค ํ™•์ธ์— ๋Œ€ํ•œ ์ƒˆ๋กœ์šด ๋ฐฉ๋ฒ•๋ก ์  ํ™•์žฅ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •