Clarify when necessary: Resolving ambiguity through interaction with LMs

์ €์ž: Michael J.Q. Zhang, Eunsol Choi | ๋‚ ์งœ: 2023 | DOI: N/A 📄 PDF


Essence

Figure 1

์„ธ ๋‹จ๊ณ„ ํ”„๋ ˆ์ž„์›Œํฌ: (1) ๋ช…ํ™•ํ™” ํ•„์š” ์—ฌ๋ถ€ ํŒ๋‹จ, (2) ๋ช…ํ™•ํ™” ์งˆ๋ฌธ ์ƒ์„ฑ, (3) ๋ช…ํ™•ํ™” ์ •๋ณด๋ฅผ ํ™œ์šฉํ•œ ์‘๋‹ต

๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ(LLM)์ด ๋ชจํ˜ธํ•œ ์‚ฌ์šฉ์ž ์ž…๋ ฅ์„ ์ฒ˜๋ฆฌํ•  ๋•Œ ๋ช…ํ™•ํ™” ์งˆ๋ฌธ์„ ํ†ตํ•ด ์ƒํ˜ธ์ž‘์šฉํ•˜๋„๋ก ํ•˜๋Š” ์ž‘์—… ์ค‘๋ฆฝ์  ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์‹œํ•˜๊ณ , ์‚ฌ์šฉ์ž ์˜๋„ ์—”ํŠธ๋กœํ”ผ ์ถ”์ • ๋ฐฉ์‹์ธ INTENT-SIM์„ ํ†ตํ•ด ๋ช…ํ™•ํ™”๊ฐ€ ํ•„์š”ํ•œ ๊ฒฝ์šฐ๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ์‹๋ณ„ํ•œ๋‹ค.

Motivation

Achievement

  1. ๋ช…ํ™•ํ™” ํ•„์š”์„ฑ ํŒ๋‹จ์˜ ์ •ํ™•์„ฑ ํ–ฅ์ƒ: INTENT-SIM์ด ๊ธฐ์กด ๋ถˆํ™•์‹ค์„ฑ ์ถ”์ • ๋ฐฉ์‹๋“ค(baseline uncertainty estimation approaches)๋ณด๋‹ค ๋ช…ํ™•ํ™”๋กœ ๊ฐœ์„ ๋  ์˜ˆ์ธก์„ ์‹๋ณ„ํ•˜๋Š” ๋ฐ ์ผ๊ด€๋˜๊ฒŒ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์ž„. ์˜ˆ์ œ์˜ 10%๋งŒ ๋ช…ํ™•ํ™”ํ•  ์ˆ˜ ์žˆ์„ ๋•Œ, ๋ฌด์ž‘์œ„ ์„ ํƒ ๋Œ€๋น„ ์„ฑ๋Šฅ ๊ฐœ์„ ์„ 2๋ฐฐ ๋‹ฌ์„ฑ.
  2. ๊ฐ•๊ฑด์„ฑ(Robustness) ๊ฒ€์ฆ: INTENT-SIM์ด ๋‹ค์–‘ํ•œ NLP ๊ณผ์ œ์™€ LM์—์„œ ๊ฐœ์„  ํšจ๊ณผ๋ฅผ ๋ณด์ด๋ฉฐ, ํ‰๊ฐ€๋œ 6๊ฐ€์ง€ LM-๊ณผ์ œ ์กฐํ•ฉ ์ค‘ 4๊ฐ€์ง€์—์„œ ์ตœ๊ณ  ์„ฑ๋Šฅ ๋‹ฌ์„ฑ.
  3. ์ฒด๊ณ„์  ํ”„๋ ˆ์ž„์›Œํฌ ์ œ๊ณต: ๋ชจํ˜ธ์„ฑ ํ•ด๊ฒฐ์„ ์œ„ํ•œ ์ž‘์—… ์ค‘๋ฆฝ์  3๋‹จ๊ณ„ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ํ†ตํ•ด ๋‹ค์–‘ํ•œ NLP ์‘์šฉ์— ์ ์šฉ ๊ฐ€๋Šฅํ•œ ๊ธฐ์ดˆ๋ฅผ ๋งˆ๋ จ.

How

Figure 1

3๋‹จ๊ณ„ ํ”„๋ ˆ์ž„์›Œํฌ ๊ตฌ์กฐ:

INTENT-SIM ์•Œ๊ณ ๋ฆฌ์ฆ˜:

Originality

Limitation & Further Study

Evaluation

์ดํ‰: ๋ณธ ๋…ผ๋ฌธ์€ LLM์˜ ๋ชจํ˜ธ์„ฑ ํ•ด๊ฒฐ์„ ์œ„ํ•œ ๋ช…ํ™•ํ™” ์ƒํ˜ธ์ž‘์šฉ์ด๋ผ๋Š” ๋ฏธ๊ฐœ์ฒ™ ์˜์—ญ์— ์ฒด๊ณ„์  ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ๋„์ž…ํ•˜๊ณ , INTENT-SIM์„ ํ†ตํ•ด ํ˜„์‹ค์  ์„ฑ๋Šฅ ๊ฐœ์„ ์„ ๋‹ฌ์„ฑํ•œ ๊ฒฌ์‹คํ•œ ์—ฐ๊ตฌ์ด๋‹ค. ๋‹ค๋งŒ ๋ช…ํ™•ํ™” ์งˆ๋ฌธ ์ƒ์„ฑ์—์„œ ์˜ค๋ผํด ๊ธฐ๋ฐ˜ ์ ‘๊ทผ์˜ ํ•œ๊ณ„์™€ ํ˜„์‹ค์  ์ƒํ˜ธ์ž‘์šฉ ๋ณต์žก์„ฑ์˜ ๋‹จ์ˆœํ™”๋กœ ์ธํ•ด, ์‹ค์ œ ๋ฐฐํฌ ์‹œ์Šคํ…œ์œผ๋กœ์˜ ์ „ํ™˜์—๋Š” ์ถ”๊ฐ€ ์—ฐ๊ตฌ๊ฐ€ ํ•„์š”ํ•˜๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๋‹ค๋ฅธ ์ ‘๊ทผ
223๋ฒˆ ๋…ผ๋ฌธ์€ ๋ช…ํ™•์„ฑ ์งˆ๋ฌธ(clarification question)์„ ์ธํ„ฐ๋ž™ํ‹ฐ๋ธŒํ•˜๊ฒŒ ์ƒ์„ฑํ•˜์—ฌ, 172๋ฒˆ BoolQ๊ฐ€ ์ œ์‹œํ•˜๋Š” ์ฝ๊ธฐ ์ดํ•ด ๊ธฐ๋ฐ˜ ์˜ˆ/์•„๋‹ˆ์˜ค ์งˆ์˜ ๋ฌธ์ œ์™€ ์ฐจ๋ณ„๋œ ์ ‘๊ทผ์„ ์‹œ๋„ํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
222๋Š” ๊ทธ๋ž˜ํ”„ ๊ธฐ๋ฐ˜ ๋ช…ํ™•ํ™” ์„ ํƒ ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์‚ฌ์šฉํ•˜์—ฌ, LLM ๊ธฐ๋ฐ˜ ํ”„๋ ˆ์ž„์›Œํฌ๊ฐ€ ์ง๋ฉดํ•˜๋Š” ๊ณผ์ œ์— ๋‹ค๋ฅธ ๋ฐฉ์‹์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
223์€ ๋ช…ํ™•ํ™” ์งˆ๋ฌธ ์ƒ์„ฑ์— LLM์˜ ๋ถˆํ™•์‹ค์„ฑ ์ถ”์ •์„ ํ™œ์šฉํ•˜๋Š” ๋‹ค๋ฅธ ๋ฐฉ๋ฒ•๋ก ์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋ชจํ˜ธ์„ฑ ํ•ด์†Œ ๋ฐ ์ธํ„ฐ๋ž™์…˜ ๊ธฐ๋ฐ˜ LLM ๊ฐ€์„ค ์ƒ์„ฑ ์—ฐ๊ตฌ๋กœ, ๋ฐ์ดํ„ฐ-๋ฌธํ—Œ ์œตํ•ฉ ์ ‘๊ทผ ๋ฐฉ์‹๊ณผ ๋Œ€์กฐ์ ์œผ๋กœ ์ƒˆ๋กœ์šด ๊ด€์ ์„ ์ œ์‹œํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Can language models falsify ๋…ผ๋ฌธ์€ ๋ชจํ˜ธ์„ฑ ํ•ด์†Œ์™€ ๋ฐ˜๋ก€ ์ƒ์„ฑ ๋Šฅ๋ ฅ ๋น„๊ต๋ฅผ ํ†ตํ•ด LLM์˜ ์ƒํ˜ธ์ž‘์šฉ ๊ธฐ๋ฐ˜ ๋…ผ๋ฆฌ์  ์ถ”๋ก  ํ•œ๊ณ„๋ฅผ ๋ณด์—ฌ์ค€๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
312๋Š” ๋Šฅ๋™์  ์งˆ์˜ ์„ ํƒ ๋ฐฉ์‹์„ ์ถ”๊ฐ€ ์ ์šฉํ•ด, ๋ช…ํ™•ํ™” ์งˆ๋ฌธ ์ž๋™ ์ƒ์„ฑ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ 223์—์„œ ํ•œ ๋‹จ๊ณ„ ๋ฐœ์ „์‹œํ‚ต๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
๋„์„œ๊ด€ ์ •๋ณดํ•™ ๊ด€์ ์—์„œ ๊ณผํ•™๊ณผ ์‚ฌํšŒ์˜ ๊ฐ„๊ทน์„ ๋งตํ•‘ํ•˜๋Š” ๋…ผ๋ฌธ์œผ๋กœ, ์‚ฌ์šฉ์ž ์ž…๋ ฅ์˜ ๋ชจํ˜ธ์„ฑ ํ•ด์†Œ๊ฐ€ ์‹ค์ œ ๊ณผํ•™ ์ปค๋ฎค๋‹ˆ์ผ€์ด์…˜ ๊ฐœ์„ ์— ์–ด๋–ป๊ฒŒ ๊ธฐ์—ฌํ•  ์ˆ˜ ์žˆ๋Š”์ง€ ์—ฐ๊ฒฐํ•ด์ค€๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •