BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions

์ €์ž: Christopher Clark, Kenton Lee, Mingโ€Wei Chang, Tom Kwiatkowski, Michael J. Collins | ๋‚ ์งœ: 2019 | DOI: N/A 📄 PDF


Essence

Figure 2

Figure 2: Accuracy for various models on the BoolQ

๋ณธ ๋…ผ๋ฌธ์€ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ์ƒ์„ฑ๋œ Yes/No ์งˆ๋ฌธ๋“ค๋กœ ๊ตฌ์„ฑ๋œ ์ฝ๊ธฐ ์ดํ•ด ๋ฐ์ดํ„ฐ์…‹ BoolQ๋ฅผ ์†Œ๊ฐœํ•˜๊ณ , ์ด๋Ÿฌํ•œ ์งˆ๋ฌธ๋“ค์ด ๋ณต์žกํ•œ ์ถ”๋ก ์„ ์š”๊ตฌํ•˜์—ฌ ์˜ˆ์ƒ์™ธ๋กœ ์–ด๋ ต๋‹ค๋Š” ๊ฒƒ์„ ๋ณด์—ฌ์ค€๋‹ค. BERT์™€ MultiNLI๋ฅผ ํ™œ์šฉํ•œ ์ „์ดํ•™์Šต์„ ํ†ตํ•ด 80.4%์˜ ์ •ํ™•๋„๋ฅผ ๋‹ฌ์„ฑํ–ˆ์œผ๋‚˜, ์ธ๊ฐ„ ์ •ํ™•๋„ 90%์™€์˜ 10%ํฌ์ธํŠธ ๊ฒฉ์ฐจ๊ฐ€ ์กด์žฌํ•œ๋‹ค.

Motivation

Achievement

Figure 2

Figure 2: Accuracy for various models on the BoolQ

๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ•: 16,000๊ฐœ์˜ ์ž์—ฐ์Šค๋Ÿฌ์šด yes/no ์งˆ๋ฌธ์œผ๋กœ ๊ตฌ์„ฑ๋œ BoolQ ๋ฐ์ดํ„ฐ์…‹ ๊ณต๊ฐœ. ์„ฑ๋Šฅ ๋ถ„์„: ๋‹ค์–‘ํ•œ ์ „์ดํ•™์Šต ๋ฒ ์ด์Šค๋ผ์ธ ์ค‘ MultiNLI๋กœ ์‚ฌ์ „ํ•™์Šต ํ›„ ๋ฏธ์„ธ์กฐ์ •ํ•œ BERT๊ฐ€ 80.43% ์ •ํ™•๋„ ๋‹ฌ์„ฑ (๊ธฐ์ €์„  62.31%, ์ธ๊ฐ„ 90%). ์ „์ดํ•™์Šต ํšจ๊ณผ: ๋Œ€๊ทœ๋ชจ ์‚ฌ์ „ํ•™์Šต ์–ธ์–ด๋ชจ๋ธ(BERT)์—์„œ ์ถœ๋ฐœํ•˜๋”๋ผ๋„ MultiNLI ๊ฐ™์€ ํ•จ์˜ ๋ฐ์ดํ„ฐ๋กœ๋ถ€ํ„ฐ์˜ ์ „์ดํ•™์Šต์ด ์—ฌ์ „ํžˆ ์ƒ๋‹นํ•œ ์„ฑ๋Šฅ ๊ฐœ์„ ์„ ์ œ๊ณตํ•จ์„ ์‹ค์ฆ.

How

Originality

Limitation & Further Study

Evaluation

Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

์ดํ‰: ๋ณธ ๋…ผ๋ฌธ์€ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ์ƒ์„ฑ๋œ yes/no ์งˆ๋ฌธ์ด ๋ณต์žกํ•œ ํ•จ์˜ ๋Šฅ๋ ฅ์„ ํ…Œ์ŠคํŠธํ•˜๊ธฐ์— ์ ํ•ฉํ•œ ๋„์ „์ ์ธ ๋ฒค์น˜๋งˆํฌ์ž„์„ ๋ณด์—ฌ์ฃผ๋Š” ๊ฐ€์น˜ ์žˆ๋Š” ์—ฐ๊ตฌ์ด๋‹ค. BoolQ ๋ฐ์ดํ„ฐ์…‹๊ณผ ์ข…ํ•ฉ์ ์ธ ์ „์ดํ•™์Šต ๋ถ„์„์€ ์—ฐ๊ตฌ ์ปค๋ฎค๋‹ˆํ‹ฐ์— ์œ ์šฉํ•œ ์ž์›์„ ์ œ๊ณตํ•˜๋ฉฐ, BERT์™€ MultiNLI์˜ ์ƒ๋ณด์„ฑ์— ๊ด€ํ•œ ๋ฐœ๊ฒฌ์€ ์‹ค์šฉ์  ์˜๋ฏธ๋ฅผ ๊ฐ€์ง„๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๋‹ค๋ฅธ ์ ‘๊ทผ
Wikipedia edit history ํ•™์Šต์„ ํ™œ์šฉํ•œ ์ œ๊ณต ๋ฐฉ์‹์€ BoolQ์˜ ์ž์—ฐ ๋ฐœ์ƒ์  ์˜ˆ/์•„๋‹ˆ์˜ค ์งˆ๋ฌธ์— ๋Œ€ํ•œ ์ดํ•ด๋„ ํ‰๊ฐ€์™€ ๋‹ค๋ฅธ ์ ‘๊ทผ์„ ์ทจํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋…ํ•ด ๋ฐ ์งˆ์˜์‘๋‹ต ํƒœ์Šคํฌ์—์„œ ์‚ฌ์ „ํ•™์Šต ์–ธ์–ด๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ๊ด€๋ จ ๋ฒค์น˜๋งˆํฌ ๋…ผ๋ฌธ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์˜ˆ/์•„๋‹ˆ์˜ค ํ˜•์‹์˜ ์ž์—ฐ์–ด ์ดํ•ด ๊ณผ์ œ์—์„œ LLM์˜ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ์œ ์‚ฌํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ž์—ฐ์–ด ์ดํ•ด ๋ฒค์น˜๋งˆํฌ์—์„œ LLM์˜ ์„ฑ๋Šฅ๊ณผ ์ธ๊ฐ„ ์ˆ˜์ค€ ๋น„๊ต๋ฅผ ๋‹ค๋ฃจ๋Š” ์œ ์‚ฌํ•œ ํ‰๊ฐ€ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
223๋ฒˆ ๋…ผ๋ฌธ์€ ๋ช…ํ™•์„ฑ ์งˆ๋ฌธ(clarification question)์„ ์ธํ„ฐ๋ž™ํ‹ฐ๋ธŒํ•˜๊ฒŒ ์ƒ์„ฑํ•˜์—ฌ, 172๋ฒˆ BoolQ๊ฐ€ ์ œ์‹œํ•˜๋Š” ์ฝ๊ธฐ ์ดํ•ด ๊ธฐ๋ฐ˜ ์˜ˆ/์•„๋‹ˆ์˜ค ์งˆ์˜ ๋ฌธ์ œ์™€ ์ฐจ๋ณ„๋œ ์ ‘๊ทผ์„ ์‹œ๋„ํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์–ธ์–ด๋ชจ๋ธ์˜ ๋…ํ•ด ์ดํ•ด ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ๋„์ „์ ์ธ ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ์‹œํ•˜๋Š” ๊ด€๋ จ ๋…ผ๋ฌธ์ด๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
441๋ฒˆ ๋…ผ๋ฌธ์€ ๊ณผํ•™ ์‚ฌ์‹ค ๊ฒ€์ฆ์—์„œ zero/few-shot ์ผ๋ฐ˜ํ™” ๋ฌธ์ œ๋ฅผ ๋‹ค๋ฃจ์–ด, 172๋ฒˆ์ด ๋‹ค๋ฃจ๋Š” ์ž์—ฐ ๋ฐœ์ƒ ์˜ˆ/์•„๋‹ˆ์˜ค ์งˆ์˜์˜ ์ผ๋ฐ˜ํ™” ๋„์ „๊ณผ ์—ฐ๊ณ„๋ฉ๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •