BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions
์ ์: Christopher Clark, Kenton Lee, MingโWei Chang, Tom Kwiatkowski, Michael J. Collins | ๋ ์ง: 2019 | DOI: N/A 📄 PDF
Essence
Figure 2: Accuracy for various models on the BoolQ
๋ณธ ๋
ผ๋ฌธ์ ์์ฐ์ค๋ฝ๊ฒ ์์ฑ๋ Yes/No ์ง๋ฌธ๋ค๋ก ๊ตฌ์ฑ๋ ์ฝ๊ธฐ ์ดํด ๋ฐ์ดํฐ์
BoolQ๋ฅผ ์๊ฐํ๊ณ , ์ด๋ฌํ ์ง๋ฌธ๋ค์ด ๋ณต์กํ ์ถ๋ก ์ ์๊ตฌํ์ฌ ์์์ธ๋ก ์ด๋ ต๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค. BERT์ MultiNLI๋ฅผ ํ์ฉํ ์ ์ดํ์ต์ ํตํด 80.4%์ ์ ํ๋๋ฅผ ๋ฌ์ฑํ์ผ๋, ์ธ๊ฐ ์ ํ๋ 90%์์ 10%ํฌ์ธํธ ๊ฒฉ์ฐจ๊ฐ ์กด์ฌํ๋ค.
Motivation
- Known: Natural language inference(NLI)๋ ๋ฌธ์ฅ์ด๋ ๊ตฌ๋ฌธ ์์ ๋ํ ํจ์ ๊ด๊ณ๋ฅผ ํ๋จํ๋ ์ค๋ซ๋์ ์ฐ๊ตฌ๋ ๋ถ์ผ์ด๋ฉฐ, SNLI, MultiNLI ๋ฑ์ ๋ฐ์ดํฐ์
์ด ์๋ค. ๊ธฐ์กด QA ๋ฐ์ดํฐ์
๋ค(CoQA, QuAC, HotPotQA)์๋ Yes/No ์ง๋ฌธ๋ค์ด ํฌํจ๋์ด ์์ง๋ง ๋ํํ QA๋ ๋ค๋จ๊ณ ์ถ๋ก ๋ฑ ๋ค๋ฅธ ๋ชฉ์ ์ผ๋ก ์ค๊ณ๋์๋ค.
- Gap: ๊ธฐ์กด NLI ์์
์ ์ธ๊ฐ์ด ์์ฑํ ํ๋ณด ๋ฌธ์ฅ๋ค์ด ํ๋ฉด ์์ค์ ์ถ๋ก ๋ง ์๊ตฌํ๋ ๊ฒฝํฅ์ด ์๊ณ , ๊ธฐ์กด Yes/No QA ๋ฐ์ดํฐ์
๋ค์ ์์ฐ์ค๋ฝ๊ฒ ๋ฐ์ํ ์ง๋ฌธ์ด ์๋๊ฑฐ๋ ํด๋์ค ๋ถ๊ท ํ ๋ฌธ์ ๊ฐ ์๋ค. ๋ํ yes/no ์ง๋ฌธ์ด paragraph ์์ค์์์ ํจ์ ๊ด๊ณ๋ฅผ ๊ฐ์งํ๋ ๋ฅ๋ ฅ์ ํ
์คํธํ๊ธฐ์ ์ผ๋ง๋ ํจ๊ณผ์ ์ธ์ง ์ฒด๊ณ์ ์ผ๋ก ์ฐ๊ตฌ๋์ง ์์๋ค.
- Why: Yes/No ์ง๋ฌธ์ ์ค์ ์ฌ์ฉ์ ์ฟผ๋ฆฌ์์ ํํ๊ฒ ๋ํ๋๋ ์ค์ํ ๋ฌธ์ ์ด๋ฉฐ, ์์ฐ์ค๋ฝ๊ฒ ์์ฑ๋ ์ง๋ฌธ๋ค์ ํ๋ฉด ์์ค์ ๋์ด ๋ณต์กํ ์ถ๋ก ๋ฅ๋ ฅ์ ํ
์คํธํ๋ ๋ฒค์น๋งํฌ๋ก์ ๋ ์ค์ฉ์ ์ด๊ณ ์ ๋ขฐํ ์ ์๋ค. ํนํ BERT ๊ฐ์ ๋๊ท๋ชจ ์ฌ์ ํ์ต ๋ชจ๋ธ์ด ์ฌ์ ํ ์ฑ๋ฅ ํฅ์์ ๋์์ด ๋๋ ์ด์ ๋ฅผ ์ดํดํ๋ ๊ฒ์ ์ ์ดํ์ต์ ํจ๊ณผ๋ฅผ ํ์
ํ๋ ๋ฐ ์ค์ํ๋ค.
- Approach: ์์ฐ ๊ฒ์ ์ฟผ๋ฆฌ์์ yes/no ์ง๋ฌธ์ ํด๋ฆฌ์คํฑํ๊ฒ ์๋ณํ๊ณ , ์์ 5๊ฐ ์ํคํผ๋์ ๊ฒฐ๊ณผ๋ก ๋ฐํ๋๋ ์ง๋ฌธ-๋ฌธ์ ์๋ง ์ ์งํ๋ค. ์ธ๊ฐ ์ฃผ์์๋ ์ง๋ฌธ์ ํ์ง์ ๊ฒ์ฆํ๊ณ , ์ง๋ฌธ์ ๋ํ ๋ต์ ํฌํจํ๋ ๊ตฌ๊ฐ์ ์๋ณํ ํ, ๋งฅ๋ฝ ์์ด ์ฌ๊ฒ์ฆํ๋ค. ๋ค์ํ ์ ์ดํ์ต ๋ฒ ์ด์ค๋ผ์ธ(MultiNLI, paraphrase ๋ฐ์ดํฐ, extractive QA)์ ์คํํ๊ณ BERT์ ํจ๊ป ์ฌ์ฉํ๋ค.
Achievement
Figure 2: Accuracy for various models on the BoolQ
๋ฐ์ดํฐ์
๊ตฌ์ถ: 16,000๊ฐ์ ์์ฐ์ค๋ฌ์ด yes/no ์ง๋ฌธ์ผ๋ก ๊ตฌ์ฑ๋ BoolQ ๋ฐ์ดํฐ์
๊ณต๊ฐ. ์ฑ๋ฅ ๋ถ์: ๋ค์ํ ์ ์ดํ์ต ๋ฒ ์ด์ค๋ผ์ธ ์ค MultiNLI๋ก ์ฌ์ ํ์ต ํ ๋ฏธ์ธ์กฐ์ ํ BERT๊ฐ 80.43% ์ ํ๋ ๋ฌ์ฑ (๊ธฐ์ ์ 62.31%, ์ธ๊ฐ 90%). ์ ์ดํ์ต ํจ๊ณผ: ๋๊ท๋ชจ ์ฌ์ ํ์ต ์ธ์ด๋ชจ๋ธ(BERT)์์ ์ถ๋ฐํ๋๋ผ๋ MultiNLI ๊ฐ์ ํจ์ ๋ฐ์ดํฐ๋ก๋ถํฐ์ ์ ์ดํ์ต์ด ์ฌ์ ํ ์๋นํ ์ฑ๋ฅ ๊ฐ์ ์ ์ ๊ณตํจ์ ์ค์ฆ.
How
- ์๋ ํด๋ฆฌ์คํฑ ํํฐ๋ง์ผ๋ก Google ๊ฒ์ ๋ก๊ทธ์์ yes/no ์ง๋ฌธ ํ๋ณด ์๋ณ
- 3๋จ๊ณ ์ธ๊ฐ ์ฃผ์ ํ์ดํ๋ผ์ธ: (1) ์ง๋ฌธ ํ์ง ํ์ , (2) ๋ต์ ํฌํจํ ๊ตฌ๊ฐ ์๋ณ, (3) ๋งฅ๋ฝ ์ ๊ฑฐ ํ ์ฌ๊ฒ์ฆ
- BERT, ELMo ๊ฐ์ ์ฌ์ ํ์ต ์ธ์ด๋ชจ๋ธ ํ์ฉ
- MultiNLI, SNLI, RTE, SciTail ๋ฑ ํจ์ ๋ฐ์ดํฐ๋ก ์ ์ดํ์ต
- ์ถ์ถํ QA ๋ฐ์ดํฐ(SQuAD, Natural Questions)๋ฅผ ํจ์ ์์ ๋ก ๋ณํํ ์ ์ดํ์ต
- ๋ค์ํ ๋ชจ๋ธ ์กฐํฉ ์คํ (์ฌ์ ํ์ต + ํจ์ ๋ฏธ์ธ์กฐ์ + BoolQ ๋ฏธ์ธ์กฐ์ )
Originality
- ์์ฐ ๊ฒ์ ์ฟผ๋ฆฌ์์ ์์ง๋ yes/no ์ง๋ฌธ ๋ฐ์ดํฐ์
์ผ๋ก์, ๊ธฐ์กด์ ์ธ์์ ์ผ๋ก prompt๋๊ฑฐ๋ ํํฐ๋ง๋ ๋ฐ์ดํฐ์
๊ณผ ์ฐจ๋ณํ
- ํจ์ ๋ฐ์ดํฐ๋ก์ ์ ์ดํ์ต์ด ์ด๋ฏธ ๊ฐ๋ ฅํ ์ฌ์ ํ์ต ๋ชจ๋ธ(BERT)์์๋ ๊ณ์ ์ ์ฉํ๋ค๋ ์ค์ฆ์ ์ฆ๊ฑฐ ์ ์
- paragraph ์์ค์ ํจ์ ๊ฐ์ง๋ฅผ ํตํ ์์ฐ์ค๋ฌ์ด yes/no QA๋ฅผ ๋ช
์์ ์ผ๋ก ์ฐ๊ตฌํ ์ฒซ ๋ฒ์งธ ๋๊ท๋ชจ ์ฐ๊ตฌ
Limitation & Further Study
- 80.43% vs 90% ์ธ๊ฐ ์ ํ๋ ๊ฐ์ 10% ๊ฒฉ์ฐจ๋ก ์๋นํ ๊ฐ์ ์ฌ์ง ์กด์ฌ. ๋ฐ์ดํฐ์
์ด ์์ด ๋ฐ ์ํคํผ๋์ ๊ธฐ๋ฐ์ผ๋ก ์ ํ๋์ด ๋ค์ธ์ด ๋ฐ ๋ค์ํ ๋๋ฉ์ธ์ผ๋ก์ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ ๋ฏธ์ง. ๋ชจ๋ธ๋ค์ด ๋ฐ์ดํฐ์
์ ์ํฐํด ์ ๋ชฉ์ ํ์ฉํ์ง ์์. class balance๊ฐ ์๋ฒฝํ์ง ์์ ์ ์์. ์ถ์ถํ QA ๋ฐ์ดํฐ๋ฅผ ํจ์๋ก ๋ณํํ๋ ๋ฐฉ๋ฒ์ ์ ํจ์ฑ์ด ์ถฉ๋ถํ ์
์ฆ๋์ง ์์. ํ์ ์ฐ๊ตฌ: ์ธ๊ฐ ์์ค์ ์ฑ๋ฅ์ ๋๋ฌํ๊ธฐ ์ํ ์ถ๋ก ๋ฅ๋ ฅ ํฅ์, ๋ค์ธ์ด yes/no QA ๋ฐ์ดํฐ์
๊ตฌ์ถ, ๋ณต์กํ ์ถ๋ก ์ด ํ์ํ ๊ฒฝ์ฐ์ ๋ํ ์์ธ ๋ถ์.
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ ์์ฐ์ค๋ฝ๊ฒ ์์ฑ๋ yes/no ์ง๋ฌธ์ด ๋ณต์กํ ํจ์ ๋ฅ๋ ฅ์ ํ
์คํธํ๊ธฐ์ ์ ํฉํ ๋์ ์ ์ธ ๋ฒค์น๋งํฌ์์ ๋ณด์ฌ์ฃผ๋ ๊ฐ์น ์๋ ์ฐ๊ตฌ์ด๋ค. BoolQ ๋ฐ์ดํฐ์
๊ณผ ์ข
ํฉ์ ์ธ ์ ์ดํ์ต ๋ถ์์ ์ฐ๊ตฌ ์ปค๋ฎค๋ํฐ์ ์ ์ฉํ ์์์ ์ ๊ณตํ๋ฉฐ, BERT์ MultiNLI์ ์๋ณด์ฑ์ ๊ดํ ๋ฐ๊ฒฌ์ ์ค์ฉ์ ์๋ฏธ๋ฅผ ๊ฐ์ง๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๋ค๋ฅธ ์ ๊ทผ
Wikipedia edit history ํ์ต์ ํ์ฉํ ์ ๊ณต ๋ฐฉ์์ BoolQ์ ์์ฐ ๋ฐ์์ ์/์๋์ค ์ง๋ฌธ์ ๋ํ ์ดํด๋ ํ๊ฐ์ ๋ค๋ฅธ ์ ๊ทผ์ ์ทจํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋
ํด ๋ฐ ์ง์์๋ต ํ์คํฌ์์ ์ฌ์ ํ์ต ์ธ์ด๋ชจ๋ธ์ ์ฑ๋ฅ์ ํ๊ฐํ๋ ๊ด๋ จ ๋ฒค์น๋งํฌ ๋
ผ๋ฌธ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
์/์๋์ค ํ์์ ์์ฐ์ด ์ดํด ๊ณผ์ ์์ LLM์ ์ถ๋ก ๋ฅ๋ ฅ์ ํ๊ฐํ๋ ์ ์ฌํ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
์์ฐ์ด ์ดํด ๋ฒค์น๋งํฌ์์ LLM์ ์ฑ๋ฅ๊ณผ ์ธ๊ฐ ์์ค ๋น๊ต๋ฅผ ๋ค๋ฃจ๋ ์ ์ฌํ ํ๊ฐ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
223๋ฒ ๋
ผ๋ฌธ์ ๋ช
ํ์ฑ ์ง๋ฌธ(clarification question)์ ์ธํฐ๋ํฐ๋ธํ๊ฒ ์์ฑํ์ฌ, 172๋ฒ BoolQ๊ฐ ์ ์ํ๋ ์ฝ๊ธฐ ์ดํด ๊ธฐ๋ฐ ์/์๋์ค ์ง์ ๋ฌธ์ ์ ์ฐจ๋ณ๋ ์ ๊ทผ์ ์๋ํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
์ธ์ด๋ชจ๋ธ์ ๋
ํด ์ดํด ๋ฅ๋ ฅ์ ํ๊ฐํ๋ ๋์ ์ ์ธ ๋ฒค์น๋งํฌ๋ฅผ ์ ์ํ๋ ๊ด๋ จ ๋
ผ๋ฌธ์ด๋ค.
ํ์ ์ฐ๊ตฌ
441๋ฒ ๋
ผ๋ฌธ์ ๊ณผํ ์ฌ์ค ๊ฒ์ฆ์์ zero/few-shot ์ผ๋ฐํ ๋ฌธ์ ๋ฅผ ๋ค๋ฃจ์ด, 172๋ฒ์ด ๋ค๋ฃจ๋ ์์ฐ ๋ฐ์ ์/์๋์ค ์ง์์ ์ผ๋ฐํ ๋์ ๊ณผ ์ฐ๊ณ๋ฉ๋๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์