Improving health question answering with reliable and time-aware evidence retrieval
์ ์: Juraj Vladika, Florian Matthes (Technical University of Munich) | ๋ ์ง: 2024 | DOI: 10.48550/arXiv.2404.08359 📄 PDF
Essence
Figure 1: The question-answering system used in our
๋ณธ ๋
ผ๋ฌธ์ open-domain health question answering ์์คํ
์์ retrieved evidence์ ํ์ง๊ณผ ์์ด QA ์ฑ๋ฅ์ ๋ฏธ์น๋ ์ํฅ์ ์ฒด๊ณ์ ์ผ๋ก ๋ถ์ํ๋ค. PubMed์ 2์ฒ๋ง ๊ฐ biomedical ๋
ผ๋ฌธ์ knowledge base๋ก ํ์ฉํ์ฌ ๋ฌธ์ ๊ฐ์, ๋ฐํ ์ฐ๋, ์ธ์ฉ ์ ๋ฑ์ retrieval ์ ๋ต์ด ์ต์ข
QA ์ฑ๋ฅ์ ๋ฏธ์น๋ ์ํฅ์ ์คํ์ ์ผ๋ก ํ๊ฐํ๋ค.
Motivation
- Known: Open-domain QA๋ large document corpus์์ ๊ด๋ จ evidence๋ฅผ ์ฐพ์์ผ ํ๋ retrieve-then-read ํ์ดํ๋ผ์ธ ๋ฐฉ์์ด ์ผ๋ฐ์ ์ด๋ฉฐ, ํนํ biomedical ๋ถ์ผ์์๋ ์๊ฐ์ ๋ฐ๋ผ clinical recommendations์ด ๋ณํ ์ ์์ด ์ต์ evidence ํ๋ณด๊ฐ ์ค์ํ๋ค.
- Gap: ๊ธฐ์กด ์ฐ๊ตฌ๋ค์ ์ผ๋ฐ์ ์ผ๋ก retrieved document ๊ฐ์๋ฅผ ๊ณ ์ ๊ฐ(5๊ฐ ๋๋ 6๊ฐ)์ผ๋ก ์ค์ ํ๊ฑฐ๋, closed-domain ์ค์ ์์๋ง ์๊ฐ ๊ด๋ จ ์์๋ฅผ ํ์ํ์ผ๋ฉฐ, biomedical questions์ ๋ํ ์๊ฐ ์ธ์์ retrieval๊ณผ ๋ค์ํ document quality ์งํ์ ์ํฅ์ ํตํฉ์ ์ผ๋ก ๋ถ์ํ ์ฐ๊ตฌ๊ฐ ๋ถ์กฑํ๋ค.
- Why: Health QA๋ ์ฌ์ฉ์๊ฐ ์จ๋ผ์ธ์์ ์ ๋ขฐํ ์ ์๋ ์๋ฃ ์ ๋ณด๋ฅผ ์ป๋ ๋ฐ ํ์์ ์ด๋ฉฐ, retrieval ๋จ๊ณ์ ํ์ง์ด ์ต์ข
answer์ ์ ํ์ฑ์ ๊ฒฐ์ ํ๊ธฐ ๋๋ฌธ์, retrieved evidence์ ๋ค์ํ ํน์ฑ(์, ์ต์ ์ฑ, ์ ๋ขฐ๋)์ด QA ์ฑ๋ฅ์ ๋ฏธ์น๋ ์ํฅ์ ์ดํดํ๋ ๊ฒ์ ์์์ ์ผ๋ก ์ ๋ขฐํ ์ ์๋ ์์คํ
๊ฐ๋ฐ์ ๋งค์ฐ ์ค์ํ๋ค.
- Approach: ์ธ ๊ฐ์ ๋ค์ํ biomedical/health ์ง๋ฌธ dataset์ ๋ํด retrieve-then-read QA ํ์ดํ๋ผ์ธ์ ๊ณ ์ ๋ reader๋ก ์ ์งํ๋ฉด์ retrieval ์ค์ (retrieved document ๊ฐ์, ์ถ์ถ sentence ๊ฐ์, ๋ฐํ ์ฐ๋, ์ธ์ฉ ์)์ ์ฒด๊ณ์ ์ผ๋ก ๋ณ๊ฒฝํ์ฌ ๊ฐ ์์๊ฐ precision, recall, F1 metric์ ๋ฏธ์น๋ ์ํฅ์ ์ธก์ ํ๋ค.
Achievement
Figure 1: The question-answering system used in our
Retrieved document ๊ฐ์ ์ต์ ํ: ๋ฌธ์ ๊ฐ์๋ฅผ ์ค์์ผ๋ก์จ ์ต๋ 10% ์ฑ๋ฅ ํฅ์. ์๊ฐ ์ธ์์ retrieval: ์ต๊ทผ ๋ฐํ ๋
ผ๋ฌธ๊ณผ ๋์ ์ธ์ฉ ์์ document๋ฅผ ์ฐ์ ํ๋ฉด QA ์ฑ๋ฅ ๊ฐ์ . ๋๊ท๋ชจ evidence corpus: PubMed 2์ฒ๋ง ๊ฐ ๋
ผ๋ฌธ์ผ๋ก open-domain health QA ํ๊ฐ. ์ ์ฑ์ ๋ถ์: evidence disagreement ๋ฑ ์ค์ ๋ฌธ์ ์ ํ์
๋ฐ ๋ฏธ๋ ์ฐ๊ตฌ ๋ฐฉํฅ ์ ์.
How
Figure 1: The question-answering system used in our
โข ์ธ ๊ฐ์ health/biomedical question dataset(์ง๋ฌธ๊ณผ yes/no ๋ต๋ณ ํฌํจ)์ผ๋ก ์คํ ์ํ
โข PubMed ์ ์ฒด corpus๋ฅผ knowledge base๋ก indexing
โข Retrieved document ๊ฐ์(1~100๊ฐ)์ extracted sentence ๊ฐ์๋ฅผ ๋ณ์๋ก ์ค์
โข Document์ publication year์ citation count ๊ธฐ๋ฐ ํํฐ๋ง ๋ฐ ์ฌ์์ํ
โข Precision, Recall, macro F1์ ํ๊ฐ ์งํ๋ก ์ฌ์ฉ
โข Reader ๋ชจ๋์ ๊ณ ์ ํ๊ณ retrieval ์ค์ ๋ง ๋ณ๋
Originality
โข Biomedical questions์ ๋ํด ์ฒ์์ผ๋ก temporal aspect(๋ฐํ ์ฐ๋)๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ํ์
โข Retrieved document ๊ฐ์๋ฅผ ๊ณ ์ ํ์ง ์๊ณ ์ต์ ๊ฐ์ ์ฐพ๋ ์คํ์ ์ ๊ทผ
โข Citation count ๋ฑ evidence quality ์งํ๋ฅผ ํตํฉ์ ์ผ๋ก ๋ถ์
โข PubMed ์ ์ฒด 2์ฒ๋ง ๊ฐ ๋
ผ๋ฌธ์ ํ์ฉํ largest document collection ์ฌ์ฉ
Limitation & Further Study
โข ์ธ ๊ฐ dataset๋ง ์ฌ์ฉํ์ฌ ๊ฒฐ๊ณผ์ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ ์ ํ. โข Closed-domain QA์์ gold evidence๊ฐ ์ ๊ณต๋๋ฏ๋ก real open-domain ์ฑ๋ฅ๊ณผ ๊ดด๋ฆฌ ๊ฐ๋ฅ. โข Evidence disagreement์ ๋ํ ์ ์ฑ์ ๋ถ์๋ง ์ ์๋๊ณ ํด๊ฒฐ ๋ฐฉ์ ๋ฏธ์ ์. โข Reader ๋ชจ๋์ ์ ํ(ํน์ architecture)์ ๋ฐ๋ฅธ ๊ฒฐ๊ณผ ๋ฏผ๊ฐ๋ ๋ถ์ ๋ถ์ฌ. โข ์ถํ ์ฐ๊ตฌ๋ก user-friendly explanation ์์ฑ ๋ฉ์ปค๋์ฆ ๊ฐ๋ฐ ํ์.
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ health QA์์ retrieval ์ ๋ต์ ์ํฅ์ ์ฒด๊ณ์ ์ผ๋ก ํ๊ฐํ ์ค์ฉ์ ๊ฐ์น ๋์ ์ฐ๊ตฌ๋ก, ์ต์ ๋ฐ ๋์ธ์ฉ document ์ฐ์ ์ ์ ๋ต์ด QA ์ฑ๋ฅ์ 10% ํฅ์์ํฌ ์ ์์์ ์
์ฆํ๋ค. ๋ค๋ง ๊ฒฐ๊ณผ์ ์ผ๋ฐํ์ evidence disagreement ํด๊ฒฐ์ ๋ํ ๊น์ด ์๋ ๋
ผ์๊ฐ ์ถ๊ฐ๋๋ฉด ๋์ฑ ์์ฑ๋ ๋์ ์ฐ๊ตฌ๊ฐ ๋ ์ ์๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
PubMedQA๋ ์์ํ ๋
ผ๋ฌธ ๊ธฐ๋ฐ ๊ฑด๊ฐ ์ง๋ฌธ ์๋ต์ ๋ํ์ ๋ฐ์ดํฐ์
์ผ๋ก, 424 ๋
ผ๋ฌธ์ ์ฆ๊ฑฐ ๊ฒ์ ์ ๋ต ์ฐ๊ตฌ์ ๋ฐ์ดํฐ ๊ธฐ๋ฐ์ด ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Large Language Models are Zero Shot Hypothesis Proposers ๋
ผ๋ฌธ์ LLM์ ๊ณผํ์ ์ง์ยท๊ฐ์ค ์์ฑ ๋ฅ๋ ฅ์ ์ด๋ก ์ ๊ทผ๊ฑฐ๋ฅผ ์ ๊ณตํ์ฌ, ์ ๋ขฐ์ฑยท์๊ฐ์ ๋ณด ํตํฉ QA ๊ฐ์ ์ ํ ๋๋ฅผ ๋ง๋ จํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
LLM ๊ธฐ๋ฐ QA ์์คํ
์์ ์ฆ๊ฑฐ ๊ฒ์ ์ ๋ต์ ๋ฐ๋ฅธ ๋ต๋ณ ์ ๋ขฐ๋ ๋ณํ ์ค์ฆ์ฐ๊ตฌ๋ก, 500์ ์๋ ๊ณผํ ์ฃผ์ฅ ๊ฒ์ฆ ํ๋ ์์ํฌ ์ค๊ณ์ ๋ฐ์ดํฐ ๋ฐ ๊ฒฐ๊ณผ์ ๊ธฐ๋ฐ์ ์ ๊ณตํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
PaperQA๋ ๊ณผํ์ ์ง์์๋ต์์ RAG ๊ธฐ๋ฐ LLM ์ฆ๊ฑฐ ๊ฒ์ ๊ฐํ ๊ธฐ๋ฒ์ ์ ์ํ์ฌ, ๊ฑด๊ฐ QA์ ํนํ๋ ๋ณธ ๋
ผ๋ฌธ์ ๋ฐฉ๋ฒ๊ณผ ๋น๊ต๊ฐ ๊ฐ๋ฅํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
์๋ฃ ๋ฌธํ ๋ถ๋ฅ ๋ฐ ์คํฌ๋ฆฌ๋์์ ๋๊ท๋ชจ ์ธ์ด๋ชจ๋ธ์ ์ฑ๋ฅ์ ํ๊ฐํ๋ ๊ด๋ จ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
DEFAME๋ ๊ฑด๊ฐยท๊ณผํ ์ง๋ฌธ์ ๋ํ ๋ค์ค๋ชจ๋ฌ ๊ทผ๊ฑฐ ๊ธฐ๋ฐ ํฉํธ์ฒดํน์ ๋ค๋ฃจ๋ฉฐ, 424์ ์ ์ฌํ ๋ฌธ์ ๋ฅผ ๋ฉํฐ๋ชจ๋ฌ๋ก ํ์ฅํ ์ ๊ทผ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
์์ํ ๋ถ์ผ์์ RAG์ ์ง์ ๊ทธ๋ํ๋ฅผ ๊ฒฐํฉํ ์ ๋ณด ๊ฒ์ ๋ฐ ์ถ๋ก ์ ๋ค๋ฃจ๋ ์ ์ฌํ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM์ ํ์ ํ๊ฐ ๋ฅ๋ ฅ์ ๊ฒ์ฆํ๋ ์ ์ฌํ ์ฐ๊ตฌ์ด๋ค.
ํ์ ์ฐ๊ตฌ
500 ๋
ผ๋ฌธ์ LLM๊ธฐ๋ฐ RAG์ ์ฆ๊ฑฐ ๊ฒ์๊ณผ ๋ฐ๋ฐ/์ง์ง ์ฆ๊ฑฐ ์๋ ํ๋ณ์ ์ ์ํ์ฌ, 424์ ๊ณผํ์ Q&A ์ ๋ขฐ์ฑ ํฅ์ ์ฐ๊ตฌ๋ฅผ ์ต์ LLM ํ์ฉ ๊ด์ ์์ ํ์ฅํ๋ค.
์์ฉ ์ฌ๋ก
Sciclaimhunt ๋
ผ๋ฌธ์ ์ฆ๊ฑฐ๊ธฐ๋ฐ ๊ณผํ ์ฃผ์ฅ ๊ฒ์ฆ ๋ฐ์ดํฐ์
์ ์ ์ํ์ฌ, ๋ณธ ๋
ผ๋ฌธ์์ ๊ฐ์กฐํ PubMed ๊ธฐ๋ฐ ๊ฑด๊ฐ ์ง๋ฌธ ์๋ต ์์คํ
์ ํ๊ฐ ๋ฐ ์์ฉ์ ๋์์ด ๋ฉ๋๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์