์ ์: Jakub Lรกla, Odhran O'Donoghue, Aleksandar Shtedritski, Sam Cox, Samuel G. Rodriques, Andrew Dickson White | ๋ ์ง: 2023 | DOI: N/A 📄 PDF
Essence
PaperQA๋ ๊ณผํ ๋
ผ๋ฌธ ๊ฒ์ ๋ฐ ํฉ์ฑ์ ํตํด ๊ณผํ์ ์ง๋ฌธ์ ๋ต๋ณํ๋ ์์ด์ ํธ ๊ธฐ๋ฐ ๊ฒ์ ์ฆ๊ฐ ์์ฑ(RAG) ์์คํ
์ด๋ค. ๋๊ท๋ชจ์ธ์ด๋ชจ๋ธ(LLM)์ ํ๊ฐ(hallucination) ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋ชจ๋ํ๋ RAG ์ปดํฌ๋ํธ๋ฅผ ํ์ฉํ์ฌ ์ ๋ฌธ๊ฐ ์์ค์ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ค.
Evaluation
์ดํ: PaperQA๋ ๋ชจ๋ํ๋ ์์ด์ ํธ ๊ธฐ๋ฐ RAG๋ฅผ ํตํด ๊ณผํ ๋ฌธํ ๊ธฐ๋ฐ ์ง๋ต์์ ์ธ๊ฐ ์ ๋ฌธ๊ฐ ์์ค์ ์ฑ๋ฅ์ ๋ฌ์ฑํ ์ค์ง์ ๊ธฐ์ฌ๋ก, LitQA๋ผ๋ ์๋ก์ด ๋ฒค์น๋งํฌ ๋์
์ผ๋ก ๋ถ์ผ ๋ฐ์ ์ ์ด๋งค ์ญํ ์ ํ ๊ฒ์ผ๋ก ๊ธฐ๋๋๋ค. ๋ค๋ง ์ธ๋ถ API ์์กด์ฑ๊ณผ ๊ณ์ฐ ๋น์ฉ ์ต์ ํ ์ธก๋ฉด์์์ ์ถ๊ฐ ์ฐ๊ตฌ๊ฐ ํ์ํ๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
Retrieval-Augmented Generation for Large Language Models ๋
ผ๋ฌธ์ PaperQA๊ฐ ํ์ฉํ๋ retrieval-augmented generation์ ์ด๋ก ์ ๋ฐฐ๊ฒฝ์ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
PaperQA๋ ๊ณผํ ๋ฌธํ ๊ฒ์ ๋ฐ ์์ฝ์ ์ํ ์ด๊ธฐ retrieval-augmented LLM ๊ธฐ๋ฐ ์์ด์ ํธ๋ก, PaperQA2 ๊ฐ๋ฐ์ ๊ธฐ์ ์ ์ถ๋ฐ์ ์ด ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
RAG(๊ฒ์์ฆ๊ฐ์์ฑ)์ ๊ธฐ๋ฐํ ํ์ ์ ์ง์ ์๋ต ์์คํ
์ผ๋ก, Agent-enhanced LLM์ ์ ์ฉ ๊ฐ๋ฅํ ๊ฒ์ ๋ฐ ์์ฝ ์ ๋ต์ ์ ๊ณตํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
Agent-RAG ๋ฐฉ์์ ํ์ฉํ ๋
ผ๋ฌธ ์ง์์๋ต์์ LLM์ ๋ฌธ์ ์ดํด๋ ฅ ํ๊ณ์ ๊ฐ๋ฅ์ฑ์ ๋น๊ตํ ์ฐ๊ตฌ์ฌ์ ์๋ก ๋ค์ํ ์ฝ๋ฉ/๋ถ์ ์
๋ฌด ์ํ๋ฅ๋ ฅ ๋น๊ต์ ๋์์ ์ค๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
602๋ฒ PaperQA๋ ๊ฒ์ ์ฆ๊ฐ LLM ๊ธฐ๋ฐ์ ๊ณผํ์ ์ง์์๋ต ์์คํ
์ ์ ์ํ์ฌ, 593๋ฒ OpenScholar์ ์ ์ฌํ ๋ชฉํ์ด์ง๋ง ์ํคํ
์ฒ์ ์คํ์ด ๋ค๋ฆ
๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๊ณผํ์ ์ฅ๋ฌธ ์์ฑ์์ RAG ๊ธฐ๋ฐ ์์ฑํ ์์ด์ ํธ(PaperQA)๋ก, ์ํค ์์ค ๊ธฐ์ฌ ์์ฑ์ ์ํ ์ ๋ณด ์์ง๊ณผ ํฉ์ฑ ๋ฌธ์ ์ ์๋ก ๋ค๋ฅธ ์ ๊ทผ์ ์ทจํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
PaperQA๋ ๊ณผํ์ ์ง์์๋ต์์ RAG ๊ธฐ๋ฐ LLM ์ฆ๊ฑฐ ๊ฒ์ ๊ฐํ ๊ธฐ๋ฒ์ ์ ์ํ์ฌ, ๊ฑด๊ฐ QA์ ํนํ๋ ๋ณธ ๋
ผ๋ฌธ์ ๋ฐฉ๋ฒ๊ณผ ๋น๊ต๊ฐ ๊ฐ๋ฅํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
602๋ ๋
ผ๋ฌธ ๊ฒ์์ RAG ๊ธฐ๋ฐ ์์ด์ ํธ๋ฅผ ๋์
ํด ๊ฒ์๊ฒฐ๊ณผ๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ์์ฝยท์ ๋ ฌํ๋ ์ ๊ทผ์ผ๋ก, 450 ๋
ผ๋ฌธ์ LLM+ํด๋ฌ์คํฐ ๋ฐฉ๋ฒ๊ณผ ์ ์ฌ ๋ชฉ์ ์ ๋ค๋ฅธ ๋ฐฉ์์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
๊ณผํ์ ์ง์์๋ต ์์ฑ์ retrieval+generation ์์ด์ ํธ ๊ตฌ์กฐ๋ฅผ ์ ์ฉ, ๋ฐ์ดํฐ ์ฃผ์ ๊ฐ์ ๋ชฉ์ ์์์ ๋ค์ํ agentic ์ ๋ต์ ๋น๊ตํ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
From large language models to multimodal AI: A scoping review ๋
ผ๋ฌธ์ PaperQA ์์คํ
์ด ์ค์ ๊ณผํ ์ฐ๊ตฌ ์๋ฌด์ ์ด๋ป๊ฒ ์ ์ฉ๋๋์ง ๊ณ ์ฐฐํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
PaSa๋ LLM ๊ธฐ๋ฐ ์์ด์ ํธ์ ๋
ผ๋ฌธ ๊ฒ์ ์๋ํ์ ์ค์ ์ ๋์ด, PaperQA์ ์ง์์๋ต ์์คํ
๊ณผ ๋น๊ต๋๋ ๊ฒ์ ํนํ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
๊ณผํ๋
ผ๋ฌธ์์ Retrieval-Augmented Generation ๊ธฐ๋ฒ์ ๋ค์ํ ๋ฐฉ์์ผ๋ก ์ ์ฉํ๋ฏ๋ก, Future Work ์๋ ์์ฑ๊ณผ ๊ฐ์ downstream task์์ ์์ฉ ๋น๊ต์ ์ ํฉํจ.
๋ค๋ฅธ ์ ๊ทผ
๊ณผํ๋
ผ๋ฌธ QA์ RAG ๊ตฌ์กฐ๋ฅผ ๋ค๋ฃจ์ง๋ง HiPerRAG ๋์ PaperQA๋ ์์ด์ ํธ ๊ธฐ๋ฐ ์ ๊ทผ์ ํตํด ์ฆ๊ฑฐ ์ถ์ถ๊ณผ ๋ต๋ณ์ ๋ค๋ฃจ์ด, ๋ฐ์ดํฐ ์ฒ๋ฆฌ ๊ท๋ชจ ๋ฐ ๊ตฌ์กฐ์ ์ธก๋ฉด์ด ๋ค๋ฆ
๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
602 ๋ํ RAG ๊ธฐ๋ฐ ๋
ผ๋ฌธ ์ง์์๋ต ์์คํ
์ผ๋ก, 087๊ณผ ๋ค๋ฅด๊ฒ ์์ด์ ํธ ๊ธฐ๋ฐ ์ ๊ทผ์ ์๋ํด ์๋ก ๋น๊ต ๊ฐ๋ฅํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
๊ณผํ ๋ฌธํ ๊ฒ์ยท์์ฝ์ Retrieval-Augmented Generation(RAG)์ ํ๋ ์์ํฌ๋ก ์ ์ฉํ ์ฌ๋ก๋ก, XSum๊ณผ์ ๊ตฌ์กฐ์ ์ฐจ์ด๋ฅผ ๋น๊ตํ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
602 ๋
ผ๋ฌธ์ ๋
ผ๋ฌธ ์ง์์๋ต์ ์ํ RAG ๊ธฐ๋ฐ ์์ฑํ ์์คํ
์ ์ ์ํด, 702์ ํ์ ์ ์ ๋ณด ๊ฒ์ ๋ฐ ์ธ์ฉ ๊ธฐ๋ฅ์ ๋ค๋ฅธ ์ ๊ทผ์ ์ ์ํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
602๋ฒ ๋
ผ๋ฌธ์ ๊ณผํ ๋ฌธํ์ ๊ฒ์ ๋ฐ RAG ๋ฐฉ์์ ํ์ฉํด, 569๋ฒ์ ๋๋
ธ์ฌ๋ฃ ์ค๊ณ RAG ์์คํ
๊ณผ ๋น๊ต๊ฐ ๊ฐ๋ฅํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM ๊ธฐ๋ฐ ๋ฌธํ ๊ฒ์ ๋ฐ ๋ถ์ ํ์ดํ๋ผ์ธ์ ์ ์ฌํ ๋ฌธ์ ๋ฅผ ๋ค๋ฅด๊ฒ ์ ๊ทผํ๋ค.
ํ์ ์ฐ๊ตฌ
PaperQA ๋
ผ๋ฌธ์ ๊ณผํ์ ์ฃผ์ฅ์ ๋ํ ๊ฒ์ ์ฆ๊ฐ ์์ฑ ๋ฐฉ์์ผ๋ก Multivers์ ์ ์ฒด๋งฅ๋ฝ ์ฆ๊ฑฐ ํ์ฉ ๊ฐ๋
์ ๋์ฑ ๊ณ ๋ํํ ์ค์ ์ ํ์ฅ์
๋๋ค.
ํ์ ์ฐ๊ตฌ
602๋ ๋
ผ๋ฌธ ๊ธฐ๋ฐ ์ง์์๋ต์ RAG ํ๋ ์์ํฌ๋ก ๊ตฌํ, 730์ด ์์ฑํ QA ๋ฐ์ดํฐ๋ฅผ ์ค์ ์์คํ
์ ์ ์ฉํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
Language agents achieve superhuman synthesis ๋
ผ๋ฌธ์ PaperQA์ retrieval-augmented ์์ด์ ํธ ๊ฐ๋
์ ๊ณ ๋ํํ์ฌ ๋ฐ์ฌ ์์ค ๊ณผํ ์์ฝ๊ณผ ๋ชจ์ ํ์ง๊น์ง ํ์ฅํ๋ค.
ํ์ ์ฐ๊ตฌ
๊ณผํ ๋ถ์ผ LLM ๋ฒค์น๋งํฌ๋ฅผ ํน์ ๋๋ฉ์ธ ์ง์ ํ๊ฐ๋ก ํ์ฅํ๋ ์ฐ๊ตฌ์ด๋ค
ํ์ ์ฐ๊ตฌ
602๋ฒ์ ๊ณผํ ๋
ผ๋ฌธ ์ง์์๋ต ๋ฐ ์ ๋ณด ์ถ์ถ์ Retrieval-Augmented Generation์ ์ ์ฉํ๋ฉด์, 224๋ฒ CLEAR ํ์ดํ๋ผ์ธ๊ณผ ์ ๋ชฉ ๊ฐ๋ฅ์ฑ์ด ๋๋ค.
ํ์ ์ฐ๊ตฌ
PaperQA ๋
ผ๋ฌธ์ RAG ๊ธฐ๋ฐ ๋
ผ๋ฌธ ์ง์์๋ต ์์คํ
์ ํตํด ๋
ผ๋ฌธ ๋ด์ฉ์ ์๋ฏธ์ ์ดํด ๋ฐ ์ํฅ๋ ฅ ํ๋จ์ผ๋ก MIRAI์ ์๋ ์ํฅ๋ ฅ ์์ธก ๊ธฐ๋ฅ์ ์ค์ ์์ฉ์ผ๋ก ํ์ฅํ๋ค.
์์ฉ ์ฌ๋ก
PaperQA๋ ํ์ ๋ฌธํ ๊ฒ์์ retrieval-augmented generation(RAG) ์์คํ
์ ์ ์ฉํ์ฌ SPLADE ๋ฐฉ์์ ์ค์ ์ฌ์ฉ์ ๋ณด์ฌ์ค๋ค.
์์ฉ ์ฌ๋ก
PaperQA๋ RAG ๊ธฐ๋ฐ ์์ด์ ํธ ์์คํ
์ ์ค์ ๋
ผ๋ฌธ ์ง์์๋ต์ ์ ์ฉํ ์ฌ๋ก๋ก, ์ค์ฉ์ ํ์ฉ ๋ฐฉ์์ ๋ค๋ฃฌ๋ค.