์ ์: Jack Boylan, Shashank Mangla, Dominic Thorn, Demian Gholipour Ghalandari, Parsa Ghaffari, Chris Hokamp (Quantexa) | ๋ ์ง: 2024 | DOI: arXiv:2404.15923 📄 PDF
Essence
์ง์ ๊ทธ๋ํ ํธ๋ฆฌํ ๊ฒ์ฆ์ ์ํ ํ๋ ์์ํฌ: ์ธ๋ถ ๋ฐ์ดํฐ(์น, Wikidata, ๋ฌธ์)์ LLM์ ํ์ฉํ์ฌ ๊ฒ์ฆ๋์ง ์์ ํธ๋ฆฌํ์ ๊ฒ์ฆ๋ ํธ๋ฆฌํ๋ก ๋ณํ
๋ณธ ๋
ผ๋ฌธ์ ๋๊ท๋ชจ ์ธ์ด๋ชจ๋ธ(LLM)์ ํ์ฉํ์ฌ ์ง์ ๊ทธ๋ํ(Knowledge Graph, KG) ์์ฑ ๋ชจ๋ธ์ ์๋์ผ๋ก ๊ฒ์ฆํ๋ ํ๋ ์์ํฌ์ธ KGValidator๋ฅผ ์ ์ํ๋ค. ๊ธฐ์กด์ ์ธ๊ฐ ์ฃผ์์ ์์กดํ๋ ๊ฒ์ฆ ๋ฐฉ์์ LLM ๊ธฐ๋ฐ์ ์์ฑ ์์ด์ ํธ๋ก ๋์ฒดํ ์ ์์์ ๋ณด์ฌ์ค๋ค.
Evaluation
์ดํ: KGValidator๋ LLM์ ํ์ฉํ KG ๊ฒ์ฆ ์๋ํ๋ผ๋ ์ค์ฉ์ ๋ฌธ์ ํด๊ฒฐ ๋ฐฉ์์ ์ ์ํ์ง๋ง, ์ ๋์ ํ๊ฐ ๊ฒฐ๊ณผ์ ๊ตฌํ ๊ณต๊ฐ ์ ์ฝ์ผ๋ก ์ธํด ํ์ ์ ๊ธฐ์ฌ๋๋ ์ค๊ฐ ์์ค์ด๋ค. ์ฐ์
์ ์ฉ ๊ฐ์น๋ ๋์ผ๋ ์ฌํ์ฑ๊ณผ ๊ธฐ์ ์ ์๋ฐ์ฑ ์ธก๋ฉด์์ ๊ฐ์ ์ด ํ์ํ๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
Fact-checking complex claims with program-guided reasoning ๋
ผ๋ฌธ์ ์๋ ์ฆ๊ฑฐ ๊ฒ์ฆ ํ๋ฆ ๋ฐ ์ฌ์ค ๊ฒ์ฆ์ ์์ด 448์ด ์ทจํ LLM ๊ธฐ๋ฐ ๊ฒ์ฌ ์คํ์ผ์ ์ด๋ก ยท๋ฐฉ๋ฒ๋ก ์ ๊ธฐ๋ฐ์ ๊ตฌ์ถํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
005 ๋
ผ๋ฌธ์ ๋กฑ ์ปจํ
์คํธ LLM์ ์ธ์ด ๋ชจ๋ธ๋ง ๊ธฐ๋ฐ ์ ๋ณด๋ฅผ ์ฌ์ธต ๋ถ์ํ์ฌ KGValidator๊ฐ ํ์ฉํ๋ LLM์ ์ฅ๋จ์ ์ดํด์ ๊ธฐ๋ฐ์ ์ ๊ณตํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
333 ๋
ผ๋ฌธ์ ๋ณตํฉ์ ์ธ ์ฃผ์ฅ ๊ฒ์ฆ์ ์ํด ์ง์ ๊ทธ๋ํ ๊ธฐ๋ฐ ์ถ๋ก ๋ฐฉ์์ ํ์ฉํ์ง๋ง, KGValidator์ ๋ฌ๋ฆฌ LLM ๊ธฐ๋ฐ ์์ฑํ ์์ด์ ํธ๋ฅผ ์ฌ์ฉํ์ง ์๋ ์ ์์ ๋ค๋ฅธ ์ ๊ทผ์
๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM ๊ธฐ๋ฐ ํ์ ์ง์ ๊ทธ๋ํ ์ง์์๋ต ๋ฐฉ๋ฒ ์ฐ๊ตฌ๋ก, LLM์ด ์ง์ ๊ฒ์ฆ์ ์ด๋ป๊ฒ ํ์ฉ๋ ์ ์๋์ง ๋์ ์ฌ๋ก๋ฅผ ์ ์ํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
Claimver๋ ์ง์๊ทธ๋ํ ๊ธฐ๋ฐ์ ์๋ ์ฃผ์ฅ ๊ฒ์ฆ ์์คํ
์ผ๋ก, 448์ LLM ๊ธฐ๋ฐ KG ์์ฑ ๊ฒ์ฆ ํ๋ ์์ํฌ์ ์ ๊ทผ๋ฒ์ ์ฐจ์ด๊ฐ ๋น๊ต๋ฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
448(KGValidator)์ ์๋ํ๋ ์ง์๊ทธ๋ํ ๊ฒ์ฆยท์ฌ์ค์ฑ ์ ๊ฒ ์ ์ฐจ๋ฅผ ์ค๊ณํด, 500์ ๊ณผํ์ ์ฃผ์ฅ ๋ฐ ์ฆ๊ฑฐ ํ์/๋ฐ๋ฐ ์ฒด๊ณ์ ๋๋ค๋ฅธ ๊ฒ์ฆ ์ธํ๋ผ๋ฅผ ์ ๊ณตํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
448๋ฒ์ AI ์์ด์ ํธ๊ฐ ์ง์๊ทธ๋ํ ๊ธฐ๋ฐ ์ ๋ณด ๊ฒ์ฆยท์ ํจ์ฑ ํ๊ฐ๋ฅผ ๋ค๋ฃจ์ด 613๋ฒ์ PGraphRAG ์์คํ
๊ณผ ๋ค๋ฅธ ๊ด์ ์์ ๊ทธ๋ํ ํ์ฉ๋ฒ์ ๋ณด์ฌ์ค๋ค.
ํ์ ์ฐ๊ตฌ
448 ๋
ผ๋ฌธ์ LLM ๊ธฐ๋ฐ ์ง์ ๊ทธ๋ํ ๊ฒ์ฆ์ 810๋ฒ ๋
ผ๋ฌธ์์ ๊ฐ์กฐํ๋ LLM ์ ๋ขฐ์ฑ ๋ฐ ์์ ์ฑ ํต์ฌ ์ญ๋ ํ๊ฐ ์ฒด๊ณ์ ์ผ๋ถ๋ก ํ์ฅ๋ฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
KGValidator๋ LLM์ ํ์ฉํ ์ง์๊ทธ๋ํ ๊ฒ์ฆ ํ๋ ์์ํฌ๋ก์จ, 057์ ๋ถ๋ถ์๋ ํฉํธ์ฒดํน์ ์๋ํ๋ KG ๊ธฐ๋ฐ์ผ๋ก ํ ๋จ๊ณ ํ์ฅํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
์ง์๊ทธ๋ํ์ ์๋ ๊ฒ์ฆ/ํตํฉ์ ๋ชฉํ๋ก ํ๋ ํ๋ ์์ํฌ๋ฅผ ํตํด Graphusion์ ์ ์ญ์ ๊ด์ KG ๊ตฌ์ถ ๋ฐฉ๋ฒ์ด ์ด๋ป๊ฒ ์ ์ฉ๋ ์ ์๋์ง ์๋ดํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
KGValidator ๋
ผ๋ฌธ์ ๊ณผํ ๋ฌธํ ๊ธฐ๋ฐ ๋ชจ๋ธ ๋ฐ ์ ๋ณด์ ์ ๋ขฐ์ฑ ์๋ ๊ฒ์ฆ ๊ธฐ๋ฒ์ ๊ฐ๋ฐํด ๊ตฌ์ฑ ๋ชจ๋ธ ์ถ์ถ ์๋ํ์ ๋ํ ํ์ง ํ๊ฐ์ ๋ณด์์ด ๊ฐ๋ฅํฉ๋๋ค.
๋ฐ๋ก /๋นํ
541 ๋
ผ๋ฌธ์ NLP ๊ธฐ๋ฐ ํฉํธ์ฒดํน์ ํ๊ณ(๋ฐ์ฆ ๊ทผ๊ฑฐ ๋ถ์ฌ)๋ฅผ ๋นํํ๋ฉฐ, KGValidator์ LLM ๊ธฐ๋ฐ ๊ฒ์ฆ์ด ์ค์ง์ ์ ๋ขฐ์ฑ์ ํ๋ณดํ๋์ง ์ฌ๊ณ ํด๋ณผ ๊ทผ๊ฑฐ๋ฅผ ์ ๊ณตํฉ๋๋ค.