์ ์: Liangming Pan, Xiaobao Wu, Xinyuan Lu, Anh Tuan Luu, William Yang Wang, MinโYen Kan, Preslav Nakov | ๋ ์ง: 2023 | DOI: arXiv:2305.12744 📄 PDF
Essence
๋ณต์กํ ์ฃผ์ฅ(claim)์ ์ฌ์ค ํ์ธ์ ์ํด ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ ์ธ-์ปจํ
์คํธ ํ์ต(in-context learning) ๋ฅ๋ ฅ์ ํ์ฉํ์ฌ ์ถ๋ก ํ๋ก๊ทธ๋จ(reasoning program)์ ์์ฑํ๊ณ , ์ด๋ฅผ ํนํ๋ ํ์ ํ์คํฌ ํจ์๋ค๋ก ์์ฐจ์ ์ผ๋ก ์คํํ๋ ํ๋ก๊ทธ๋จ ๊ฐ์ด๋ ํฉํธ ์ฒดํน(PROGRAMFC) ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค. ์ด๋ ์ค๋ช
๊ฐ๋ฅ์ฑ๊ณผ ๋ฐ์ดํฐ ํจ์จ์ฑ์ ๋์์ ๋ง์กฑํ๋ฉด์ ๋ณต์กํ ๋ค๋จ๊ณ ์ถ๋ก ์ด ํ์ํ ์ฃผ์ฅ ๊ฒ์ฆ์์ ์ฐ์ํ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ค.
Evaluation
์ดํ: PROGRAMFC๋ ์ค๋ช
๊ฐ๋ฅ์ฑ๊ณผ ๋ฐ์ดํฐ ํจ์จ์ฑ์ ๋์์ ๋ฌ์ฑํ๋ฉด์ ๋ณต์กํ ์ฃผ์ฅ์ ์ฌ์ค ํ์ธ ์ฑ๋ฅ์ ํ์ ํ ๊ฐ์ ํ๋ ํ์ ์ ์ธ ํ๋ ์์ํฌ๋ก, ํ๋ก๊ทธ๋๋ฐ ํจ๋ฌ๋ค์์ ์ฐฝ์์ ์ ์ฉ๊ณผ LLM์ ์ธ-์ปจํ
์คํธ ํ์ต ๋ฅ๋ ฅ์ ํจ๊ณผ์ ์ผ๋ก ๊ฒฐํฉํ ์ ์์ ๋์ด ํ๊ฐ๋๋ค. ๋ค๋ง, cascade ์ค๋ฅ์ ๋ํ ๊ฐ๊ฑด์ฑ ๊ฐํ์ ํจ์ ๋ผ์ด๋ธ๋ฌ๋ฆฌ์ ํ์ฅ์ด ํฅํ ์ค๋ฌด ์ ์ฉ์ ํต์ฌ ๊ณผ์ ์ด๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
Fact-checking complex claims with program-guided reasoning ๋
ผ๋ฌธ์ ์๋ ์ฆ๊ฑฐ ๊ฒ์ฆ ํ๋ฆ ๋ฐ ์ฌ์ค ๊ฒ์ฆ์ ์์ด 448์ด ์ทจํ LLM ๊ธฐ๋ฐ ๊ฒ์ฌ ์คํ์ผ์ ์ด๋ก ยท๋ฐฉ๋ฒ๋ก ์ ๊ธฐ๋ฐ์ ๊ตฌ์ถํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
332๋ฒ ๋
ผ๋ฌธ์ ํ๋ก๊ทธ๋จ ๊ธฐ๋ฐ ๊ณผํ ํฉํธ์ฒดํน ๋ฐ ์ถ๋ก ํ๋ ์์ํฌ๋ฅผ ์ ์ํ์ฌ, 593๋ฒ์ ์ธ์ฉ ๊ธฐ๋ฐ ์๋ต๊ณผ ์ ๋ขฐ์ฑ ์ธก์ ์ ์ด๋ก ์ ๊ธฐ์ด๊ฐ ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
332 ๋
ผ๋ฌธ์ ํ๋ก๊ทธ๋จ ์ฃผ๋ํ ๋ณตํฉ ์ฃผ์ฅ ํฉํธ์ฒดํน ๊ธฐ๋ฒ์ ์๊ฐํ์ฌ 685์ fact detection ๊ธฐ๋ฐ ์ฆ๊ฑฐ ์ถ์ถ ์ ๊ทผ์ ๊ธฐ์ ์ ํ ๋๋ฅผ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๋ณต์กํ ๊ณผํ์ ์ฃผ์ฅ ๊ฒ์ฆ์ ์ํ ํ๋ก๊ทธ๋จ ๊ธฐ๋ฐ ์ถ๋ก ๊ณผ ๊ฒฐํฉ๋ ํฉํธ์ฒดํน ๋ฐฉ๋ฒ๋ก ์ ๊ธฐ๋ฐ์ ์ ์ํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
710์์ ๋ค๋ฃจ๋ ๊ณผํ ์ฃผ์ฅ ๊ฒ์ฆ์ ๊ทผ๊ฐ์ 332์ ๊ฐ์ ํ๋ก๊ทธ๋จ-์ ๋ ๊ธฐ๋ฐ ๋ณต์ก ์ฃผ์ฅ ํฉํธ์ฒดํน ๋
ผ์์ ๊ธฐ์ดํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๋ณต์กํ ์์ํ์ ์ฃผ์ฅ ์๋ ํฉํธ์ฒดํน๊ณผ ํ๋ก๊ทธ๋จ ๊ธฐ๋ฐ ์ถ๋ก ์ ๋ํ ์ด๋ก ์ ์ ๊ณตํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
Multivers ๋
ผ๋ฌธ์ ์ฝํ ๊ฐ๋
์ ์ด์ฉํด ๊ณผํ์ ์ฃผ์ฅ ๊ฒ์ฆ ์ฑ๋ฅ ํฅ์ ๋ฐฉ์์ ํ์ํ๋ฉฐ, PROGRAMFC ํ๋ ์์ํฌ์ ์์ดํ ๊ธฐ๊ณํ์ต ๊ธฐ๋ฐ ์ ๊ทผ์ ๋ณด์ฌ์ค๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋ ๋ค ๋ณต์ก ํด๋ ์ ์ฌ์ค๊ฒ์ฆ์์ LLM ๋ฅ๋ ฅ์ ํ์ฉํ์ง๋ง, 332๋ ํ๋ก๊ทธ๋จ ์์ฑ ๊ธฐ๋ฐ, 832๋ ๊ณ์ธต์ ์ธ์ปจํ
์คํธยท๊ฒ์ ํ๋กฌํํ
๋ฐฉ์์ ๋น๊ตํ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
ํ๋ก๊ทธ๋จ ๊ธฐ๋ฐ ๋ณตํฉ ์ฆ๊ฑฐ fact-checking ๋ฐฉ์์ผ๋ก, ๊ธฐ์กด fact verification๊ณผ reasoning integration์ ์ฐจ์ด๋ฅผ ๋ถ์ํ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
Lean-star ๋
ผ๋ฌธ์ ์ํ์ ์ ๋ฆฌ ์ฆ๋ช
๋ถ์ผ์์ LLM์ in-context ์ฌ๊ณ ์ถ๋ก ์ ๊ฐ์กฐํ๋ ๋์ , ๋ณธ ๋
ผ๋ฌธ์ ๊ตฌ์กฐํ ํ๋ก๊ทธ๋จ ์ถ๋ก (ProgramFC)์ผ๋ก ๋ณตํฉ์ ์ฌ์ค ๊ฒ์ฆ์ ๊ตฌํํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
Factkg ๋
ผ๋ฌธ์ ํ๋ก๊ทธ๋๋ฐ ์ ๋ ๊ธฐ๋ฐ ํฉํธ์ฒดํน์ผ๋ก, TrendFact์ ๋ค๋ฅธ ์๋ ํฉํธ ๊ฒ์ฆ ์ ๊ทผ ๋ฐฉ์์ ๋ณด์ฌ์ค๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
Fact-checking complex claims with program-guided reasoning์ ๋ณต์ก ์ฃผ์ฅ์ ๋ํด ํ๋ก๊ทธ๋จ์ ์ถ๋ก ์ ์ ๋ชฉํ ๋์ ๋ฐฉ๋ฒ์ ์ ์ํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
ํ๋ก๊ทธ๋๋ฐ ๊ธฐ๋ฐ ํ์ ์ฆ๊ฑฐ ์ถ์ถ์ ๊ธฐ๋ฐํ ๋ณต์กํ ์ฌ์ค ๊ฒ์ฆ ๊ธฐ๋ฒ์ ๋ค๋ฃจ๋ฉฐ, Pelican์์ ์ฝ๋ ๊ธฐ๋ฐ ์๊ฐ-์ธ์ด ๊ฒ์ฆ ์ฒด๊ณ์์ ๋น๊ต๊ฐ ๊ฐ๋ฅํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
Fact-checking complex claims with program-guided reasoning์ ํ๋ก๊ทธ๋๋ฐ ๊ธฐ๋ฐ์ ์ฃผ์ฅ ๊ฒ์ฆ ํ๋ ์์ํฌ๋ก, DEFAME์ ๋ฉํฐ๋ชจ๋ฌ ์ ๊ทผ๊ณผ ์ฐจ๋ณํ๋ฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
332๋ฒ ๋
ผ๋ฌธ์ ํ๋ก๊ทธ๋จ ๊ธฐ๋ฐ reasoning์ ํ์ฉํ ๊ณผํ์ ์ฃผ์ฅ fact-checking์ผ๋ก, 328๋ฒ์ SHAP+LLM ๊ธฐ๋ฐ ๊ฒ์ฆ๋ฒ์ ๋์์ ์ ๊ทผ๋ฒ์ ์ ๊ณตํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
FactKG ๋
ผ๋ฌธ์ ์ง์๊ทธ๋ํ ๊ธฐ๋ฐ์ผ๋ก ๋ณต์กํ ์ฌ์ค ๊ฒ์ฆ์ ์๋ํํ๋ฉฐ, ํํ ์ ๋ณด ์ถ์ถ๊ณผ ์ ์ ์ ์์ฉ๋ ์ ์๋ค.
ํ์ ์ฐ๊ตฌ
๋ณตํฉยท๊ณ ์ฐจ์ ์ฌ์ค ๊ฒ์ฆ ๋ฌธ์ ์์ ํ๋ก๊ทธ๋จ ๊ฐ์ด๋๋ ์ถ๋ก ๋ฑ ๋ณด๋ค ์ค์ฉ์ ์ด๊ณ ๋ฐ์ฆ ์ฆ๊ฑฐ๊ฐ ๋ถ์กฑํ ํ๊ฒฝ์ ๋ํ ๋ชจ๋ธ ์ ๊ทผ๋ฒ์ ์ ์ํ๋ค.
ํ์ ์ฐ๊ตฌ
Retrieval-Augmented Generation(RAG) ๊ธฐ๋ฐ ํฉํธ์ฒดํน ์ต์ ๊ธฐ๋ฒ๊ณผ ์ค์ ํ๋ก๊ทธ๋จ ๊ธฐ๋ฐ ์ถ๋ก ๋น๊ต๊ฐ ๊ฐ๋ฅํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
FactKG๋ ๊ทธ๋ํ ๊ธฐ๋ฐ ํฉํธ์ฒดํน ์์คํ
์ผ๋ก, ํ๋ก๊ทธ๋จ ๊ฐ์ด๋ ๊ธฐ๋ฐ ์ ๊ทผ๊ณผ์ ๋น๊ต ๋ฐ ํตํฉ ๋ฐฉ์ ํ์์ด ๊ฐ๋ฅํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
Augmenting the veracity and explanations ๋
ผ๋ฌธ์ LLM ๊ธฐ๋ฐ ๋ณตํฉ ์ฃผ์ฅ ์ฌ์ค๊ฒ์ฆ์ ์ค๋ช
์ฑ์ ๊ฐํํ๋ ๋ฐฉ๋ฒ๋ก ์ ์ ์ํด program-guided reasoning์ ์ฌํ์ํต๋๋ค.
ํ์ ์ฐ๊ตฌ
ํ๋ก๊ทธ๋จ ๊ธฐ๋ฐ ํฉํธ์ฒดํน ์๋ํ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ์ฌ, ์ ๋นํ ์ค๋ช
์์ฑ ๊ธฐ๋ฒ์ ์์ฉ๊ณผ ์๋ํ ๊ฐ๋ฅ์ฑ์ ์ค์ฆํ๋ค.
ํ์ ์ฐ๊ตฌ
332๋ฒ ๋
ผ๋ฌธ์ AI ๊ธฐ๋ฐ ๊ณผํ์ ์ฌ์ค ๊ฒ์ฆ์์ ๋ณต์กํ ์ํฐํฐ/๊ด๊ณ/์ฆ๊ฑฐ ๊ธฐ๋ฐ ์ถ๋ก ์ ๋ค๋ฃจ๋ฉฐ ์์ฉ ๋ถ์์ ๋ฒ์์ ๋์ด๋๋ฅผ ํ์ฅํฉ๋๋ค.
๋ฐ๋ก /๋นํ
ํฉํธ์ฒดํน์์ ๊ทผ๊ฑฐ ๋ถ์ถฉ๋ถ ์ ํ๊ณ์ ๋ณต์ก ์ฃผ์ฅ ๊ฒ์ฆ์ ์ค์ ๋ฌธ์ ๋ฅผ ๋ค๋ฃจ์ด ์๋ก ๋ณด์์ ์ผ๋ก ์ดํดํ ์ ์์ต๋๋ค.