Essence
๊ทธ๋ฆผ 1: PolitiFact์ ๊ฑฐ์ง ์ฃผ์ฅ. ๋ฐ๋ฐ ์ฆ๊ฑฐ๋ฅผ ์ฐพ๊ธฐ ์ด๋ ค์ด ๊ฒฝ์ฐ, ์ฌ์คํ์ธ์๋ค์ ์ฃผ์ฅ์ ๊ทผ๊ฑฐ๊ฐ ๋ ๊ฐ์ ์ ๋ฐ๋ฐํจ์ผ๋ก์จ ๊ฑฐ์ง์ ์ฆ๋ช
ํ๋ค.
ํ์ฌ์ NLP ๊ธฐ๋ฐ ์ฌ์คํ์ธ(fact-checking) ์ ๊ทผ๋ฒ์ ๋ฐ๋ฐ ์ฆ๊ฑฐ(counter-evidence)์ ์กด์ฌ๋ฅผ ๊ฐ์ ํ์ง๋ง, ์ค์ ๋ฏธ์ ๋ณด(misinformation)๋ ์ ๋ขฐํ ๋งํ ์ฆ๊ฑฐ๊ฐ ๋ถ์กฑํ ํ๊ฒฝ์์ ๋ฐ์ํ๊ธฐ ๋๋ฌธ์ ํ์ค์ ์ด์ง ์๋ค. ๋ณธ ๋
ผ๋ฌธ์ ๊ธฐ์กด ์ฌ์คํ์ธ ๋ฐ์ดํฐ์
๋ค์ด ๋ชจ๋ ํ์ค์ ์๊ตฌ์ฌํญ์ ๋ง์กฑํ์ง ๋ชปํจ์ ๋ณด์ด๊ณ , ๋ชจ๋ธ๋ค์ด ๋์ถ๋(leaked) ์ฆ๊ฑฐ์ ์์กดํจ์ ์ค์ฆํ๋ค.
Evaluation
Novelty: 4.5/5 Technical Soundness: 4/5 Significance: 5/5 Clarity: 4.5/5 Overall: 4.5/5
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ NLP ์ฌ์คํ์ธ ์ฐ๊ตฌ์ ๊ทผ๋ณธ์ ์ธ ํ์ค์ฑ ๋ฌธ์ ๋ฅผ ๋ช
ํํ ์ง์ ํ๊ณ , ์ ๋๋ฆฌ์ฆ ๊ด์ ์ ๊ฒ์ฆ ์ ๋ต ๋ถ์์ ํตํด ๊ตฌ์ฒด์ ๊ธฐ์ค์ ์ ์ํจ์ผ๋ก์จ ํด๋น ๋ถ์ผ์ ์ค์ํ ๋นํ์ ๊ธฐ์ฌ๋ฅผ ํ๋ค. ๋จ, ์ ์๋ ๋ฌธ์ ์ ํด๊ฒฐ์ฑ
๋ถ์ฌ๋ ์์ฌ์ด ์ ์ด๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
ํฉํธ์ฒดํน์์ ๋ฐ์ฆ ์ฆ๊ฑฐ ๋ถ์ฌ ๋ฌธ์ ๋ฅผ ๋ถ์ํจ์ผ๋ก์จ ์ผ๊ด์ฑ ๊ธฐ๋ฐ ์ ๊ทผ์ ํ๊ณ๋ฅผ ๋
ผํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
541๋ฒ ๋
ผ๋ฌธ์ ๊ณผํ ์ฌ์ค ๊ฒ์ฆ์ counter-evidence ๋ฌธ์ ์ ์ ์ ๋ฆฌํ์ฌ, 610๋ฒ์ claim decomposition ๋ฐ fact-checking ์ ๋ต์ ํ๊ณ์ ์ค๋ฌด ์ ์ฉ ์ ์์ฌ์ ์ ์ ๊ณตํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
ํฉํธ์ฒดํน์ ๋ฐ์ฆ ์ฆ๊ฑฐ ๊ฒฐ์ฌ ํ๊ณ๋ฅผ ๋ถ์ํ์ฌ, FactDetect ๊ฐ์ ์ฆ๊ฑฐ ์ค์ฌ ๊ฒ์ฆ ๋ฐฉ๋ฒ๋ก ์ ํ์์ฑ์ ๊ฐ์กฐํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Missing counter-evidence... ๋
ผ๋ฌธ์ ๊ฒฐ๋ก ์ ์ ๋ขฐ๋์ ๋ฐ๋ฐ ์ฆ๊ฑฐ ๋ฏธํก ๋ฌธ์ ๊ฐ ๊ณผํ์ ์ฃผ์ฅ ๊ฒ์ฆ์์ ํต์ฌ ์ด์์์ ์ ์, ๋ณธ ๋
ผ๋ฌธ์ ํ๋ ์์ํฌ ๋ฐฉํฅ์ฑ๊ณผ ์ง์ ์ ์ฐ๊ด์ด ์์ต๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
541์ ํฉํธ์ฒดํน์์ ๋ฐ์ฆ ๊ทผ๊ฑฐ์ ์ค์์ฑ์ ๊ฐ์กฐํ๋ฉฐ, 827์ ์ฃผ์ฅ ๊ฒ์ฆ(ํฉํธ์ฒดํน) ํ๋ ์์ํฌ์ ์ด๋ก ์ ๊ทผ๊ฐ์ด ๋ฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
FactKG๋ ์ง์ ๊ทธ๋ํ๋ฅผ ํตํ ์ถ๋ก ๊ธฐ๋ฐ ์ฌ์ค ๊ฒ์ฆ์ผ๋ก, ๋ฐ๋ฐ ์ฆ๊ฑฐ ๋ถ์ฌ ๋ฌธ์ ๋ฅผ ๊ตฌ์กฐํ๋ ์ง์์ผ๋ก ๋ณด์ํ๋ ๋์์ ์ ๊ทผ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
AutoML ์์คํ
๊ฐ์ ์ ์ํ LLM ํ์ฉ์ ๊ด๋ จ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
Missing counter-evidence ๋
ผ๋ฌธ์ fact-checking ์์คํ
์ ํ๊ณ๋ฅผ ์ง์ ํ๋ฉฐ, LLM ๊ธฐ๋ฐ hierarchical prompt ๋ฐฉ์์ ์ฅ๋จ์ ์ ๋ณด์์ ์ผ๋ก ๋ณด์ฌ์ค๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋ด์ค ๋ฐ ๊ณผํ ์ ๋ณด์ ์ ๋ขฐ์ฑ ํ๊ฐ๋ฅผ ๋ค๋ฅธ NLP ๋ฐฉ๋ฒ๋ก ์ผ๋ก ๊ตฌํํ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
235 ๋
ผ๋ฌธ์ ๊ณผํ์ ํด๋ ์ ๊ฒ์ฆ ์ ๋ค์ํ ์ง์ ์์ค๋ฅผ ๋น๊ต ํ๊ฐํ์ฌ, ํ์ค ์ธ๊ณ์ ์ฆ๊ฑฐ ๋ถ์กฑ ๋ฌธ์ ์ ๋ฐ์ดํฐ์
์ค๊ณ ํ๊ณ๋ฅผ ์ถ๊ฐ์ ์ผ๋ก ๊ณ ์ฐฐํ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
DEFAME๋ ๋ฉํฐ๋ชจ๋ฌ ๋์ ํฉํธ์ฒดํน ์์คํ
์ผ๋ก, ๋ฐ๋ฐ ์ฆ๊ฑฐ ๋ถ์ฌ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ๋ค์ํ ์ธ๋ถ ๋๊ตฌ์ ์ฆ๊ฑฐ ๊ฒ์์ ํ์ฉํ๋ ๋์์ ์ ๊ทผ์ด๋ค.
ํ์ ์ฐ๊ตฌ
Multivers๋ ์ฆ๊ฑฐ๊ฐ ์ฝํ ํ๊ฒฝ์์ ๊ณผํ์ ์ฃผ์ฅ ๊ฒ์ฆ ๋ชจ๋ธ์ ๊ฐ๋ฅ์ฑ์ ํ๊ตฌํด ํ์ค์ ๋ฐ์ดํฐ ๋ถ์กฑ ๋ฌธ์ ๋
ผ์๋ฅผ ํ์ฅํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
๋ณตํฉยท๊ณ ์ฐจ์ ์ฌ์ค ๊ฒ์ฆ ๋ฌธ์ ์์ ํ๋ก๊ทธ๋จ ๊ฐ์ด๋๋ ์ถ๋ก ๋ฑ ๋ณด๋ค ์ค์ฉ์ ์ด๊ณ ๋ฐ์ฆ ์ฆ๊ฑฐ๊ฐ ๋ถ์กฑํ ํ๊ฒฝ์ ๋ํ ๋ชจ๋ธ ์ ๊ทผ๋ฒ์ ์ ์ํ๋ค.
ํ์ ์ฐ๊ตฌ
fact-checking task์์ ๋ฐ์ฆ ์ฆ๊ฑฐ ๊ฒฐ์ฌ์ ํ๊ณ์ ์ ์ง์ค ํ๊ตฌํ์ฌ, zero/few-shot ์ผ๋ฐํ ํ๊ฐ์ ์๋์ง ํจ๊ณผ๊ฐ ์์ต๋๋ค.
ํ์ ์ฐ๊ตฌ
Robust claim verification through fact detection ๋
ผ๋ฌธ์ ํ์ค์ ์ฆ๊ฑฐ ๊ฒฐํ ์ํฉ์์๋ ์ ๋ขฐ๋ ๋์ ์ฌ์คํ์ธ ์ ๊ทผ์ ๋ค๋ฃจ๊ณ ์๋ค.
ํ์ ์ฐ๊ตฌ
TrustLLM์ LLM์ ์ ๋ขฐ์ฑ์ ๋ค์ฐจ์์ ์ผ๋ก ํ๊ฐํ๋ฉฐ, ํฉํธ์ฒดํน์ ํ์ค์ ํ๊ณ๊ฐ LLM ์ ๋ขฐ์ฑ ์ฐ๊ตฌ์์ ์ด๋ป๊ฒ ๋ค๋ฃจ์ด์ง๋์ง ์ฐ๊ฒฐ๋๋ค.
ํ์ ์ฐ๊ตฌ
ํฉํธ์ฒดํน ๋ชจ๋ธ์ ์ ๋ขฐ์ฑ ๋ฐ ์ค๋ช
๋ ฅ ๊ฐ์ ์ ์ํ ์ฆ๊ฑฐ ๋ณด๊ฐ ๋ฐ ๋ฐ๋ก ์๋ํ์ ๊ธฐ๋ฒ ๋ฑ ํ์ค์ ์ฌ์ค ๊ฒ์ฆ ๋ฐฉ์ ํ์ฅ์ ๋ค๋ฃฌ๋ค.
ํ์ ์ฐ๊ตฌ
๊ณผํ์ ์ฌ์ค ๊ฒ์ฆ์์ ๋ฐ์ฆ ์ฆ๊ฑฐ์ ๋ถ์ฌ๋ฅผ ๋ค๋ฃจ๋ ๋
ผ๋ฌธ์ผ๋ก, ๋
ผ๋ฆฌ์ ์ค๋ฅ ๊ฒ์ถ ํ ์ฌ์ค ๊ฒ์ฆ์ ์ค์ง์ ํ๊ณ๊น์ง ์ฐ๊ฒฐํด์ ๋ณผ ์ ์์ต๋๋ค.
๋ฐ๋ก /๋นํ
NLP ์ฌ์ค ๊ฒ์ฆ์์ ๋ฐ์ฆ ๊ทผ๊ฑฐ๋ฅผ ์ฐพ์ง ๋ชปํ๋ฉด ์ฑ๋ฅ ํ๊ณ๊ฐ ์๋ค๋ ์ค์ฆ ์ฐ๊ตฌ๋ก, KG ๊ธฐ๋ฐ ์ ๊ทผ์ ๋งน์ ์ ์ง์ ํฉ๋๋ค.
๋ฐ๋ก /๋นํ
ํฉํธ์ฒดํน์์ ๊ทผ๊ฑฐ ๋ถ์ถฉ๋ถ ์ ํ๊ณ์ ๋ณต์ก ์ฃผ์ฅ ๊ฒ์ฆ์ ์ค์ ๋ฌธ์ ๋ฅผ ๋ค๋ฃจ์ด ์๋ก ๋ณด์์ ์ผ๋ก ์ดํดํ ์ ์์ต๋๋ค.
๋ฐ๋ก /๋นํ
541์ ์ฌ์ค ๊ฒ์ฆ์์ ๋ฐ์ฆ ์ฆ๊ฑฐ ๋ถ์กฑ ๋ฌธ์ ๋ฅผ ๋ถ์ํ์ฌ, ํ์ ์ ํธ ์ ๊ฑฐ ์ค์ฌ์ MMSD2.0๊ณผ ๋์กฐ์ ์ผ๋ก ๋
ผ์ํ ์ ์๋ค.
๋ฐ๋ก /๋นํ
ํฉํธ์ฒดํน์์ ๋์กฐ๊ทผ๊ฑฐ(couter-evidence) ํ์ฉ ํ๊ณ ๋ฐ ํ์ค์ ๋ฌธ์ ์ ์ ์ง์ ํด, ๋์ ์ฆ๊ฑฐ ์ฆ๊ฐ ๋ฐฉ์์ ํ์์ฑ๊ณผ ๊ฐ์ ์ ์ ๋นํ์ ์ผ๋ก ๋ค๋ฃฌ๋ค.
๋ฐ๋ก /๋นํ
541๋ฒ ๋
ผ๋ฌธ์ ๋ฐ์ฆ ์ฆ๊ฑฐ ๋ถ์ฌ์ ํ๊ณ๋ฅผ ์ง์ํ๊ฒ ๋นํํ์ฌ 124์์ ์ ์ํ๋ ์ ๋นํ ์๋ํ์ ์คํจ์ฑยทํ๊ณ๋ฅผ ์ ๊ฒํ ๋ ์ฐธ๊ณ ํด์ผ ํฉ๋๋ค.
๋ฐ๋ก /๋นํ
541 ๋
ผ๋ฌธ์ NLP ๊ธฐ๋ฐ ํฉํธ์ฒดํน์ ํ๊ณ(๋ฐ์ฆ ๊ทผ๊ฑฐ ๋ถ์ฌ)๋ฅผ ๋นํํ๋ฉฐ, KGValidator์ LLM ๊ธฐ๋ฐ ๊ฒ์ฆ์ด ์ค์ง์ ์ ๋ขฐ์ฑ์ ํ๋ณดํ๋์ง ์ฌ๊ณ ํด๋ณผ ๊ทผ๊ฑฐ๋ฅผ ์ ๊ณตํฉ๋๋ค.
๋ฐ๋ก /๋นํ
541 ๋
ผ๋ฌธ์ ์นด์ดํฐ์๋น๋์ค ๋ถ์กฑ์ด ํฉํธ์ฒดํน ์ ๋ขฐ์ฑ์ ๋ผ์น๋ ํ๊ณ์ ์ ์ง์ ํ์ฌ, 221์ ์ธ๋ฐ ๊ฒ์ฆ ๋ฐฉ์์ ํจ๊ณผ์ ๋นํ์ ์๊ฐ์ ์ ๊ณตํฉ๋๋ค.
๋ฐ๋ก /๋นํ
541์ด ๋ฐ๋ฐ ์ฆ๊ฑฐ ๋ถ์ฌ๋ก ํฉํธ์ฒดํน์ ๋นํ์ค์ฑ์ ๋นํํ๋ ๋ฐ๋ฉด, DEFAME๋ ๋์ ์ฆ๊ฑฐ ๊ฒ์๊ณผ ๋ฉํฐ๋ชจ๋ฌ ์ ๋ฌธ๊ฐ ํ์ฉ์ผ๋ก ์ด ํ๊ณ๋ฅผ ๊ทน๋ณตํ๋ ค๋ ์ค์ฉ์ ์์คํ
์ด๋ค.
๋ฐ๋ก /๋นํ
541 ๋
ผ๋ฌธ์ ๊ฒฐ๋ก ์ ๋ฐ์ฆ์ด ์ด๋ ค์ด NLP fact-checking์ ํ๊ณ๋ฅผ ๋
ผ์ํด 680์์ LLM ๊ธฐ๋ฐ ์ค๋ฅ ๊ฒ์ถ์ ํ์ค์ ํ๊ณ๋ฅผ ๋นํํฉ๋๋ค.