Essence
๋ณธ ๋
ผ๋ฌธ์ ์ฌ์ค ๊ฒ์ฆ(fact verification) ๋ชจ๋ธ์ ์์ญ ๊ฐ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ์กฐ์ฌํ ์ฒซ ๋ฒ์งธ ์ข
ํฉ ์ฐ๊ตฌ์ด๋ค. 11๊ฐ FV ๋ฐ์ดํฐ์
์ผ๋ก ๊ตฌ์ฑ๋ ๋ฒค์น๋งํฌ๋ฅผ ๊ตฌ์ถํ๊ณ zero-shot ๋ฐ few-shot ์ค์ ์์์ ์ ์ด ์ฑ๋ฅ์ ์ฒด๊ณ์ ์ผ๋ก ๋ถ์ํ๋ฉฐ, ๋๋ฉ์ธ ํนํ ์ฌ์ ํ์ต๊ณผ ๋ฐ์ดํฐ ์ฆ๊ฐ์ ํตํ ๊ฐ์ ๋ฐฉ์์ ์ ์ํ๋ค.
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ ์ฌ์ค ๊ฒ์ฆ์ ์์ญ ๊ฐ ์ผ๋ฐํ๋ฅผ ์ฒ์์ผ๋ก ์ฒด๊ณ์ ์ผ๋ก ์กฐ์ฌํ ์ค์ํ ์ฐ๊ตฌ๋ก, ํต์ผ๋ ๋ฒค์น๋งํฌ ๊ตฌ์ถ๊ณผ ์ค์ฆ์ ๋ถ์์ ํตํด ์ค๋ฌด์ ๊ฐ์น ๋์ ํต์ฐฐ์ ์ ๊ณตํ๋ค. ๋ค๋ง ๋ชจ๋ธ์ ๋ฒ์๊ฐ ์ ํ์ ์ด๊ณ ์ ์๋ ๊ฐ์ ๋ฐฉ๋ฒ๋ค์ ์ค์ฉ์ฑ ์ ์ฝ์ด ์์ผ๋ฏ๋ก, ํฅํ ๊ฐํ๋ ๊ธฐ๋ฒ๊ณผ ๋ชจ๋ LLM์ ํ์ฉํ ํ์ฅ ์ฐ๊ตฌ๊ฐ ํ์ํ๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
Large Language Models are Zero Shot Hypothesis Proposers ๋
ผ๋ฌธ์ zero-shot ๋ฅ๋ ฅ์ ๊ตฌ์ฒด์ ์ผ๋ก ํ๊ฐํด 441์ ํฉํธ ์ฒดํฌ zero-shot/์ ์ด ๋ฅ๋ ฅ ๋ถ์์ ๊ธฐ๋ฐ์ด ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
์ค๋ช
๊ฐ๋ฅํ ํด๋ ์ ๊ฒ์ฆ ๋ฐ ์ฆ๊ฑฐ ์ถ์ถ์ ๊ดํ ์ฒด๊ณ์ ๋ฐฉ๋ฒ๋ก ์ ์ ๊ณตํด ๋๋ฉ์ธ ๊ฐ ์ผ๋ฐํ ํ๊ตฌ์ ๊ธฐ๋ฐ์ ์ ๊ณตํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
Factkg: Fact verification via reasoning on knowledge graphs ๋
ผ๋ฌธ์ ๊ทธ๋ํ ๊ธฐ๋ฐ ์ถ๋ก ์ ํตํด ๋๋ฉ์ธ ๊ฐ ์ฌ์ค ๊ฒ์ฆ ์ผ๋ฐํ ์ฑ๋ฅ ํฅ์์ ์ ๊ทผ, ๋ณธ ๋
ผ๋ฌธ์ ์ ์ด ํ์ต ๋ฌธ์ ์ ๋์กฐ์ ์ผ๋ก ์ฐ๊ฒฐ๋ฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
ํ๋ก๊ทธ๋จ ๊ธฐ๋ฐ ๋ณตํฉ ์ฆ๊ฑฐ fact-checking ๋ฐฉ์์ผ๋ก, ๊ธฐ์กด fact verification๊ณผ reasoning integration์ ์ฐจ์ด๋ฅผ ๋ถ์ํ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
claim verification ๋ชจ๋ธ์ ๊ฐ๊ฑด์ฑ ๋ฐ fact detection ์ ๊ทผ๋ฒ์ ์ ๊ณตํ๋ ๋
ผ๋ฌธ์ผ๋ก ์๋ก ๋ค๋ฅธ fact verification ์ ๋ต์ ๋น๊ตํ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
fact verification์์ zero- and few-shot generalization ๋ฌธ์ ๋ถ์์ ํตํด, ๊ณผํ์ ์ฃผ์ฅ ๊ฒ์ฆ๊ณผ ๋ชจ๋ธ์ ์ ์ด ๊ฐ๋ฅ์ฑ ํ๊ณ๋ฅผ ๋ณด์ฌ์ค๋ค.
ํ์ ์ฐ๊ตฌ
441๋ฒ ๋
ผ๋ฌธ์ ๊ณผํ ์ฌ์ค ๊ฒ์ฆ์์ zero/few-shot ์ผ๋ฐํ ๋ฌธ์ ๋ฅผ ๋ค๋ฃจ์ด, 172๋ฒ์ด ๋ค๋ฃจ๋ ์์ฐ ๋ฐ์ ์/์๋์ค ์ง์์ ์ผ๋ฐํ ๋์ ๊ณผ ์ฐ๊ณ๋ฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
์ฝํ ๊ฐ๋
๊ธฐ๋ฐ ์ฌ์ค ๊ฒ์ฆ ๋ฐฉ๋ฒ์ด zero/few-shot ์ผ๋ฐํ ๋ฅ๋ ฅ ๊ฐํ ์คํ์ ํ์ฉ๋์ด, ๋ฐ์ ๋ฐฉํฅ์ ํ์ํ๋ ๋ฐ ์ข์ต๋๋ค.
ํ์ ์ฐ๊ตฌ
fact-checking task์์ ๋ฐ์ฆ ์ฆ๊ฑฐ ๊ฒฐ์ฌ์ ํ๊ณ์ ์ ์ง์ค ํ๊ตฌํ์ฌ, zero/few-shot ์ผ๋ฐํ ํ๊ฐ์ ์๋์ง ํจ๊ณผ๊ฐ ์์ต๋๋ค.
ํ์ ์ฐ๊ตฌ
์ธ์ํผ๋ฐ์ด์ฆ๋ ์ฌ์ ํ์ต๊ณผ ์ธ์ด๋ชจ๋ธ์ ํ์ฉํ ์ญ๋ ํ์ฅ, ๊ณผํ์ ํฉํธ ๊ฒ์ฆ ํ์คํฌ ๊ฐ ์ํฅ๋ ฅ์ ๋น๊ตํด ๋ณผ ์ ์์ต๋๋ค.
ํ์ ์ฐ๊ตฌ
ReSearch ๋
ผ๋ฌธ์ LLM์ ๊ฒ์ ๊ธฐ๋ฐ ๊ฐํ ํ์ต์ ํตํ ์ถ๋ก ์ผ๋ฐํ ๋ฅ๋ ฅ ํฅ์์ ๋ค๋ฃจ์ด 441์์ ์ ๊ธฐํ ์ผ๋ฐํ ํ๊ณ ๊ทน๋ณต์ ์ค์ง์ ๋ฐฉ๋ฒ์ ์ ์ํฉ๋๋ค.
์์ฉ ์ฌ๋ก
์ธ์ฒด ์์ธ ์ถ์ ๋ถ์ผ์์์ zero/few-shot ํ์ต ์ฑ๊ณผ๋ฅผ fact verification task์ ์ ์ฉ ๊ฐ๋ฅ์ฑ ์๋ ์์๋ก ์ ์ํฉ๋๋ค.
๋ฐ๋ก /๋นํ
441์ ์ฌ์ค ๊ฒ์ฆ์์ ์ ๋ก์ท๊ณผ ํจ์ท ์ผ๋ฐํ์ ํ๊ณ ๋ฐ ๊ฐ์ ์ ๋ค๋ฃจ๋ฉฐ, 859์ ํ๋ ์์ํฌ์ ์ฑ๋ฅ ํด์์ ์์ฌ์ ์ ์ค๋๋ค.