Essence
๋๊ท๋ชจ ์ธ์ด๋ชจ๋ธ(LLM)์ ์ธ์ปจํ
์คํธ ํ์ต(ICL) ๋ฅ๋ ฅ์ ๋ด์ค ํด๋ ์ ๊ฒ์ฆ์ ํ์ฉํ๋, ๊ณ์ธต์ ๋จ๊ณ๋ณ ํ๋กฌํํ
(HiSS) ๋ฐฉ๋ฒ์ ํตํด ํด๋ ์์ ์ธ๋ถ ํด๋ ์์ผ๋ก ๋ถํดํ๊ณ ๊ฒ์ ์์ง ๊ธฐ๋ฐ์ ์ฆ๊ฑฐ ์์ง์ ํตํด ์ฌ์ค ํ์ธ์ ์ ํ๋์ ์ค๋ช
๊ฐ๋ฅ์ฑ์ ๋์ธ ์ฐ๊ตฌ์ด๋ค.
Evaluation
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ LLM ๊ธฐ๋ฐ์ ๋ด์ค ํด๋ ์ ๊ฒ์ฆ์์ ์ค๋ฌด ์งํฅ์ ์ฑ๊ณผ๋ฅผ ๋ณด์์ผ๋ฉฐ, ๊ณ์ธต์ ๋ถํด์ ๊ฒ์ ๊ธฐ๋ฐ ์ฆ๊ฑฐ ํตํฉ์ ํตํด LLM์ ์ถ๋ก ๋ฅ๋ ฅ์ ์คํจ์ ์ผ๋ก ํฅ์์ํจ ์์ ์๋ ์ฐ๊ตฌ์ด๋ค. ๋ค๋ง ๋ค์ํ ๋๋ฉ์ธ๊ณผ ์ธ์ด๋ก์ ํ์ฅ์ฑ ๊ฒ์ฆ๊ณผ ๋น์ฉ ํจ์จ์ฑ ๊ฐ์ ์ด ํฅํ ๊ณผ์ ๋ก ๋จ์์๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๋ค๋ฅธ ์ ๊ทผ
Missing counter-evidence ๋
ผ๋ฌธ์ fact-checking ์์คํ
์ ํ๊ณ๋ฅผ ์ง์ ํ๋ฉฐ, LLM ๊ธฐ๋ฐ hierarchical prompt ๋ฐฉ์์ ์ฅ๋จ์ ์ ๋ณด์์ ์ผ๋ก ๋ณด์ฌ์ค๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋ ๋ค LLM์ ์ด์ฉํ ์๋ ์ฌ์ค ๊ฒ์ฆ์ด์ง๋ง, 332๋ฒ์ ํ๋ก๊ทธ๋จ ๊ธฐ๋ฐ ๊ฐ์ด๋, 832๋ฒ์ ๊ณ์ธต์ ํ๋กฌํํ
๊ณผ ๊ฒ์ ๊ธฐ๋ฐ ๋ฐฉ์์ ํ์ฉํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
์ํ ์ฆ๋ช
๋ฅ๋ ฅ ํ๊ฐ์ ํํธ ๊ฒ์ฆ/ํฉํธ ํ์ธ ๋ฅ๋ ฅ์ ํ๊ณ๋ฅผ ๋น๊ต ๋ถ์ํ ์ ์์ด, LLM์ ๋
ผ๋ฆฌ์ ์ถ๋ก ๋ฒ์ ํ๊ณ๋ฅผ ์
์ฒด์ ์ผ๋ก ์กฐ๋งํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
832๋ ๋ด์ค ๋๋ฉ์ธ์์ ์ฌ์ค ๊ฒ์ฆ์ ํ์ด๋ธ๋ฆฌ๋ LLM-์ง์ ๋ชจ๋ธ๋ก ์ ๊ทผํ์ฌ, 183๊ณผ ์ ์ฌ ๋ฌธ์ ์ ๋ค๋ฅธ ๋ฐฉ๋ฒ๋ก ์ ์ ์ฉํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
Factkg ๋
ผ๋ฌธ์ ์ง์ ๊ทธ๋ํ ๊ธฐ๋ฐ ํฉํธ ๊ฒ์ฆ ๋ชจ๋ธ์ ์ ์ํด์, LLM์ ๊ณ์ธต์ ์ฆ๊ฑฐ์์ง ์ ๊ทผ์ ๊ตฌ์กฐ์ ์๋ฏธ ์ถ๋ก ์ผ๋ก ํ๋ํ๋ค.
ํ์ ์ฐ๊ตฌ
ํ๋ ฅํ ๋ค์ค ์์ด์ ํธ ํ๋ ์์ํฌ๋ฅผ ํ์ฉํ ๊ณผํ์ ํด๋ ์ ๊ฒ์ฆ์ ๋ค๋ฃจ์ด ๋ด์ค ํฉํธ์ฒดํน๊ณผ ๋น์ทํ ๋ฌธ์ ์ ๊ทผ๋ฒ์ ํ์ฅํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
๋ณต์กํ ํฉํธ ํ์ธ์ ์ํ ์ฆ๊ฑฐ์ฑ๊ณผ ์ค๋ช
๊ฐ๋ฅ์ฑ ํฅ์ ๊ธฐ๋ฒ์ LLM ๊ธฐ๋ฐ์ผ๋ก ํ๊ตฌํ ๋
ผ๋ฌธ์ผ๋ก, ๊ณ์ธต์ ๋จ๊ณ๋ณ ํฉํธ์ฒดํน๊ณผ ์ฐ๊ณ๋ฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
832๋ LLM ๊ธฐ๋ฐ ๋ด์ค๋ฅผ ์ํ ํฉํธ ๊ฒ์ฆ์ฒด๊ณ์ ํ์ด๋ผํค ๊ตฌ์กฐ๋ฅผ ์ ์, 235์ ๊ณผํ๋ถ์ผ ํฌ๋ก์ค ์์ค ์คํ์ ์ค์ ์์ฉ๋ถ์ผ๋ก ํ์ฅํ๋ค.
ํ์ ์ฐ๊ตฌ
๋ด์ค ์ฃผ์ฅ ํฉํธ๊ฒ์ฆ์์ ๊ณ์ธต์ ์ฆ๊ฑฐ์ถ๋ก ์ ํ๊ตฌํ์ฌ ๋ค์ํ ๋๋ฉ์ธ์ ๊ฒฌ๊ณ ํ ๊ฒ์ฆ ํ๋ ์์ํฌ ์ ์ฉ ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์ค๋ค.
์์ฉ ์ฌ๋ก
Sciclaimhunt ๋
ผ๋ฌธ์ ์ธ๋ถ์ ๊ณผํ ์ฃผ์ฅ ๊ฒ์ฆ ๋ฌธ์ ์ LLM๊ณผ ๊ฒ์ ๊ธฐ๋ฐ ํ๋กฌํํธ ๋ฐฉ์(832์ ๋ฐฉ๋ฒ๋ก ) ์ ์ฉ ๊ฐ๋ฅ์ฑ์ ์๊ฐํฉ๋๋ค.
์์ฉ ์ฌ๋ก
Towards LLM-based Fact Verification on News Claims ๋
ผ๋ฌธ์์ ๋จ๊ณ์ ํ๋กฌํํธ ๊ธฐ๋ฐ ์ฆ๊ฑฐ ๊ฒ์ฆ ๋ฐฉ์์ ํ์ฉํ์ฌ ๋
ผ๋ฌธ ์๊ณ ๋ฆฌ์ฆ ์ฌํ ํ๊ฐ ๋ฐฉ์์๋ ์๊ฐ์ ์ค ์ ์์ต๋๋ค.