Essence
๋ณธ ๋
ผ๋ฌธ์ ๊ณผํ์ ์ฃผ์ฅ ๊ฒ์ฆ(scientific claim verification) ์์คํ
์์ ์๋ก ๋ค๋ฅธ ์ง์ ์์ค(PubMed, Wikipedia, Google)์ ์ ๋ณด ๊ฒ์ ๊ธฐ๋ฒ(BM25, ์๋ฏธ ๊ฒ์)์ด ์ต์ข
ํ์ ์ฑ๋ฅ์ ๋ฏธ์น๋ ์ํฅ์ ๋น๊ต ๋ถ์ํ ์ค์ฆ ์ฐ๊ตฌ์ด๋ค.
Evaluation
์ดํ: ํ์ค์ ์ธ ๊ฐ๋ฐฉ ํ๊ฒฝ์์ ์ง์ ์์ค๋ณ ์ฑ๋ฅ ์ฐจ์ด๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ๋น๊ตํ ์๋ฏธ ์๋ ์ค์ฆ ์ฐ๊ตฌ๋ก, ๊ณผํ์ ์ฃผ์ฅ ๊ฒ์ฆ ์์คํ
์ค๊ณ์ ์ค์ฉ์ ๊ฐ์ด๋๋ฅผ ์ ๊ณตํ๋ค. ๋ค๋ง ์๋ก์ด ๋ฐฉ๋ฒ๋ก ๊ฐ๋ฐ๋ณด๋ค๋ ๊ธฐ์กด ๊ธฐ๋ฒ์ ๋น๊ต ๋ถ์์ ์ง์ค๋์ด ์๋ ์ ์ด ์ ์ฝ์ด๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
๊ณผํ ๋ด์ค ์ค๋ณด ํ์ง๋ฅผ ์ํ ๋ฐฉ๋ฒ๋ก ์ ๊ธฐ๋ฐ์ ์ ๊ณตํ๋ ์ฐ๊ตฌ์ด๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๊ณผํ์ ์ฌ์ค ๊ฒ์ฆ์์ ๋ค์ํ NLP ๊ธฐ๋ฒ์ด ์ด๋ป๊ฒ ์ฌ์ฉ๋๋์ง ์๋ฒ ์ดํ๋ ๋
ผ๋ฌธ์ผ๋ก, ์ง์ ์์ค์ IR ๊ธฐ๋ฒ ๋น๊ตํ๊ฐ์ ์ด๋ก ์ ๋ฐฐ๊ฒฝ์ด ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
567์ ์ฝํ ์ฆ๊ฑฐ ๊ธฐ๋ฐ์ผ๋ก ๊ณผํ์ ์ฃผ์ฅ ๊ฒ์ฆ ์ฑ๋ฅ์ ๊ฐ์ ํ๋ ๋ฐฉ์์ ์คํํ์ฌ, 235์ ๋ฐ์ดํฐ์์ค ๋น๊ต์ฐ๊ตฌ์ ๊ฒฌ์ฃผ์ด ์ฐธ๊ณ ํ ๋งํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
235 ๋
ผ๋ฌธ์ ๊ณผํ์ ํด๋ ์ ๊ฒ์ฆ ์ ๋ค์ํ ์ง์ ์์ค๋ฅผ ๋น๊ต ํ๊ฐํ์ฌ, ํ์ค ์ธ๊ณ์ ์ฆ๊ฑฐ ๋ถ์กฑ ๋ฌธ์ ์ ๋ฐ์ดํฐ์
์ค๊ณ ํ๊ณ๋ฅผ ์ถ๊ฐ์ ์ผ๋ก ๊ณ ์ฐฐํ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
fact verification์์ zero- and few-shot generalization ๋ฌธ์ ๋ถ์์ ํตํด, ๊ณผํ์ ์ฃผ์ฅ ๊ฒ์ฆ๊ณผ ๋ชจ๋ธ์ ์ ์ด ๊ฐ๋ฅ์ฑ ํ๊ณ๋ฅผ ๋ณด์ฌ์ค๋ค.
๋ค๋ฅธ ์ ๊ทผ
235๋ ๊ณผํ์ ์ฃผ์ฅ ๊ฒ์ฆ์์ ๋ฐ์ดํฐ ์์ค์ ๊ฒ์ ๊ธฐ๋ฒ๋ณ ์ฑ๋ฅ์ ์ค์ฆ์ ์ผ๋ก ๋ถ์ํ์ฌ, 117์ TrendFact ๋ฐ FactISR ๋ฒค์น๋งํฌ์ ๋น๊ต ๊ฐ๋ฅํ ๋์์ ์ ๊ทผ๋ฒ์ ๋ณด์ฌ์ค๋ค.
๋ค๋ฅธ ์ ๊ทผ
์๋ฏธ ๊ธฐ๋ฐ ๊ฒ์์ ํ์ฉํ ๊ณผํ์ ์ฃผ์ฅ ๊ฒ์ฆ์์ ์ ์ฌํ ๋ฌธ์ ๋ฅผ ๋ค๋ฅธ ๋ฐฉ๋ฒ์ผ๋ก ํด๊ฒฐํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
235(Comparing knowledge sources...)์ ๋ค์ํ ์ถ์ฒ ๊ธฐ๋ฐ์ ๊ณผํ์ ์ฃผ์ฅ/ํด๋ ์ ๊ฒ์ฆ ์ ๊ทผ๋ฒ์ ์คํ์ ์ผ๋ก ๋น๊ตํ์ฌ, 579์ NSF-SCIFY๊ฐ ์ถ์ถํ ์ฃผ์ฅ ๋ฐ์ดํฐ์ ํ์ฉ ๊ฐ๋ฅ์ฑ์ ํจ๊ป ์กฐ๋งํ ์ ์์ต๋๋ค.
ํ์ ์ฐ๊ตฌ
832๋ LLM ๊ธฐ๋ฐ ๋ด์ค๋ฅผ ์ํ ํฉํธ ๊ฒ์ฆ์ฒด๊ณ์ ํ์ด๋ผํค ๊ตฌ์กฐ๋ฅผ ์ ์, 235์ ๊ณผํ๋ถ์ผ ํฌ๋ก์ค ์์ค ์คํ์ ์ค์ ์์ฉ๋ถ์ผ๋ก ํ์ฅํ๋ค.
์์ฉ ์ฌ๋ก
๊ณผํ์ ์ฌ์ค ๊ฒ์ฆยท์ค๊ณ์์ ์ฌ๋ณผ๋ฆญ-ํจํด ๋งค์นญ ์ ๊ทผ์ด ์ค์ ๋ก ๋ฐ์ดํฐ ๋ด ๊ทผ๊ฑฐ์ฑ์ ๋์ด๋ ๋ฐฉ๋ฒ๋ก ์ ๋ค๋ฃธ.