Essence
๊ณผํ ๋ด์ค ๊ธฐ์ฌ์ ์ค๋ณด(misinformation)๋ฅผ ํ์งํ๊ธฐ ์ํด ๋๊ท๋ชจ ์ธ์ด๋ชจ๋ธ(LLM)์ ๋ฅ๋ ฅ์ ํ๊ฐํ๊ณ , ๊ณผํ์ ํ๋น์ฑ ์ฐจ์(Dimensions of Validity, DoV)์ ์ ์ํ์ฌ prompt engineering์ ํตํด ๋ฏธ๋ช
์์ ์ฃผ์ฅ(explicit claim) ์์ด๋ ์ค๋ณด๋ฅผ ๊ฒ์ถํ ์ ์๋ ์ธ ๊ฐ์ง ์ํคํ
์ฒ๋ฅผ ์ ์ํ๋ค.
Evaluation
์ดํ: ์ด ๋
ผ๋ฌธ์ ๊ณผํ ๋ด์ค์ ์ค๋ณด ํ์ง ๋ฌธ์ ๋ฅผ ํ๋์ ๊ด์ ์์ ์ ๊ทผํ์ฌ ์ค์ฉ์ ๋ฐ์ดํฐ์
๊ณผ ๋ช
์์ ์ฃผ์ฅ ์ถ์ถ์ด ํ์ ์๋ LLM ํ์ดํ๋ผ์ธ์ ์ ์ํ์ผ๋, ๋ค์ค ๋๋ฉ์ธ ์ผ๋ฐํ์ ๋ ์ ๋ฐํ ํ๊ฐ ํ๋กํ ์ฝ์ ํตํด ์ํฉํธ๋ฅผ ๊ทน๋ํํ ์ ์๋ ์ถ๊ฐ ์ฐ๊ตฌ๊ฐ ํ์ํ๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
Large Language Models are Zero Shot Hypothesis Proposers ๋
ผ๋ฌธ์ LLM์ ๊ฐ์ค ์์ฑยทํ๊ฐ ๋ฅ๋ ฅ์ ๋ค๋ฃจ์ด, ๊ณผํ ์ค๋ณด ๊ฒ์ถ ๋ชจ๋ธ์ ๊ฐ๋ฅ์ฑ ๋ฐ ํ๊ณ ์ดํด์ ๋์์ด ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๊ณผํ ๋ด์ค ์ค๋ณด ํ์ง๋ฅผ ์ํ ๋ฐฉ๋ฒ๋ก ์ ๊ธฐ๋ฐ์ ์ ๊ณตํ๋ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
832๋ ๋ด์ค ๋๋ฉ์ธ์์ ์ฌ์ค ๊ฒ์ฆ์ ํ์ด๋ธ๋ฆฌ๋ LLM-์ง์ ๋ชจ๋ธ๋ก ์ ๊ทผํ์ฌ, 183๊ณผ ์ ์ฌ ๋ฌธ์ ์ ๋ค๋ฅธ ๋ฐฉ๋ฒ๋ก ์ ์ ์ฉํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๊ณผํ์ ์ค๋ณด ํ์ง ๋ฐ ์๋ ์คํ๋๋ฉ์ธ ๊ฐ์ค ํ์ธ์ ๋ํ LLM ๊ธฐ๋ฐ ์ ๊ทผ์ ์ค์ ์์คํ
์ ์ ์ฉํ ์ฌ๋ก์
๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM์ ํ์ฉํ ํ์ ์ ๋ณด ํ์ง ๋ฅ๋ ฅ์ ํ๊ฐํ๋ ์ ์ฌํ ์ฐ๊ตฌ๋ก, ๋ค๋ฅธ ๋๋ฉ์ธ์ ์ค๋ณด๋ฅผ ๋ค๋ฃฌ๋ค.
๋ค๋ฅธ ์ ๊ทผ
๊ณผํ์ ์ฃผ์ฅ์ ์ ๋ขฐ์ฑ ๊ฒ์ฆ์ ์ํ LLM ํ์ฉ ์ฐ๊ตฌ๋ก, ์ ์ฌํ ๋ฐฉ๋ฒ๋ก ์ ์ ์ฉํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
SciQAG ๋
ผ๋ฌธ์ ๊ณผํ ์ฃผ์ฅ์ ์ ๋ขฐ์ฑ ๊ฒ์ฆ์ ๋ค์ํ ๋ฐฉ์์ ์ง๋ฌธ ์์ฉ์ผ๋ก ํ๊ฐํ์ฌ, ์ค๋ณด ํ์ง ์ํคํ
์ฒ์ ํ๊ฐ ๋ฐฉ์ ๋น๊ต์ ์ ํฉํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM์ ์ฌ์ค ํ์ธ ๋ฐ ์ค๋ณด ํ์ง ๋ฅ๋ ฅ์ ํ๊ฐํ๋ ๊ด๋ จ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM ๊ธฐ๋ฐ์ ํ์ ์ ๋ณด ํ์ง ์์คํ
์ ๋ค๋ฃจ๋ ์ ์ฌํ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
183์ ๊ณผํ์ ํ์์ ๋ณด ํ์ง์์ LLM์ ์ ์ฉ ๊ฐ๋ฅ์ฑ์ ๋ค๋ฃจ๋ฉฐ 680๊ณผ ์ ์ฌ ๋ฌธ์ ๋ฅผ ๋ค๋ฅธ ์๊ฐ์ผ๋ก ์ ๊ทผํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
183๋ฒ ๋
ผ๋ฌธ์ LLM์ด ๊ณผํ์ ์ ๋ณด ํ์ ์ฌ๋ถ๋ฅผ ํจ์จ์ ์ผ๋ก ํ์งํ ์ ์๋์ง๋ฅผ ๋๊ท๋ชจ ์คํ์ผ๋ก ๋ถ์ํ์ฌ 057๋ฒ์ ๋ฐ์๋ ํฉํธ์ฒดํน ์์คํ
๊ฒ์ฆ์ ์ฐธ๊ณ ๋ ์ ์๋ค.
ํ์ ์ฐ๊ตฌ
221์ ๊ณผํ ์ฃผ์ฅ ๊ฒ์ฆ์์ ํด์ค๊ฐ๋ฅ(Explainable) ๊ทผ๊ฑฐ ์ถ์ถ์ ๋ํด, 183์ LLM ๊ธฐ๋ฐ ์ค๋ณด ํ์ง ์ํคํ
์ฒ์ ๊ฒฐํฉํด ๋ณผ ๋งํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
๊ณผํ ๋
ผ๋ฌธ ๋ด ์๋ชป๋ ์ธ์ฉ๊ณผ ํ์์ ๋ณด ํ์ง ์ฑ๋ฅ์ LLM์ด ์ด๋ป๊ฒ ๋ฌ์ฑํ๋์ง ์ง์ ์คํํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
LLM ๊ธฐ๋ฐ ์ ๋ขฐ๊ฐ๋ฅํ ๊ณผํ์ ๊ฐ์ค ๋ฐ ์ค๋ณด ํ๋ณ ํ๋ ์์ํฌ ๊ฐ๋ฐ๋ก, scientific news์์ ์ค๋ณด ํ์ง task์ ํ์ฅ ์ฌ๋ก์
๋๋ค.
์์ฉ ์ฌ๋ก
Can large language models detect misinformation in scientific news ๋
ผ๋ฌธ์ LLM ์์ฉ์์ ์ ๋ขฐ์ฑ ํ๊ฐ ๋ฐฉ๋ฒ์ ๋ค๋ฃจ๋ฉฐ, ์ ์ฝ ๊ฐ๋ฐ ์คํ์ ๊ฒฐ๊ณผ ๊ฒ์ฆ ๋ฐ ์ฌํ์ฑ ํ๊ฐ์ ์ฐธ๊ณ ๊ฐ ๋ฉ๋๋ค.
๋ฐ๋ก /๋นํ
183์ LLM์ ๊ณผํ ๋
ผ๋ฌธ ์ค์ ๋ณด ๊ฐ์ง ์ญํ ์ ํ๊ฐํ๋ฉฐ, LLM์ ๋ฆฌ๋ทฐ ํ๊ณ์ ์ญํ ์ ๋
ผ์ํ๋ 128๊ณผ ๋นํ์ ๊ด์ ์์ ์ฐ๊ฒฐํ ์ ์๋ค.