Essence
๊ทธ๋ฆผ 1: ์์ํ ์ฃผ์ฅ ๊ฒ์ฆ ์์คํ
์ ๋ํํ ์ปดํฌ๋ํธ๋ค
๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)๊ณผ SHAP ์ค๋ช
๊ฐ๋ฅ์ฑ์ ๊ฒฐํฉํ์ฌ ์๋ฃ ์ฃผ์ฅ ๊ฒ์ฆ์ ํฌ๋ช
์ฑ์ ๋์ด๋ ๋ํํ ์์คํ
์ ์ ์ํ๋ค. ์ฌ์ฉ์๋ ๊ณผํ ๋ฌธํ์์ ๊ด๋ จ ์ฐ๊ตฌ๋ฅผ ๊ฒ์ํ๊ณ , CoENLI ํ๋ ์์ํฌ๋ฅผ ํตํด LLM์ ์ถ๋ก ๊ณผ์ ์ ๊ฒํ ํ๋ฉฐ, SHAP ๊ฐ์ผ๋ก ๋จ์ด ์์ค์ ๊ธฐ์ฌ๋๋ฅผ ํ์
ํ ์ ์๋ค.
Evaluation
์ดํ: ์์ํ ์ฃผ์ฅ ๊ฒ์ฆ์ ํฌ๋ช
์ฑ์ ์ํด CoENLI์ SHAP์ ๊ฒฐํฉํ ๋ํํ ์์คํ
์ ์ค์ง์ ๊ฐ์น ์๋ ์ ์์ด๋, ๋
ผ๋ฌธ์ด ๋ฏธ์์ฑ๋ ์ํ(ํ๊ฐ ์น์
์ ๋ฐ๋ง ๊ธฐ์ฌ, ์ฌ์ฉ์ ์ฐ๊ตฌ ๊ฒฐ๊ณผ ๋๋ฝ)๋ก ๊ณผํ์ ๊ฒ์ฆ์ด ๋ถ์ถฉ๋ถํ๋ค. ํ์ ์์ ํ ๋
ผ๋ฌธ ๋ฐํ ์ ์๋นํ ํฅ์๋ ๊ฒ์ผ๋ก ์์๋๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
328 ๋
ผ๋ฌธ์ ์ค๋ช
๊ฐ๋ฅ์ฑ ์ ๊ทผ์๋ 399๋ฒ ๋
ผ๋ฌธ์ฒ๋ผ ์ฆ๊ฑฐ ์ค์ฌ ์ง์์ฆ๊ฐ์ด๋ ์ค๋ช
์ ์ฆ๋ช
์ค๊ณ์ ์๋ฆฌ๊ฐ ์ํฅ์ ๋ฏธ์นฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
328๋ฒ ๋
ผ๋ฌธ์ ๋ฐ์ด์ค๋ฉ๋์ปฌ ์ฃผ์ฅ ๊ฒ์ฆ์์ LLM ํ์ฉ ๋ฐ ์ค๋ช
์ฑ ๋ฌธ์ ๋ฅผ ๋ค๋ฃจ์ด, 070๋ฒ ๋ฆฌ๋ทฐ ํธํฅ ํ์ง์ ๊ฐ์ ๋ฉํ๊ณผํ ์คํ ์ฐ๊ตฌ์ ๊ธฐ๋ฐ์ด ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๋ฐ์ด์ค๋ฉ๋์ปฌ ์ฃผ์ฅ ๊ฒ์ฆ์ LLMยท์ง์ ๊ทธ๋ํ ํ์ฉ์ด๋ผ๋ ๋์ผํ ๋ฌธ์ ์ ์ค๋ช
๊ฐ๋ฅ์ฑ ๊ฐ์กฐ ์ ๊ทผ์
๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
267์ ๋ฉํฐ๋ชจ๋ฌ ๊ทผ๊ฑฐ ๊ธฐ๋ฐ ํฉํธ์ฒดํน ๋ฐ์ดํฐ์
๋ฐ ํ๋ ์์ํฌ๋ก, 328์ ์๋ฃ ์ฃผ์ฅ ๊ฒ์ฆ ์์คํ
๊ณผ ๋ค์ํ ์์ค ํตํฉ ์ธก๋ฉด์์ ๊ธฐ์ ์ ํ ๋๊ฐ ๋ฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
332๋ฒ ๋
ผ๋ฌธ์ ํ๋ก๊ทธ๋จ ๊ธฐ๋ฐ reasoning์ ํ์ฉํ ๊ณผํ์ ์ฃผ์ฅ fact-checking์ผ๋ก, 328๋ฒ์ SHAP+LLM ๊ธฐ๋ฐ ๊ฒ์ฆ๋ฒ์ ๋์์ ์ ๊ทผ๋ฒ์ ์ ๊ณตํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
์ง์ ๊ทธ๋ํ์ LLM์ ํ์ฉํ ๋ฐ์ด์ค๋ฉ๋์ปฌ ์ฌ์ค ๊ฒ์ฆ์ ์ด์ ์ ๋ง์ถ์ด, FACTKG์ ์ผ๋ฐ์ ์ฌ์ค์ฑ ๊ฒ์ฆ์ ๋๋ฉ์ธ ํนํ๋ก ํ์ฅํ ์ฌ๋ก์
๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
221์ ์ง์ ๊ทธ๋ํ ๊ธฐ๋ฐ ์ค๋ช
ํ ํฉํธ ๊ฒ์ฆ์ ์ ์ํ์ฌ, 328์ LLM+SHAP ์ค์ฌ ์ ๊ทผ๊ณผ ์์ดํ ์ค๋ช
๊ฐ๋ฅ์ฑ ๊ตฌํ ์ฌ๋ก๊ฐ ๋ฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
Explainable biomedical claim verification with large language models ๋
ผ๋ฌธ์ ์์๋ช
์ฃผ์ฅ ๊ฒ์ฆ ๋ฌธ์ ์์ LLM ๊ธฐ๋ฐ ์ค๋ช
๊ฐ๋ฅ์ฑ์ ์ด์ ์ ๋ง์ถฐ, 880์ ๊ฒ์ฆ ๊ฐ๋ฅ์ฑ ์์ธ๋ถ์๊ณผ ์ํธ๋ณด์์ ์๊ฐ์ ์ ๊ณตํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
์ค๋ช
๊ฐ๋ฅํ ๋ฐ์ด์ค๋ฉ๋์ปฌ claim ๊ฒ์ฆ์ด๋ ์๊ฐ์์, NER ๊ธฐ๋ฐ context ์ดํด์ claim verification์ ์ฐ๊ณํ ์ค์ง์ ์์ฉ์ ๋ค๋ฃน๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
328 'Explainable biomedical claim verification with large language models'๋ ์ด๋ก ์ ์ง์ ๊ทธ๋ํ ์ ๊ทผ์ ์ง์คํ 018๊ณผ ๋ฌ๋ฆฌ, LLM ๊ธฐ๋ฐ ์ค๋ช
๊ฐ๋ฅ์ฑ ํ๋ ์์ํฌ๋ก ๊ณผํ์ ์ฃผ์ฅ ๊ฒ์ฆ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ฏ๋ก ๋ฐฉ๋ฒ๋ก ๋น๊ต์ ์ ํฉํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
Explainable biomedical claim verification์ ๋ฐ์ด์ค ๋ฐ์ดํฐ๋ฅผ LLM์ผ๋ก ํด์ํ๋ ์ ๊ทผ๋ฒ์ ๋ณด์ฌ์ฃผ์ด WaveFormer์ ์ ํธ ํด์ ๋งฅ๋ฝ์์ ๋น๊ต๋๋ค.
ํ์ ์ฐ๊ตฌ
Explainable biomedical claim verification with large language models ๋
ผ๋ฌธ์ claim verification์์ ์ค๋ช
๊ฐ๋ฅ์ฑ์ ๊ฐ์กฐํ๋ฉฐ, Multivers ๊ฐ๋
์ ํ์ฅ์ ๊ธฐ์ฌํ ์ ์๋ค.
ํ์ ์ฐ๊ตฌ
333์ ๊ณผํ์ ํฉํธ ๊ฒ์ฆ์ ์ํด ์ง์ ๊ทธ๋ํ ์ถ๋ก ์ ํ์ฉํ๋๋ฐ, 328์ LLM ๊ธฐ๋ฐ ๋๋ฉ์ธ ํนํ ๊ฒ์ฆ ๋ฐฉ๋ฒ์ ๋ณด์/ํ์ฅ์ ์ญํ ์ ํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
๋ฐ์ด์ค๋ฉ๋์ปฌ ์์ญ์์ LLM ํ์ฉ ํฉํธ์ฒดํน ํ๋ ์์ํฌ ํ์ฅ ๋ฐ ๋ค์ํ ์ธ๋ถ ์ง์ ํ์ฉ๋ฒ์ ๋ค๋ฃฌ๋ค.
ํ์ ์ฐ๊ตฌ
676๋ฒ ๋
ผ๋ฌธ์ ์ธ๊ฐ๊ณผ AI๊ฐ ๋ฆฌ๋ทฐ ์์ฑ์ gap์ ์ฐ๊ฒฐํ๋ฉฐ, LLM ๊ธฐ๋ฐ ๊ฒ์ฆ ์์คํ
์ ๊ฐ์ ๋ฐฉํฅ ๋
ผ์์ 328๋ฒ ๋
ผ๋ฌธ ๋ด์ฉ์ ์ ์ฉํ ์ ์๋ค.
ํ์ ์ฐ๊ตฌ
IRA ํ์ ๊ณผ์ ์์ ์ธ์ฉ๋ ํน์ ์ ํ์ ์ค์ ์์์ฆ๊ฑฐ ์ฐ๊ตฌ๋ฅผ ์ฌํ ๋ถ์ํ๋ค.
์์ฉ ์ฌ๋ก
What makes medical claims (un)verifiable?๋ ์๋ฃ ํฉํธ์ฒดํฌ ํ๊ฒฝ์์ ๊ฒ์ฆ/๋น๊ฒ์ฆ ์ฃผ์ฅ ํน์ฑ ๋ถ์์ ํตํด, 328์ด ์ ์ํ ์์คํ
ํ๊ฐ์ ํ์ค์ ์ด๋ ค์์ ๋ณด์์ ์ผ๋ก ์ค๋ช
ํฉ๋๋ค.
์์ฉ ์ฌ๋ก
NSF-SCIFY ๋ฐ์ดํฐ์
์ ๋ดํฌ๋ ๊ณผํ์ ์ฃผ์ฅ ๊ฒ์ฆ ๋ฌธ์ ๋ฅผ LLM ๊ธฐ๋ฐ ์ฌ์ค ๊ฒ์ฆ ์์คํ
์ ์ค์ ๋ก ์ ์ฉํ๋ ์ฌ๋ก์
๋๋ค.