Essence
Ibuprofen ์ฒญ๊ตฌ๊ฐ COVID-19 ์ฆ์์ ์
ํ์ํจ๋ค๋ ์ฃผ์ฅ์ด ์๋ฃ ๋
ผ๋ฌธ ์ด๋ก์ผ๋ก ๋ฐ๋ฐ๋๋ ์์. ๋นจ๊ฐ์ ๋ฌธ์ฅ์ ๊ทผ๊ฑฐ์ด์ง๋ง ํ๋์ ๋งฅ๋ฝ ์์ด๋ ์ฌ๋ฐ๋ฅด๊ฒ ํด์๋ ์ ์์
๊ณผํ ์ฒญ๊ตฌ ๊ฒ์ฆ ์์คํ
์ด ์ ํ๋ ๊ทผ๊ฑฐ ๋ฌธ์ฅ๋ง ์ฌ์ฉํ์ง ์๊ณ ์ ์ฒด ๋ฌธ์ ๋งฅ๋ฝ์ ํ์ฉํ๋ฉฐ, ์ฝํ ๊ฐ๋
(weak supervision)์ ํตํด ๋ฌธ์ฅ ์์ค์ ์ฃผ์ ์์ด๋ ํ์ตํ ์ ์๋ ๋ฉํฐํ์คํฌ ๋ชจ๋ธ์ ์ ์ํ๋ค.
Evaluation
์ดํ: MULTIVERS๋ ์ ์ฒด ๋ฌธ์ ๋งฅ๋ฝ์ ํ์ฉํ๊ณ ์ฝํ ๊ฐ๋
์ผ๋ก ํ์ต ๊ฐ๋ฅํ ์ค์ฉ์ ์ค๊ณ๋ฅผ ํตํด ๊ณผํ ์ฒญ๊ตฌ ๊ฒ์ฆ์ ์ฑ๋ฅ์ ํฌ๊ฒ ํฅ์์ํจ ๊ฒฌ๊ณ ํ ์ฐ๊ตฌ์ด๋ฉฐ, ํนํ ์ ๋ฌธ ๋ถ์ผ์ ์ ์์ ์๋๋ฆฌ์ค์์์ ๊ธฐ์ฌ๊ฐ ๋์ ๋๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
Multivers๋ ํฉํธ์ฒดํน ์ฝํ ๊ฐ๋
๊ธฐ๋ฐ ๋ฐ ์์ ๋ถ์ ํ๋ ์์ํฌ๋ฅผ ์ ๊ณตํด Pelican์ claim decomposition/๊ฒ์ฆ ๋ฐฉ๋ฒ์ ๊ธฐ์ด์ ๋ฐฐ๊ฒฝ์ด ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
567 ๋
ผ๋ฌธ์ ์ฝํ ๊ฐ๋
๊ธฐ๋ฐ LLM ๊ณผํ ์ฃผ์ฅ ๊ฒ์ฆ์ ๋ฐฉ๋ฒ๋ก ์ ๋ค๋ฃจ์ด 711์ ์ฃผ์ฅ ๊ฒ์ฆ ์์คํ
์ ์ฌํ๋ ๊ธฐ์ด๋ฅผ ์ ๊ณตํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋ณตํฉ์ ๊ณผํ์ ํฉํธ์ฒดํน ๋ฌธ์ ๋ฅผ ํ๋ก๊ทธ๋จ ๊ธฐ๋ฐ ์ถ๋ก ์ผ๋ก ์ ๊ทผํ๋ ๋
ผ๋ฌธ์ผ๋ก, ๋ค๋ฅธ ๋ฐฉ์์ ์๋ ํฉํธ์ฒดํน ์ ๋ต์ ์ ์ํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
Multivers๋ ์ฝํ ๊ฐ๋
๊ธฐ๋ฐ ํฉํธ์ฒดํน์ ์ด์ ์ ๋๋, ProToCo์ ๋น๊ตํด ๋ฌธ์ฅ๊ฐ ๋
ผ๋ฆฌ ์ผ๊ด์ฑ๊ณผ ๋งฅ๋ฝ ํ์ฉ ๋ฐฉ์์์ ์ฐจ๋ณ์ฑ์ ๋ณด์
๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
์ฝํ ๊ฐ๋
๊ธฐ๋ฐ์ ์ฌ์ค ๊ฒ์ฆ ํ๋ ์์ํฌ๋, LLM ํ๊ฐ ์ํ์ ๋ฐ๋๋๋ ๋ฌธ์ ์ค์ ์์ ๊ทผ๋ณธ์ ์ธ ์๋ฃจ์
์ฐจ์ด๋ฅผ ์ ๊ณตํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
567์ ์ฝํ ์ฆ๊ฑฐ ๊ธฐ๋ฐ์ผ๋ก ๊ณผํ์ ์ฃผ์ฅ ๊ฒ์ฆ ์ฑ๋ฅ์ ๊ฐ์ ํ๋ ๋ฐฉ์์ ์คํํ์ฌ, 235์ ๋ฐ์ดํฐ์์ค ๋น๊ต์ฐ๊ตฌ์ ๊ฒฌ์ฃผ์ด ์ฐธ๊ณ ํ ๋งํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
์ฝํ ๊ฐ๋
ํ์ ์ฆ๊ฑฐ ๋ฐ ๊ณผํ์ ์ฃผ์ฅ ๊ฒ์ฆ ์์คํ
์ฐ๊ตฌ๋ก, 500์ RAG ๊ธฐ๋ฐ ์๋ ์ฆ๊ฑฐ ์๋ณ/ํ๊ฐ ์ํ ์ ๊ทผ๋ฒ๊ณผ ๋น๊ต๋๋ ์ฝ์ง๋ ํ์ฉ ์ฌ๋ก์
๋๋ค.
ํ์ ์ฐ๊ตฌ
Multivers๋ ์ฆ๊ฑฐ๊ฐ ์ฝํ ํ๊ฒฝ์์ ๊ณผํ์ ์ฃผ์ฅ ๊ฒ์ฆ ๋ชจ๋ธ์ ๊ฐ๋ฅ์ฑ์ ํ๊ตฌํด ํ์ค์ ๋ฐ์ดํฐ ๋ถ์กฑ ๋ฌธ์ ๋
ผ์๋ฅผ ํ์ฅํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
PaperQA ๋
ผ๋ฌธ์ ๊ณผํ์ ์ฃผ์ฅ์ ๋ํ ๊ฒ์ ์ฆ๊ฐ ์์ฑ ๋ฐฉ์์ผ๋ก Multivers์ ์ ์ฒด๋งฅ๋ฝ ์ฆ๊ฑฐ ํ์ฉ ๊ฐ๋
์ ๋์ฑ ๊ณ ๋ํํ ์ค์ ์ ํ์ฅ์
๋๋ค.
ํ์ ์ฐ๊ตฌ
ProToCo๋ ์ธ์ด๋ชจ๋ธ ์ผ๊ด์ฑ ์ ์ฝ๊ณผ ์์์ํ ํ๊ฒฝ์์ ์ฌ์ค๊ฒ์ฆ ์ฑ๋ฅ ํฅ์์ ์ด์ ์ ๋์ด, Multivers์ ์์ด๋์ด๋ฅผ ํ์ฅํ ํํ์
๋๋ค.
ํ์ ์ฐ๊ตฌ
์ฝํ ๊ฐ๋
๊ธฐ๋ฐ ์ฌ์ค ๊ฒ์ฆ ๋ฐฉ๋ฒ์ด zero/few-shot ์ผ๋ฐํ ๋ฅ๋ ฅ ๊ฐํ ์คํ์ ํ์ฉ๋์ด, ๋ฐ์ ๋ฐฉํฅ์ ํ์ํ๋ ๋ฐ ์ข์ต๋๋ค.
ํ์ ์ฐ๊ตฌ
๊ณผํ์ ์ฃผ์ฅ ํฉํธ ๊ฒ์ฆ์ ์ฝํ ์ง๋ ๋ฐ์ดํฐ๋ก ๋ณด์ํ๋ ๋ฐฉ๋ฒ์ ์ ์ฉํ์ฌ, ๋ฉํฐ๋ชจ๋ฌ ํจ๋ฌ๋ยทํ์ ํ์ง์ ์ฝ์ง๋ ๊ธฐ๋ฐ ๋ชจ๋ธ ๋ฐ์ ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์ค๋ค.
ํ์ ์ฐ๊ตฌ
567์ ์ฝํ ์ง๋ ๋ฐฉ๋ฒ์ ํ์ฉํ ๊ณผํ์ ์ฃผ์ฅ ๊ฒ์ฆ ์ฑ๋ฅ ํฅ์์ ๋ค๋ฃจ์ด, 685์ ๋ฐ์ดํฐ ์ฆ๊ฐ ๋ฐ ๊ฒ์ฆ ์ ๊ทผ๋ฒ์ ํ์ฅ์ ์ ์ ์ํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
Explainable biomedical claim verification with large language models ๋
ผ๋ฌธ์ claim verification์์ ์ค๋ช
๊ฐ๋ฅ์ฑ์ ๊ฐ์กฐํ๋ฉฐ, Multivers ๊ฐ๋
์ ํ์ฅ์ ๊ธฐ์ฌํ ์ ์๋ค.
ํ์ ์ฐ๊ตฌ
500๋ฒ ๋
ผ๋ฌธ์ LLM ๊ธฐ๋ฐ ์ฆ๊ฑฐ ์์ง ๋ฐ ํฉํธ์ฒดํฌ๋ฅผ ๋ค๋ฃจ์ด, 567๋ฒ ์์คํ
์ ์ต๊ทผ ๋๊ตฌ์ ํ์ฅ ๋ฐ ๋ฐ์ ์ฌ๋ก๋ฅผ ๋ณด์ฌ์ค๋๋ค.
ํ์ ์ฐ๊ตฌ
์ฝํ ์ฆ๊ฑฐ(supervision)๋ฅผ ํ์ฉํ ๊ณผํ์ ์ฃผ์ฅ ๊ฒ์ฆ ๋ฐฉ๋ฒ์ ํ์ฅํ ๋
ผ๋ฌธ์ผ๋ก, SciClaimHunt์ ํ์ฉ ๊ฐ๋ฅ ๋ฒ์๋ฅผ ๋ํ์ค๋๋ค.
ํ์ ์ฐ๊ตฌ
Multivers๋ ํ
์คํธ ๊ธฐ๋ฐ ํฉํธ์ฒดํน ์์คํ
์ ์ฑ๋ฅ์ ๊ฐ์ ํ๋ ์ฝํ ๊ฐ๋
์ ํธ ๊ธฐ๋ฐ ํ๋ ์์ํฌ๋ก์ DEFAME์ ํ
์คํธ ๊ฒ์ฆ ๋ถ๋ถ์ ๋ณด์ํฉ๋๋ค.