์ ์: Xiaocheng Zhang, Xi Wang, Yifei Lu, Jianing Wang, Zhuangzhuang Ye, Mengjiao Bao, Peng Yan, Xiaohong Su | ๋ ์ง: 2024 | DOI: ๋ฏธ์ ๊ณต 📄 PDF
Essence
TrendFact์ ์์น ์ถ๋ก ์ ํฌํจํ๋ ์ฌ์ค ๊ฒ์ฆ ์์ : ๆ
ๅฎฎ(์๊ธ์ฑ)์ ๋์ด์ ๊ดํ ์ฃผ์ฅ๊ณผ ๊ฒ์ฆ ๊ณผ์
๋ณธ ๋
ผ๋ฌธ์ ์ค๊ตญ์ด ๊ธฐ๋ฐ์ ์ฒซ ๋ฒ์งธ ํฌ๊ด์ ์ฌ์ค ๊ฒ์ฆ ๋ฒค์น๋งํฌ์ธ TrendFact๋ฅผ ์ ์ํ๋ฉฐ, ์ค๋ช
์์ฑ ์ผ๊ด์ฑ(ECS)๊ณผ ํซ์คํ ์ธ์ ๋ฅ๋ ฅ(HPA)์ ํ๊ฐํ๋ ์๋ก์ด ๋ฉํธ๋ฆญ์ ๋์
ํ๋ค. ์ถ๊ฐ์ ์ผ๋ก ๋์ ์ฆ๊ฑฐ ์ฆ๊ฐ๊ณผ ์ํฅ๋ ์ ์ ๊ธฐ๋ฐ ๋ฐ๋ณต์ ์๊ธฐ ์ฑ์ฐฐ์ ๊ฒฐํฉํ FactISR ํ๋ ์์ํฌ๋ฅผ ์ ์ํ์ฌ ๋ํ ์ธ์ด ๋ชจ๋ธ์ ์ฌ์ค ๊ฒ์ฆ ์ฑ๋ฅ์ ํฅ์์ํจ๋ค.
Evaluation
์ดํ: TrendFact ๋ฒค์น๋งํฌ๋ ์ค๊ตญ์ด ๊ธฐ๋ฐ ์ฌ์ค ๊ฒ์ฆ์์ ์ค๋ช
์์ฑ๊ณผ ๊ณ ์ํฅ๋ ์ฌ๊ฑด ์ฒ๋ฆฌ ๋ฅ๋ ฅ ํ๊ฐ๋ผ๋ ์๋ก์ด ์ฐจ์์ ์ถ๊ฐํ์ฌ ์๋ฏธ ์๋ ๊ธฐ์ฌ๋ฅผ ํ์ง๋ง, ์ ์๋ FactISR ๋ฐฉ๋ฒ์ ์ด๋ก ์ ๊น์ด๊ฐ ๋ถ์กฑํ๊ณ ์์ด ๊ธฐ๋ฐ ์ฐ๊ตฌ ์ปค๋ฎค๋ํฐ์์ ์ฐ๊ณ์ฑ์ด ์ ํ์ ์ด๋ผ๋ ์ ์ ๊ฐ์ ์ด ํ์ํ๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
333์ ์ง์๊ทธ๋ํ ๊ธฐ๋ฐ์ ์ฌ์ค ๊ฒ์ฆ ๋ฐ ์ถ๋ก ๋ฐฉ๋ฒ๋ก ์ ์ ๋ฆฝํ๋ฉฐ, 117์ ์ค๋ช
์์ฑ ๋ฐ ์ฆ๊ฑฐ ํ์๊ณผ ๊ฐ์ ๋ณตํฉ์ ์ฌ์ค ๊ฒ์ฆ ๊ณผ์ ์ ์ด๋ก ์ ๊ธฐ๋ฐ์ด ๋ ์ ์๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
์ฌ์ค ๊ฒ์ฆ ๋ฒค์น๋งํฌ ์ค๊ณ์ ์ด๋ก ์ ๊ธฐ๋ฐ์ ์ ๊ณตํ๋ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
Factkg ๋
ผ๋ฌธ์ ํ๋ก๊ทธ๋๋ฐ ์ ๋ ๊ธฐ๋ฐ ํฉํธ์ฒดํน์ผ๋ก, TrendFact์ ๋ค๋ฅธ ์๋ ํฉํธ ๊ฒ์ฆ ์ ๊ทผ ๋ฐฉ์์ ๋ณด์ฌ์ค๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
์ค๊ตญ์ด ๊ธฐ๋ฐ ๋ณตํฉ ํฉํธ์ฒดํน ๋ฒค์น๋งํฌ ๊ตฌ์ถ๊ณผ ํ์ง ๋ฉํธ๋ฆญ ์ ์๋ก, ์ ๋ขฐ์ฑ ์๋ ๋ฉํฐ๋ชจ๋ฌ ํ์ ํ์ง ์์คํ
์ธก๋ฉด์์ ์ถ๊ฐ ์๊ฐ์ ์ ๊ณตํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM ๊ธฐ๋ฐ ์ฌ์ค ๊ฒ์ฆ์ ์ ํ๋์ ์ค๋ช
์ผ๊ด์ฑ์ ๋ถ์ํ ์ ์ฌํ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
235๋ ๊ณผํ์ ์ฃผ์ฅ ๊ฒ์ฆ์์ ๋ฐ์ดํฐ ์์ค์ ๊ฒ์ ๊ธฐ๋ฒ๋ณ ์ฑ๋ฅ์ ์ค์ฆ์ ์ผ๋ก ๋ถ์ํ์ฌ, 117์ TrendFact ๋ฐ FactISR ๋ฒค์น๋งํฌ์ ๋น๊ต ๊ฐ๋ฅํ ๋์์ ์ ๊ทผ๋ฒ์ ๋ณด์ฌ์ค๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋ฐ๋ณต์ ์๊ธฐ ์ฑ์ฐฐ์ ํ์ฉํ ์ฌ์ค ๊ฒ์ฆ ์์คํ
์ ์ ์ํ๋ ๊ด๋ จ ์ฐ๊ตฌ์ด๋ค.
ํ์ ์ฐ๊ตฌ
ํฉํธ์ฒดํน ๋ชจ๋ธ์ ์ ๋ขฐ์ฑ ๋ฐ ์ค๋ช
๋ ฅ ๊ฐ์ ์ ์ํ ์ฆ๊ฑฐ ๋ณด๊ฐ ๋ฐ ๋ฐ๋ก ์๋ํ์ ๊ธฐ๋ฒ ๋ฑ ํ์ค์ ์ฌ์ค ๊ฒ์ฆ ๋ฐฉ์ ํ์ฅ์ ๋ค๋ฃฌ๋ค.
ํ์ ์ฐ๊ตฌ
๋ณตํฉ์ ๊ณผํ ์ฌ์ค ๊ฒ์ฆ์ ํด์ค ๋ฐ ์ค๋ช
๊ฐ๋ฅํ ๊ทผ๊ฑฐ ์ ์๋ก, SFAVEL ๋ชจ๋ธ์ ์์ฉ๋ ฅ์ ๊ฐํํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
๋ณต์กํ ํฉํธ ํ์ธ์ ์ํ ์ฆ๊ฑฐ์ฑ๊ณผ ์ค๋ช
๊ฐ๋ฅ์ฑ ํฅ์ ๊ธฐ๋ฒ์ LLM ๊ธฐ๋ฐ์ผ๋ก ํ๊ตฌํ ๋
ผ๋ฌธ์ผ๋ก, ๊ณ์ธต์ ๋จ๊ณ๋ณ ํฉํธ์ฒดํน๊ณผ ์ฐ๊ณ๋ฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
Augmenting the veracity and explanations ๋
ผ๋ฌธ์ LLM ๊ธฐ๋ฐ ๋ณตํฉ ์ฃผ์ฅ ์ฌ์ค๊ฒ์ฆ์ ์ค๋ช
์ฑ์ ๊ฐํํ๋ ๋ฐฉ๋ฒ๋ก ์ ์ ์ํด program-guided reasoning์ ์ฌํ์ํต๋๋ค.
ํ์ ์ฐ๊ตฌ
ํฉํธ์ฒดํน ์ค๋ช
์๋ํ์ justification ํ์คํ ์ด์๋ฅผ ๋ค๋ฃจ๋ฉฐ, TrendFact ๋ฒค์น๋งํฌ์ ํ๊ฐ ๊ธฐ์ค ๋ฐ ํ๋ ์์ํฌ ๊ณ ๋ํ ๋ฐฉํฅ์ ์ ์ํ๋ค.
ํ์ ์ฐ๊ตฌ
LIDDIA ๋
ผ๋ฌธ์ ์ธ์ด๋ชจ๋ธ ๊ธฐ๋ฐ ์ฝ๋ฌผ๋ฐ๊ฒฌ์์์ ๊ฒ์ฆ์ ์ง๋ฌธ, ์ฆ๊ฑฐ ๊ฐ์กฐ ๋ฑ ์ค๋ช
์์ฑ์ ์ธ๋ถ์ ์ธ ํ์ฅ์ ๋ค๋ฃน๋๋ค.
๋ฐ๋ก /๋นํ
ํฉํธ์ฒดํน์์ ๋์กฐ๊ทผ๊ฑฐ(couter-evidence) ํ์ฉ ํ๊ณ ๋ฐ ํ์ค์ ๋ฌธ์ ์ ์ ์ง์ ํด, ๋์ ์ฆ๊ฑฐ ์ฆ๊ฐ ๋ฐฉ์์ ํ์์ฑ๊ณผ ๊ฐ์ ์ ์ ๋นํ์ ์ผ๋ก ๋ค๋ฃฌ๋ค.