์ ์: Yongheng Zhang, Xu Liu, Ruoxi Zhou, Qiguang Chen, Hao Fei | ๋ ์ง: 2025 | DOI: 10.48550/arXiv.2505.19108 📄 PDF
Figure 2: (a) Fine-grained performance analysis of MLLMs F1-score for different hallucination types in CCHall.
๋ณธ ๋ ผ๋ฌธ์ Large Language Model(LLM)์ cross-lingual๊ณผ cross-modal ํ๊ฒฝ์์์ hallucination์ ๋์์ ๊ฒ์ถํ๋ ์๋ก์ด ๋ฒค์น๋งํฌ์ธ CCHall์ ์ ์ํ๋ค. ๊ธฐ์กด ์ฐ๊ตฌ๊ฐ cross-lingual ๋๋ cross-modal ์๋๋ฆฌ์ค๋ฅผ ๊ฐ๋ณ์ ์ผ๋ก ๋ค๋ฃจ๋ ๋ฐ๋ฉด, ์ด ๋ ผ๋ฌธ์ ๋ ์๋๋ฆฌ์ค๊ฐ ๊ฒฐํฉ๋ joint cross-lingual and cross-modal hallucination ๊ฒ์ถ ๋ฌธ์ ์ ์ค์์ฑ์ ๊ฐ์กฐํ๊ณ ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ์ฒด๊ณ์ ์ธ ๋ฒค์น๋งํฌ๋ฅผ ์ ์ํ๋ค.
Figure 2: (a) Fine-grained performance analysis of MLLMs F1-score for different hallucination types in CCHall.
Figure 3: The construction process of CCHall includes: (a) Raw Multi-modal Dataset Selection (ยง3.1), (b) Cross-
ํ์ ์ฐ๊ตฌ ๋ฐฉํฅ:
์ดํ: ๋ณธ ๋ ผ๋ฌธ์ ํ์ฌ๊น์ง ๋ฏธํกํ๋ joint cross-lingual and cross-modal hallucination ๊ฒ์ถ ๋ฌธ์ ๋ฅผ ์ฒ์์ผ๋ก ์ฒด๊ณํํ๊ณ , ์ด๋ฅผ ํ๊ฐํ ์ ์๋ ํฌ๊ด์ ๋ฒค์น๋งํฌ CCHall์ ์ ์ํ๋ค. ๊ธฐ์กด ์ฐ๊ตฌ์ ๋ถ์ฐ๋ ์ ๊ทผ๊ณผ ๋ฌ๋ฆฌ ์ค์ ์์ฉ ํ๊ฒฝ์ ๋ณตํฉ hallucination ๋ฌธ์ ๋ฅผ ํตํฉ์ ์ผ๋ก ๋ค๋ฃจ๋ ์ ์์ ๋์ ๊ฐ์น๋ฅผ ์ง๋๋ฉฐ, ๊ด๋ฒ์ํ ๋ชจ๋ธ ํ๊ฐ๋ฅผ ํตํด ํ LLM์ ์ฌ๊ฐํ ํ๊ณ๋ฅผ ์ค์ฆํ๋ค. ๋ค๋ง ๋ฐ์ดํฐ์ ๊ตฌ์ฑ์ ๊ตฌ์ฒด์ ์ ๋ณด์ ์ธ์ด ๋ค์์ฑ์ ๋ํ ์ค๋ช ์ด ๋ณด๊ฐ๋๋ฉด ๋์ฑ ๊ฐํ๋ ์ ์์ ๊ฒ์ด๋ค.