Cchall: A novel benchmark for joint cross-lingual and cross-modal hallucinations detection in large language models

Essence

Figure 2: (a) Fine-grained performance analysis of MLLMs F1-score for different hallucination types in CCHall.

본 논문은 Large Language Model(LLM)의 cross-lingual과 cross-modal 환경에서의 hallucination을 동시에 검출하는 새로운 벤치마크인 CCHall을 제시한다. 기존 연구가 cross-lingual 또는 cross-modal 시나리오를 개별적으로 다루는 반면, 이 논문은 두 시나리오가 결합된 joint cross-lingual and cross-modal hallucination 검출 문제의 중요성을 강조하고 이를 해결하기 위한 체계적인 벤치마크를 제안한다.

Motivation

Known: 기존 연구는 cross-lingual hallucination (XL-Sum, X-fact, HalOmi, MM-Eval, XTRUST)과 cross-modal hallucination (CHAIR, POPE, M-HalDetect, HallusionBench, MHaluBench)을 각각 개별적으로 평가하는 벤치마크들을 개발해왔다. 하지만 두 가지 hallucination이 동시에 발생하는 real-world scenario에 대한 평가 방법론은 부족한 상태이다.
Gap: 현재 연구의 주요 한계는 cross-lingual hallucination과 cross-modal hallucination을 분리된 문제로만 다루고 있다는 점이다. 실제 응용에서는 의료 진단, 이미지 캡셔닝, 음성-텍스트 변환 등에서 두 가지 hallucination이 함께 발생할 수 있으나, 이를 통합적으로 평가할 수 있는 벤치마크와 방법론이 존재하지 않는다.
Why: 실제 응용에서 MLLMs는 이미지와 텍스트의 alignment뿐만 아니라 다중 언어 쿼리 간의 alignment도 동시에 고려해야 한다. Figure 2(a)에서 보듯이 joint cross-lingual과 cross-modal hallucination에서의 F1-score는 개별 시나리오 대비 3.4-10.9 포인트 감소하여, 이 복합적 상황이 현저히 더 어려운 문제임을 보여준다.
Approach: - 다양한 multimodal 데이터셋으로부터 raw data를 선택한다.
Cross-modal hallucination 데이터: image caption과 visual question answering 데이터로부터 hallucination을 구성한다.
Cross-lingual hallucination 데이터: 영어 답변을 다양한 언어로 번역하면서 intentional hallucination을 생성한다.
Joint hallucination 데이터: 위 두 가지를 자동으로 결합한다.
Human recheck 및 automatic sample removal을 통해 데이터 품질을 관리한다.

Achievement

Figure 2: (a) Fine-grained performance analysis of MLLMs F1-score for different hallucination types in CCHall.

CCHall 벤치마크 구축: Cross-lingual, cross-modal, joint cross-lingual & cross-modal hallucination을 포괄하는 최초의 통합 벤치마크 제공.
포괄적 모델 평가: InternVL2-8B, Llama-3.2-11B-Vision, Qwen2-VL-7B, Pixtral-12B-2409, Gemini-1.5-Flash 등 주요 MLLM들을 평가.
주요 발견: Joint hallucination에서 F1-score이 individual scenario 대비 3.4-10.9 포인트 감소하여, 현재 MLLMs의 심각한 한계를 실증.
완화 전략 분석: 소규모 모델(<12B)에는 기본 전략이 더 효과적이고, 대규모 모델에는 고급 전략(multilingual context, tool-assisted invocation)이 효과적임을 입증.

How

Figure 3: The construction process of CCHall includes: (a) Raw Multi-modal Dataset Selection (§3.1), (b) Cross-

데이터 구성: Raw multimodal dataset (Image Caption, Visual Question Answering)으로부터 시작하여 Figure 3의 4단계 프로세스를 따른다.
Hallucination 생성: Cross-modal hallucination은 image와 맞지 않는 답변을 생성하고, cross-lingual hallucination은 번역 과정에서 의도적 오류를 삽입한다.
자동화 조합: Cross-lingual과 cross-modal hallucination을 자동으로 결합하여 joint hallucination 데이터를 생성한다.
품질 관리: Human recheck과 automatic sample removal을 통해 데이터 정확성을 보장한다.
종합 평가: 다양한 MLLM에 대해 hallucination detection 성능을 F1-score 기준으로 평가한다.

Originality

새로운 문제 정의: Joint cross-lingual과 cross-modal hallucination을 통합적으로 다루는 최초의 연구.
벤치마크 설계의 혁신성: 기존의 분리된 벤치마크를 단순히 조합하는 것이 아니라, 체계적인 4단계 데이터 구성 프로세스를 통해 통합 벤치마크를 구축.
실제 응용 중심의 관점: Medical diagnosis, image captioning, speech-to-text 등 실제 응용에서 발생하는 복합 hallucination 문제를 처음으로 체계화.
다언어 다중 모달리티 고려: 단순히 개별 hallucination의 합이 아닌, 언어와 모달리티 간의 상호작용을 고려한 설계.

Limitation & Further Study

데이터셋 규모: 구체적인 데이터셋 크기나 언어 수, 이미지 수에 대한 정보가 부재하여 벤치마크의 규모를 파악하기 어렵다.
Language 범위의 제한: 제시된 예시에서는 중국어만 보이며, 실제 커버하는 언어의 다양성에 대한 명시가 부족하다.
Hallucination 생성 방식의 자동화: Cross-lingual hallucination의 intentional 오류 생성 방식이 실제 모델의 hallucination 패턴과 얼마나 부합하는지 검증이 필요하다.
모델 평가 범위: 주로 vision-language model 기반 MLLM만 평가되었으며, text-only LLM의 cross-lingual hallucination은 제한적으로만 다루어진 것으로 보인다.

후속 연구 방향:

더 많은 언어와 더 큰 규모의 데이터셋 확장.
Cross-modal과 cross-lingual hallucination 간의 상호작용 메커니즘에 대한 심층 분석.
각 hallucination 유형별 완화 전략의 성능 차이에 대한 더 정밀한 분석.

Evaluation

Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

총평: 본 논문은 현재까지 미흡했던 joint cross-lingual and cross-modal hallucination 검출 문제를 처음으로 체계화하고, 이를 평가할 수 있는 포괄적 벤치마크 CCHall을 제시한다. 기존 연구의 분산된 접근과 달리 실제 응용 환경의 복합 hallucination 문제를 통합적으로 다루는 점에서 높은 가치를 지니며, 광범위한 모델 평가를 통해 현 LLM의 심각한 한계를 실증한다. 다만 데이터셋 구성의 구체적 정보와 언어 다양성에 대한 설명이 보강되면 더욱 강화될 수 있을 것이다.