HypoBench: Towards Systematic and Principled Benchmarking for Hypothesis Generation

Motivation

Known: LLM의 가설 생성에 대한 관심이 증가하고 있으며, AI를 과학 발견 보조에 활용하려는 연구가 활발하다. 그러나 기존 연구들은 가설 생성과 관련 개념(예: 연구 아이디어 생성)을 혼동하고 통일된 평가 기준과 데이터셋을 공유하지 않고 있다.
Gap: 가설 생성의 정의가 모호하고, 평가 능력(explanatory power vs. novelty)의 우선순위가 불명확하며, 체계적 벤치마크가 부재하다. 특히 DiscoveryBench와 달리 비정형 관측 데이터에서 특성을 추출하는 과정의 복잡성을 충분히 다루지 못했다.
Why: 과학적 발견과 일상적 추론 모두에서 가설 생성이 중요하므로, 명확한 문제 정의와 체계적 벤치마크가 필요하다. 특히 난이도를 제어할 수 있는 합성 데이터셋을 통해 모델의 약점을 정확히 진단할 수 있다.
Approach: (1) 가설 생성을 "관찰된 현상에 대한 자연언어 이론/설명 생성"으로 명확히 정의하고, (2) 귀납적/연역적 추론, 추상화, 합성 능력을 평가하며, (3) 설명력(explanatory power)을 첫 번째 평가 기준으로 삼고 흥미로움(interestingness)은 부차적으로 취급하는 평가 틀을 구축한다.

대학 입시 예시를 통해 합성 데이터셋의 난이도 제어 메커니즘을 보여줌: 특성 개수 증가, 노이즈 추가, 특성 상호작용, 방해 특성 추가

최초의 체계적 벤치마크 구축: 실제 과제 7개(사기 리뷰 탐지, AI 생성 콘텐츠 식별, 설득력 있는 주장 예측, 정신 스트레스 감지, 뉴스 헤드라인 참여도, 리트윗, 논문 인용)와 합성 과제 5개(대선, 성격 예측, 해양 생태계, 대학 입시, 신발 판매)로 구성된 194개 데이터셋 제공.
방법론 비교 분석: 4개 최신 LLM(GPT-4, Claude, Qwen, Llama)과 6개 기존 가설 생성 방법(Zero-shot, Few-shot, Literature-Only, Data-Only, Literature+Data, HypoGeniC)을 종합 평가. 실제 데이터에서는 Literature+Data 방식과 Qwen 모델이 최고 성능.
난이도 제어를 통한 성능 저하 분석: 기본 합성 과제에서 93.8% 가설 발견율(HDR)을 보이나, 난이도 증가(특성 상호작용, 노이즈 추가, 방해 특성)에 따라 38.8%까지 급격히 저하되어 개선 여지 입증.
일반화 능력 평가: 도메인 내(IND)와 도메인 외(OOD) 분할을 통해 발견된 가설의 실제 일반화 능력 측정, 기존 방법들의 플로시빌리티(plausibility)와 참신성(novelty) 간 균형 문제 지적.

형식적 문제 정의: 관찰 데이터 D와 문헌 L_Q로부터 현상 Q에 대한 가설 H를 생성. 잠재 변수 z를 통해 y = f(z)이고, 관찰 x = g(z)의 역과정을 통해 인코딩된 특성 추출.
실제 데이터셋 구성: 기존 연구에서 채택한 6개 과제에 논문 인용 과제 추가. 각 과제마다 관련 문헌 수집 및 IND/OOD 분할을 통해 도메인 이동(domain shift) 시 일반화 능력 평가.
합성 데이터셋 설계: 로지스틱 회귀(선형 관계)와 의사결정나무(비선형 상호작용)를 기반으로 그라운드 트루스 가설 생성. 난이도 제어 변수 4가지:
- 특성 개수 증가
- 라벨 노이즈(10% 확률 뒤집기)
- 특성 상호작용
- 방해 특성(distractor features) 추가
평가 지표:
- 설명력(Explanatory Power): F1 점수를 통한 예측 정확도
- 가설 발견율(HDR): 그라운드 트루스 가설과의 부분 일치 비율
- 흥미로움(Interestingness): 예비 측정으로 참신성과 플로시빌리티 평가
방법론 범주화:
1. 제로샷/퓨샷 생성
2. 문헌만 활용
3. 데이터만 활용
4. 문헌+데이터 결합(최고 성능)
5. HypoGeniC: 구조화된 프롬프트를 통한 체계적 생성

실제 데이터의 그라운드 트루스 부재: 7개 실제 과제의 경우 참된 가설이 미지수이므로, 전문가 평가나 다중 라벨링 등의 추가 검증 메커니즘이 필요. 현재는 모델 성능만 가늠 가능.
평가 메트릭의 미완성: 흥미로움(interestingness)에 대한 평가가 "예비 측정(preliminary)"으로 제시되었으며, 이를 객관적으로 정량화하기 위한 더 정교한 지표 개발 필요.
합성 데이터의 현실성 한계: 로지스틱 회귀와 의사결정나무를 기반으로 하는 설정은 해석 가능성이 높으나, 실제 세계의 복잡한 인과 구조(confounder, 숨겨진 변수)를 완전히 반영하지 못함.
LLM 의존성: 현재 4개 LLM만 평가되었고, 더 작은 모델(7B 규모)이나 다국어 모델의 성능 비교 부재. 또한 프롬프트 엔지니어링의 영향이 크므로, 더 체계적 프롬프트 최적화 연구 필요.
후속 연구 방향:
- 더 복잡한 인과 구조를 반영하는 합성 데이터셋 확대
- 실제 과제에 대한 전문가 검증 및 다중 라벨링
- 시간 의존성이나 동적 가설 생성 등 미다뤄진 영역 추가
- 해석 가능성(interpretability)과 설명성을 더 직접적으로 평가하는 메트릭 개발