Automated Hypothesis Validation with Agentic Sequential Falsifications

Motivation

Known:
- 가설은 의사결정과 과학적 발견의 중심축
- LLM이 대량의 가설을 생성하는 능력 보유
- 추상적 가설을 직접 검증하기 어려움
Gap:
- LLM 생성 가설의 할루시네이션 문제
- 수백~수천 개의 가설을 수작업으로 검증 불가능
- 추상적 가설을 측정 가능한 함의로 자동 분해 필요
- 기존 자동화 검증 프레임워크의 통계적 엄격성 부족
Why:
- 거짓 양성(false positive) 검증으로 인한 자원 낭비와 신뢰 손상 방지
- 다양한 도메인에서 확장 가능한 검증 시스템 필요
Approach:
- 두 개의 특화된 LLM 에이전트 구조 (실험 설계 에이전트 + 실행 에이전트)
- 칼 포퍼의 반박 원칙 기반 반복적 가설 검증
- 순차적 검정(sequential testing) 프레임워크로 e-값 집계

POPPER의 특성: (1) 생물학적으로 타당한 반박 실험 설계 (2) 순차적 오류 제어 성능

2단계 에이전트 구조:
- 실험 설계 에이전트: 주 가설에서 측정 가능한 부 가설(sub-hypothesis) 도출 → 명확한 귀무가설/대립가설 수립 → 반박 실험 설계
- 실험 실행 에이전트: ReAct 기반 동작으로 데이터 검색, 전처리, 통계 분석 수행 → p-값 생성
자체 정제(Self-Critique) 메커니즘:
- 인과성, 데이터 가용성, 중복성 검토
- 관련성 검증기(relevance checker)를 통한 LLM-as-a-judge 평가
순차적 검정 프레임워크 (Sequential Testing):
- p-값 → e-값(e-value) 변환: $e_i = p_i^{-1}$
- 누적 증거 집계: $E = \prod_{j=1}^{i} e_j$
- 조기 종료 규칙: $E \geq 1/\alpha$ 이면 귀무가설 기각, $E < 1/\alpha$ 이면 다음 실험 진행
- Any-time validity 보장으로 동적 의사결정 가능
문제 정식화:
- 가설 H를 {변수, 관계, 문맥} 삼중쌍으로 표현
- 검증 함수 $f: H \rightarrow \{0,1\}$ (0=미검증, 1=검증)
- 목표: $\sup_{P \in P_0} P(\hat{y}=1) \leq \alpha$ (제1종 오류 제어)

LLM 의존성: 에이전트의 성능이 기저 LLM 모델의 능력에 직결되며, 새로운 도메인에서의 일반화 능력 미확인
부 가설 생성의 창의성 제약: 측정 가능한 함의를 발견하는 데 있어 LLM의 창의성이 제한될 수 있으며, 중요한 함의 누락 가능성
실험 설계 복잡도: 복잡한 인과적 가설의 경우 적절한 통제 실험 설계가 어려울 수 있음
데이터 가용성 의존: 존재하는 데이터셋에 의존하며, 새로운 유형의 데이터 수집 자동화는 제한적
사람-기계 협력의 최적화: 언제 인간 전문가의 개입이 필요한지, 어느 단계에서 개입해야 하는지에 대한 연구 부족
후속 연구 방향:
- 더 복잡한 인과 가설 검증 능력 강화
- 다중 에이전트 협력을 통한 검증 과정의 견고성 향상
- 실측 실험 설계 자동화 확대
- 도메인별 특화 파인튜닝 및 전이 학습 메커니즘 개발