HLM-Cite: Hybrid Language Model Workflow for Text-based Scientific Citation Prediction

Motivation

Known: 기존 인용 예측 연구는 인용 관계를 단순히 이진 분류(인용/비인용)로 처리하며, 인용 네트워크의 간선 정보만을 활용해 논문 간의 논리적 관계를 충분히 파악하지 못함.
Gap: 한 논문이 여러 논문을 인용할 때, 그 역할이 기초 지식(foundational knowledge)부터 표면적 언급(superficial context)까지 크게 다르다는 중요한 점이 미처 다루어지지 않음. 또한 LLM의 맥락 길이 제한(context length)으로 인해 수백만 개의 후보 논문을 동시에 처리할 수 없음.
Why:
- 12M개 논문 분석 결과, 핵심 인용이 표면적 인용보다 쿼리 논문과 더 높은 키워드 중복도(Figure 1b)와 주요 텍스트 내 언급 빈도(Figure 1c)를 보임
- 미래의 인용 논문들이 현재 논문의 핵심 인용을 함께 인용하는 경향이 있음
Approach:
1. 인용 네트워크의 지역적 구조(future citations)를 이용해 핵심 인용을 정의
2. 임베딩 모델(retrieval)과 생성형 LLM(reasoning)을 순차적으로 결합해 대규모 후보 집합 처리

Achievement

Figure 2: 제안된 HLM-Cite 워크플로우의 구조. (a) 전체 개요: 검색 모듈과 LLM 에이전트 순위 결정 모듈의 두 단계. (b) 검색 모듈의 커리큘럼 파인튜닝: 분류(Stage 1)에서 순위 결정(Stage 2) 태스크로 전이. (c) LLM 에이전트 순위 결정: Guider, Analyzer, Decider의 세 역할 분담

핵심 인용 개념 도입:
- 수학적 정의: $\tilde{S}_q = \{s_q \in S_q | \exists p \in F_q, q \in S_p, s_q \in S_p\}$ (미래 인용 논문과의 공통 인용 기반)
- 기존의 단순 이진 분류를 세 가지 카테고리(핵심/표면적/비인용) 구분 문제로 확장
- 19개 과학 분야 13개 지표에서 통계적 유의성 확인
확장된 방법론 개발:
- 100K 규모의 후보 집합 처리 가능 (기존 방법 대비 수천 배 향상)
- SOTA 대비 17.6% 성능 개선 (정확도 메트릭)
- 크로스필드(cross-field) 데이터셋에서 일반화 성능 입증

How

Figure 3: LLM 에이전트 순위 결정 모듈의 사례 연구. Guider의 원샷 학습 예시(2→3→1의 정렬)를 통해 Analyzer와 Decider가 논리적 관계를 추론하고 순위를 결정

2단계 하이브리드 워크플로우

Stage 1: 검색 모듈 (Embedding-based Retrieval)

사전학습된 텍스트 임베딩 모델을 커리큘럼 파인튜닝으로 적응
- Stage 1 (분류): CrossEntropy Loss로 핵심/표면적 인용 이진 분류 학습
- Stage 2 (순위 결정): NeuralNDCG Loss로 순위 학습으로 전이 (ranking-aware)
- 제목+초록만 사용하여 768차원 임베딩 생성
대규모 후보 집합(Cq)에서 고확률 핵심 인용 추출 (반환 집합 Rq)

Stage 2: LLM 에이전트 순위 결정 모듈 (Generative LLM-based Reasoning)

3-역할 에이전트 아키텍처:
- Guider: 원샷(one-shot) 학습 예시 제공, 쿼리 논문이 왜 특정 논문을 인용하는지 설명
- Analyzer: 각 검색된 후보 논문에 대해 쿼리 논문과의 논리적 관계 분석
- Decider: 최종 순위 결정
암시적 논리 관계를 명시적 추론으로 전환