Leveraging LLMs in Scholarly Knowledge Graph Question Answering

저자: Tilahun Abedissa Taffa, Ricardo Usbeck | 날짜: 2023-11-16 | DOI: 미공개 📄 PDF

Essence

학술 KGQA 모델의 전체 파이프라인

본 논문은 대규모 언어모델(LLM)을 활용하여 학술 지식 그래프에 대한 자연어 질문을 SPARQL 쿼리로 변환하는 few-shot 기반 접근법을 제시하며, SciQA 벤치마크에서 F1 스코어 0.99를 달성했다.

Motivation

Known: 기존 KGQA 시스템은 retriever-reasoner 또는 semantic parsing 기반 접근법을 사용하지만, 두 방식 모두 대량의 학습 데이터가 필요함. 특히 학술 KGQA 데이터셋의 부족으로 인해 일반 KGQA보다 더 어려운 상황
Gap: LLM이 생백과사전(Wikidata)에 대해서는 zero-shot으로도 우수한 SPARQL 생성이 가능하지만, ORKG(Open Research Knowledge Graph)의 스키마를 모르기 때문에 올바른 쿼리를 생성하지 못함
Why: 학술 지식 그래프는 도메인 특화적이며 스키마가 다르므로, few-shot prompting을 통해 LLM이 학습 질문-SPARQL 쌍으로부터 패턴을 학습하도록 유도할 필요가 있음
Approach: BERT 기반 문장 인코더로 유사 질문을 검색하고, top-n개의 유사 질문-SPARQL 쌍을 프롬프트의 예제로 활용하여 LLM(Vicuna-13B)이 대상 질문에 대한 SPARQL을 생성하도록 함

Achievement

ChatGPT 3.5의 zero-shot SPARQL 생성: Wikidata(좌)에서는 성공, ORKG(우)에서는 실패

우수한 성능: SciQA 벤치마크에서 F1 스코어 0.99(top-3 few-shot) 달성, Scholarly-QALD-23 챌린지에서 2위 랭크
Few-shot 최적화: 1-shot(F1=0.96) → 3-shot(F1=0.99) → 5-shot(F1=0.989)의 결과를 통해 과도한 예제의 부정적 영향을 실증적으로 입증

How

질문 분석(Question Analysis): BERT 기반 문장 인코더를 사용하여 학습 데이터셋의 모든 질문을 오프라인으로 임베딩하고, 테스트 질문과의 코사인 유사도를 기반으로 top-5 유사 질문 선택
쿼리 생성(Query Generation): 프롬프트 템플릿에 유사 질문-SPARQL 쌍(n=1,3,5)을 예제로 포함하고, "Generate SPARQL queries to query the ORKG" 지시문과 함께 Vicuna-13B 인스턴스에 입력
답변 추출(Answer Extraction): 생성된 SPARQL 쿼리의 특수문자/줄바꿈 정리 후 ORKG SPARQL 엔드포인트에 실행하여 최종 답변 반환

Originality

BERT 기반 문장 유사도와 few-shot LLM prompting을 결합한 학술 KGQA 접근법 제시
기존의 T5 기반 fine-tuning(DBLP-QuAD) 또는 triple-to-text 변환(JarvisQA)과 달리, 소수의 예제만으로 추가 사전학습 없이 학술 지식 그래프에 적응하는 방식 제안
Few-shot 수(1, 3, 5)에 따른 성능 변화를 체계적으로 분석하고, 과도한 예제로 인한 성능 저하 메커니즘 규명

Limitation & Further Study

데이터셋 편향성: 테스트 질문이 학습에 사용된 템플릿으로부터 생성되지 않아 모델이 상대적으로 쉬운 과제에 최적화되었을 가능성. 실제 사람이 작성한 질문에 대한 범용성은 미검증
null 답변 문제: 개발셋에서 모델이 생성한 null 답변(3-shot: 23개, 5-shot: 25개)이 실제 null 답변(14개)을 초과하며, 구문 오류로 인한 null 답변 비율 증가 추세 확인 필요
도메인 제한성: Computer Science 연구 논문에만 특화되어 있으며, 다른 학술 도메인(생명과학, 사회과학 등)에의 전이 학습 효과 미검증
후속 연구 방향: (1) 다양한 LLM 아키텍처(GPT-4, LLaMA-2 등) 비교, (2) 프롬프트 엔지니어링 최적화, (3) 구문 오류 감지 및 자동 수정 메커니즘 개발, (4) 크로스 도메인 평가

Evaluation

총평: 본 논문은 LLM의 few-shot 능력을 학술 KGQA에 효과적으로 적용하여 우수한 성능을 달성했으나, 템플릿 기반 데이터셋의 특수성과 제한된 도메인으로 인해 실제 학술 검색 시스템으로의 배포 가능성에는 추가 검증이 필요하다.

같이 보면 좋은 논문

기반 연구

SciBERT: A Pretrained Language Model for Scientific Text

SciBERT 등 과학 분야 특화 언어 모델의 기반 연구로, 학술 지식 그래프 질의 응답 전반에 이론적 배경을 제공합니다.

기반 연구

Automated latex code generation from handwritten math expressions using vision transformer

학술 질의응답에서 LLM의 자연어 처리 및 코드 변환 응용의 기반을 제공합니다.

다른 접근

Factkg: Fact verification via reasoning on knowledge graphs

333은 지식 그래프 기반 사실 검증을 다루어, 488의 LLM-기반 지식 그래프 질의 응답과 목표 영역이 겹치지만 방법론이 다릅니다.

다른 접근

Leveraging LLMs in Scholarly Knowledge Graph Question Answering

406(HLM-Cite)은 LLM과 기존 워크플로우 결합을 통한 학술 질의응답 자동화의 또 다른 방식입니다.

다른 접근

Scidqa: A deep reading comprehension dataset over scientific papers

715는 과학적 심층 읽기 질의응답 데이터셋으로, 488의 SciQA와 달리 자연어 질의 응답의 난이도를 별도로 실험합니다.

다른 접근

KGValidator: A framework for automatic validation of knowledge graph construction

LLM 기반 학술 지식 그래프 질의응답 방법 연구로, LLM이 지식 검증에 어떻게 활용될 수 있는지 대안 사례를 제시한다.

다른 접근

ClinicalGPT-R1: Pushing reasoning capability of generalist disease diagnosis with large language model

의료 지식 그래프가 아닌 임상 데이터셋 기반 추론 QA로, 서로 다른 접근방식을 비교할 수 있습니다.

다른 접근

MedBioLM: Optimizing Medical and Biological QA with Fine-Tuned Large Language Models and Retrieval-Augmented Generation

의학 및 생명과학 관련 지식 그래프 질의응답에 LLM 기반 방식을 적용하여, MedBioLM의 접근법과 비교할 수 있는 대안적 솔루션을 제시합니다.

다른 접근

Classical RAG for Semantic Search & Quantum Modules for Research Evaluation

벡터 기반 검색과 LLM을 활용한 정보 검색 시스템 연구이다.

후속 연구

HLM-Cite: Hybrid Language Model Workflow for Text-based Scientific Citation Prediction

Leveraging LLMs in Scholarly Knowledge Graph Question Answering 논문은 논문 그래프 기반 문헌간 의미 추출과 지식그래프 활용을 확장한다.

후속 연구

Mapping Knowledge: Topic Analysis of Science Locates Researchers in Disciplinary Landscape

과학 계에서 의미 네트워크 및 주제 분석 기반 연구자 위치 추정 프레임워크와, LLM 기반 학술 지식 그래프 QA의 상호 활용 방안을 시사한다.

후속 연구

Clinical entity augmented retrieval for clinical information extraction

임상 및 바이오메디컬 정보 추출에서 지식 그래프 기반 질의응답을 LLM으로 구현하는 확장 연구이다.

응용 사례

A Survey on Knowledge Graphs: Representation, Acquisition, and Applications

학술 지식그래프 기반 QA 시스템의 자동화 개발케이스로, 논문의 지식그래프 활용 실전효과를 비교 평가할 수 있습니다.

응용 사례

ClinicalGPT: Large Language Models Finetuned with Diverse Medical Data and Comprehensive Evaluation

488은 임상 도메인의 지식그래프 QA 영역에서 LLMs의 활용도를 실제 진단 문제에 적용하여, ClinicalGPT가 시도한 의학적 질의응답의 실효성을 평가합니다.

응용 사례

Forecasting the future of artificial intelligence with machine learning-based link prediction in an exponentially growing knowledge network

AI 논문에서 개념 노드 네트워크와 의미 기반 질의응답 시스템이 조화롭게 연결되는 실제적 예시를 제공한다.

응용 사례

Research hypothesis generation over scientific knowledge graphs

488번은 지식그래프 기반 LLM 질의응답 응용을 다루어, 666번의 연구 가설 생성 메커니즘의 실제 활용 사례로 연결된다.

← 목록으로 돌아가기