Pre: A peer review based large language model evaluator

같이 보면 좋은 논문

기반 연구

Augmented Language Models: a Survey

Augmented Language Models: a Survey 논문은 LLM을 기반으로 다양한 평가·보정 방법의 이론적 배경을 정리합니다.

기반 연구

Unveiling the sentinels: Assessing ai performance in cybersecurity peer review

629 논문은 Peer Review 평가에 특화된 LLM 평가기제 연구로, 860의 사이버보안 학술지 자동 평가의 기술적 배경이 됩니다.

기반 연구

Automated review generation method based on large language models

126번 논문은 LLM 기반 리뷰 자동화에 관한 기본 틀과 메트릭을 제공해 Pre 어프로치의 이론적 기반이 됩니다.

기반 연구

InterFeedback: Unveiling interactive intelligence of large multimodal models via human feedback

인간-모델 상호작용 기반 피드백 평가 프레임워크 논의가 LLM 기반 자동 동료평가 시스템의 평가 방향에 이론적으로 기여합니다.

기반 연구

ReviewEval: An evaluation framework for AI-generated reviews

LLM 기반 동료평가자 선정과 다중 평가 모델 논의가 신뢰성 평가 프레임워크의 이론적 근거로 활용됩니다.

기반 연구

Detecting LLM-written Peer Reviews

Pre: A peer review based large language model evaluator 논문은 LLM 기반 리뷰 평가의 방법적 기반을 제공하여, LLM 생성 리뷰 탐지 시스템의 이론적 토대를 이룹니다.

다른 접근

The open review-based (orb) dataset: Towards automatic assessment of scientific papers and experiment proposals in high-energy physics

Pre 프레임워크는 동료평가 기반 LLM 평가자 구조를, ORb 데이터셋은 논문 리뷰 평가용 실제 데이터로 자동화 평가의 대안을 제공합니다.

다른 접근

Uncertainty quantification in scientific machine learning: Methods, metrics, and comparisons

학술적 평가용 LLM의 성능 평가와 신뢰성 문제도 다루며, 신경망 기반 과학적 예측의 불확실성 신뢰성과 직접 연결된다.

다른 접근

ReviewerGPT? An Exploratory Study on Using Large Language Models for Paper Reviewing

Peer review 메커니즘에서 영감을 얻은 LLM 평가 방식과, GPT를 이용한 자동 리뷰 생성을 사용하는 ReviewerGPT 논문을 비교해볼 수 있습니다.

다른 접근

RelevAI-Reviewer: A Benchmark on AI Reviewers for Survey Paper Relevance

629번 논문은 동료평가 평가를 위한 LLM 기반 시스템을 다루며, 664번 논문이 제시한 논문 관련성 자동 평가지표와 비교된다.

다른 접근

Bridging social psychology and llm reasoning: Conflict-aware meta-review generation via cognitive alignment

동료평가(피어리뷰) 과정의 자동화와 LLM을 활용한 평가 편향 완화 방법을 각각 제시하여 비교 연구에 유용합니다.

다른 접근

Confidence in Large Language Model Evaluation: A Bayesian Approach to Limited-Sample Challenges

Pre: A peer review based large language model evaluator 논문은 확률적/다중 모델 평가 프레임보다 실제 peer review를 통해 평가 신뢰도 문제에 접근한다.

다른 접근

Automatic evaluation metrics for artificially generated scientific research

Pre: Peer Review 기반 LLM 평가 논문은 논문 리뷰/메트릭의 대안적 자동 평가 방법론을 제공합니다.

다른 접근

Cross sectional pilot study on clinical review generation using large language models

629는 Peer Review 평가에 특화된 LLM 기반 평가지표를 도입하여, 244의 임상 리뷰 평가 방식과는 상이한 정량평가 접근을 보여줍니다.

다른 접근

Three AI-powered steps to faster, smarter peer review

629 논문은 Peer Review 평가에 최적화된 LLM 기반 평가기제를 제안하여, 809의 리뷰 프로세스 가속 방식과 문제 해결에 상이한 접근을 시도합니다.

후속 연구

The open review-based (orb) dataset: Towards automatic assessment of scientific papers and experiment proposals in high-energy physics

629의 Peer Review 기반 LLM 성능 평가자 개발은 803의 OpenReview 기반 데이터셋 구축과 직결됩니다.

후속 연구

Supporting assessment of novelty of design problems using concept of problem sapphire

Supporting assessment of novelty of design problems 논문은 LLM이 생성한 피어 리뷰를 바탕으로 실제 디자인 문제에서의 출처성 평가 등 PRE의 응용 사례를 보여준다.

후속 연구

Towards effective extraction and evaluation of factual claims

LLM 평가자의 주장을 품질로 평가하는 프레임워크는 논문의 주장 추출 및 평가와 관련이 깊습니다.

후속 연구

ReviewEval: An evaluation framework for AI-generated reviews

AI 생성 리뷰 및 LLM 평가지표의 신뢰성 평가를 후속 연구로, 다양한 평가지표 및 개선 루프 제안이 비슷한 문제를 다룹니다.

후속 연구

InterFeedback: Unveiling interactive intelligence of large multimodal models via human feedback

LLM간 상호 피드백 평가를 다루며, 인간 피드백 기반 상호작용 평가 프레임워크와 AI 기반 평가지표의 상호 보완 관계를 보여줍니다.

응용 사례

OpenReviewer: A specialized large language model for generating critical scientific paper reviews

629번은 피어리뷰 자동 평가(based on peer review)를 다루어, 592번이 생성한 AI 심사평의 품질과 효과 측정 방법에 실질적 피드백을 제공한다.

응용 사례

Transforming Science with Large Language Models: A Survey on AI-assisted Scientific Discovery, Experimentation, Content Generation, and Evaluation

AI를 활용한 학술 평가 자동화 방안이 AI 기반 연구생명주기 자동화 논의와 직접 연결됩니다.

반론/비판

Automatically evaluating the paper reviewing capability of large language models

LLM 리뷰 생성 능력의 한계를 자동 평가 관점에서 분석하여 Pre의 peer review 기반 평가 방식의 한계와 보완점을 제시합니다.

Pre: A peer review based large language model evaluator

Essence

Motivation

Achievement

How

Originality

Limitation & Further Study

Evaluation

같이 보면 좋은 논문

Pre: A peer review based large language model evaluator

Essence

Motivation

Achievement

How

Originality

Limitation & Further Study

Evaluation

같이 보면 좋은 논문

🎧 Audio Overview