RelevAI-Reviewer: A Benchmark on AI Reviewers for Survey Paper Relevance

์ €์ž: Paulo Henrique Couto, Quang Phuoc Ho, Nageeta Kumari, Benedictus Kent Rachmat, Thanh Gia Hieu Khuong, Ihsan Ullah, Lisheng Sun-Hosoya | ๋‚ ์งœ: 2024-06-13 | DOI: 10.48550/arXiv.2406.10294 📄 PDF


Essence

Figure 1

๊ทธ๋ฆผ 1: ํ”„๋กฌํ”„ํŠธ์™€ ๋…ผ๋ฌธ ๊ฐ„ ์ฝ”์‚ฌ์ธ ์œ ์‚ฌ๋„ ๋ถ„ํฌ. 4๊ฐœ์˜ ๊ด€๋ จ์„ฑ ๋ฒ”์ฃผ๋ณ„๋กœ ๋ช…ํ™•ํ•œ ๊ตฌ๋ถ„์ด ๋‚˜ํƒ€๋‚จ

๋ณธ ๋…ผ๋ฌธ์€ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์„ ํ™œ์šฉํ•˜์—ฌ ํ•™์ˆ  ๋…ผ๋ฌธ์˜ ๊ด€๋ จ์„ฑ์„ ์ž๋™์œผ๋กœ ํ‰๊ฐ€ํ•˜๋Š” ๋ถ„๋ฅ˜ ์‹œ์Šคํ…œ RelevAI-Reviewer๋ฅผ ์ œ์•ˆํ•˜๊ณ , 25,164๊ฐœ์˜ ์ธ์Šคํ„ด์Šค๋กœ ๊ตฌ์„ฑ๋œ ๋ฒค์น˜๋งˆํฌ ๋ฐ์ดํ„ฐ์…‹์„ ๊ณต๊ฐœํ•œ๋‹ค. BERT ๊ธฐ๋ฐ˜ ์ข…๋‹จ(end-to-end) ๋ถ„๋ฅ˜๊ธฐ๊ฐ€ ๊ธฐ์กด์˜ ์ง€๋„ํ•™์Šต ๋ฐฉ๋ฒ•๋“ค์„ ๋Šฅ๊ฐ€ํ•˜๋Š” ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ์Œ์„ ๋ณด์˜€๋‹ค.

Motivation

Achievement

Figure 2

๊ทธ๋ฆผ 2: ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ ํฌ๊ธฐ๋ณ„ SVC ์„ฑ๋Šฅ ๋ฐ F1-์ ์ˆ˜

Figure 3

๊ทธ๋ฆผ 3: ๋ฐ์ดํ„ฐ ํฌ๊ธฐ ๋ณ€ํ™”์— ๋”ฐ๋ฅธ BERT(์›-ํ•ซ, Thermometer), SVC์˜ Kendall's Tau ๋น„๊ต

  1. ๋ฒค์น˜๋งˆํฌ ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ•: 25,164๊ฐœ์˜ ๊ณ ํ’ˆ์งˆ ์ธ์Šคํ„ด์Šค๋ฅผ ํฌํ•จํ•˜๋Š” RelevAI-Reviewer ๋ฐ์ดํ„ฐ์…‹ ๊ณต๊ฐœ. ๊ฐ ์ธ์Šคํ„ด์Šค๋Š” ํ”„๋กฌํ”„ํŠธ 1๊ฐœ์™€ 4๊ฐœ์˜ ๊ด€๋ จ์„ฑ ์ˆ˜์ค€์ด ๋‹ค๋ฅธ ๋…ผ๋ฌธ์œผ๋กœ ๊ตฌ์„ฑ๋˜์–ด, 100,656๊ฐœ์˜ ํ•™์Šต ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ ์ƒ์„ฑ.
  2. ๋ช…ํ™•ํ•œ ๊ด€๋ จ์„ฑ ๊ตฌ๋ถ„: Figure 1์˜ ์ฝ”์‚ฌ์ธ ์œ ์‚ฌ๋„ ๋ถ„ํฌ ๋ถ„์„ ๊ฒฐ๊ณผ, ๊ฐ€์žฅ ๊ด€๋ จ์„ฑ ๋†’์€ ๋…ผ๋ฌธ๊ณผ ๋‘ ๋ฒˆ์งธ๋กœ ๋†’์€ ๋…ผ๋ฌธ ๊ฐ„์— ์ตœ์†Œ ์ค‘๋ณต์œผ๋กœ ๋ช…ํ™•ํ•œ ๊ตฌ๋ถ„์ด ์ด๋ฃจ์–ด์ ธ ๋ฐ์ดํ„ฐ์…‹ ํ’ˆ์งˆ์„ ๊ฒ€์ฆ.
  3. BERT ๋ชจ๋ธ์˜ ์šฐ์ˆ˜์„ฑ ์ž…์ฆ: BERT ๊ธฐ๋ฐ˜ ์ข…๋‹จ ๋ถ„๋ฅ˜๊ธฐ๊ฐ€ SVM ๋“ฑ ์ „ํ†ต์  ๋จธ์‹ ๋Ÿฌ๋‹ ๋ฐฉ๋ฒ•์„ ๋Šฅ๊ฐ€ํ•˜๋Š” ์„ฑ๋Šฅ ๋‹ฌ์„ฑ. Thermometer ์ธ์ฝ”๋”ฉ์„ ์‚ฌ์šฉํ•œ ๊ฒฝ์šฐ ์ˆœ์„œ ์ •๋ณด๋ฅผ ๋” ์ž˜ ํ•™์Šตํ•˜์—ฌ ๊ฐœ์„ ๋œ ๊ฒฐ๊ณผ ๋„์ถœ.
  4. ๊ณต๊ฐœ ๋ฒค์นญ ํ”Œ๋žซํผ ์ œ๊ณต: ํ•™์ˆ  ์ปค๋ฎค๋‹ˆํ‹ฐ์˜ ์ฐธ์—ฌ๋ฅผ ์ด‰์ง„ํ•˜๊ธฐ ์œ„ํ•ด ์ด ๊ณผ์ œ๋ฅผ ๊ณต๊ฐœ ๋ฒค์น˜๋งˆํฌ๋กœ ์ œ์‹œํ•˜์—ฌ ์ถ”๊ฐ€ ๋ชจ๋ธ ๊ฐœ๋ฐœ ๋ฐ ๊ฐœ์„  ๊ธฐํšŒ ์ œ๊ณต.

How

Figure 4

๊ทธ๋ฆผ 4: ์›-ํ•ซ ์ธ์ฝ”๋”ฉ์„ ์‚ฌ์šฉํ•œ BERT์˜ F1-์ ์ˆ˜

Figure 5

๊ทธ๋ฆผ 5: Thermometer ์ธ์ฝ”๋”ฉ์„ ์‚ฌ์šฉํ•œ BERT์˜ F1-์ ์ˆ˜

๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ• (Section 2)

๋ถ„๋ฅ˜ ๋ชจ๋ธ ๋ฐ ์ธ์ฝ”๋”ฉ (Section 3)

Originality

Limitation & Further Study

ํ˜„์žฌ ํ•œ๊ณ„

ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

Evaluation

Novelty: 4/5 Technical Soundness: 3.5/5 Significance: 4/5 Clarity: 4/5 Overall: 3.8/5

์ดํ‰: ๋ณธ ๋…ผ๋ฌธ์€ ํ•™์ˆ  ๋…ผ๋ฌธ ๊ด€๋ จ์„ฑ ํ‰๊ฐ€์˜ ์ž๋™ํ™”๋ฅผ ์œ„ํ•œ ์‹ค์šฉ์ ์ธ ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ตœ์ดˆ๋กœ ์ œ๊ณตํ•˜๋ฉฐ ๊ณต๊ฐœ ํ”Œ๋žซํผ์„ ํ†ตํ•ด ์ปค๋ฎค๋‹ˆํ‹ฐ ์ฐธ์—ฌ๋ฅผ ์œ ๋„ํ•˜๋Š” ์ ์ด ๊ฐ€์น˜์žˆ์œผ๋‚˜, ์ธ๊ณต ๋ฐ์ดํ„ฐ ์ƒ์„ฑ์˜ ์‹ ๋ขฐ์„ฑ ๋ฌธ์ œ์™€ ๋‹จ์ผ ํ‰๊ฐ€ ๊ธฐ์ค€๋งŒ ๋‹ค๋ฃฌ ์ ์—์„œ ๊ฐœ์„ ์˜ ์—ฌ์ง€๊ฐ€ ์žˆ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
BERT ๋ฐ ํŒŒ์ƒ ๋ชจ๋ธ์˜ ํ•™์ˆ ์  ์ ์šฉ๊ณผ, ๋…ผ๋ฌธ ๋ถ„๋ฅ˜/ํ‰๊ฐ€์—์„œ์˜ ์„ฑ๋Šฅ ๋ฒค์น˜๋งˆํฌ๊ฐ€ RelevAI-Reviewer์˜ ๋ฐฐ๊ฒฝ์ด ๋œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
041์€ AI์˜ ํ•™์ˆ  ์—ฐ๊ตฌ ์ง€์› ๋Šฅ๋ ฅ์„ ์ฒด๊ณ„์ ์œผ๋กœ ํ‰๊ฐ€ํ•˜์—ฌ, 664์˜ ์ž๋™ ํ‰๊ฐ€ ๋ฒค์น˜๋งˆํ‚น ์—ฐ๊ตฌ์˜ ์ด๋ก ์  ๋ฐฐ๊ฒฝ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
664๋ฒˆ ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜ ๋…ผ๋ฌธ ๊ด€๋ จ์„ฑ ํ‰๊ฐ€ ๋ฒค์น˜๋งˆํฌ๋ฅผ ๋„์ž…ํ•˜์—ฌ, 860๋ฒˆ์˜ ๋…ผ๋ฌธ ์ˆ˜์šฉ/๊ฑฐ์ ˆ ์˜ˆ์ธก๊ณผ ์œ ์‚ฌ ๋ถ„์•ผ ๋‚ด ๋‹ค๋ฅธ ํ‰๊ฐ€ ๋ฐฉ์‹์œผ๋กœ ์ฐธ๊ณ ํ•  ๋งŒํ•˜๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
AI ๋ฆฌ๋ทฐ์–ด๊ฐ€ ์„œ๋ฒ ์ด ๋…ผ๋ฌธ ํ‰๊ฐ€์— ์ ์šฉ๋  ๋•Œ์˜ ์„ฑ๋Šฅ์„ ๋‹ค๋ฃจ๋ฉฐ, LLM์˜ ์‹ค์ œ ํ™œ์šฉ ํšจ๊ณผ์™€ ํ•œ๊ณ„๋ฅผ ๋น„๊ตํ•ด๋ณผ ์ˆ˜ ์žˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
629๋ฒˆ ๋…ผ๋ฌธ์€ ๋™๋ฃŒํ‰๊ฐ€ ํ‰๊ฐ€๋ฅผ ์œ„ํ•œ LLM ๊ธฐ๋ฐ˜ ์‹œ์Šคํ…œ์„ ๋‹ค๋ฃจ๋ฉฐ, 664๋ฒˆ ๋…ผ๋ฌธ์ด ์ œ์‹œํ•œ ๋…ผ๋ฌธ ๊ด€๋ จ์„ฑ ์ž๋™ ํ‰๊ฐ€์ง€ํ‘œ์™€ ๋น„๊ต๋œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
AI ๋ฆฌ๋ทฐ์–ด์˜ ์„œ๋ฒ ์ด ๋ฆฌ๋ทฐ ํ‰๊ฐ€ ๋ฒค์น˜๋งˆํฌ์™€, ๋™์  ๋ฆฌ๋ทฐ ๋Œ€ํ™” ๋ฐ์ดํ„ฐ์…‹์„ ๋น„๊ต ๋ถ„์„ํ•จ์œผ๋กœ์จ LLM ๊ธฐ๋ฐ˜ ํ”ผ์–ด๋ฆฌ๋ทฐ ํ‰๊ฐ€๋ฐฉ์‹์˜ ์ฐจ๋ณ„์ ์„ ์•Œ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
677์€ ํ”„๋กฌํ”„ํŠธ ์ตœ์ ํ™” ๊ธฐ๋ฐ˜ AI ํ”ผ์–ด ๋ฆฌ๋ทฐ ์ƒ์„ฑ์— ์ง‘์ค‘ํ•˜์—ฌ, ๊ด€๋ จ์„ฑ ํ‰๊ฐ€ ์‹œ์Šคํ…œ์ธ 664์™€๋Š” ๋‹ค๋ฅธ ํ•ด๊ฒฐ์ฑ…์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
676๋ฒˆ ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜์˜ ๋ฆฌ๋ทฐ ์ƒ์„ฑ ์ตœ์ ํ™” ๋ฐฉ๋ฒ•์„ ํƒ๊ตฌํ•˜์—ฌ, ์ž๋™ ๋…ผ๋ฌธ ๊ด€๋ จ์„ฑ ํ‰๊ฐ€(664)์™€ ๋™์ผํ•œ ๋ฌธ์ œ๋ฅผ ๋‹ค๋ฅธ ๋ฐฉ์‹์œผ๋กœ ์ ‘๊ทผํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
AI ๋ฆฌ๋ทฐ์–ด์— ๋Œ€ํ•œ ์„ฑ๋Šฅ ๋ฐ ์‹ ๋ขฐ์„ฑ ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ๊ณตํ•˜์—ฌ LLM ๊ธฐ๋ฐ˜ ํ”ผ์–ด๋ฆฌ๋ทฐ์˜ ์‹ค์ œ ํ’ˆ์งˆ์— ๋Œ€ํ•œ ํ‰๊ฐ€๋ฅผ ๋ณด์™„ํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
AI ๊ธฐ๋ฐ˜ ๋ฆฌ๋ทฐ์–ด ์ž๋™ํ™” ๋ฒค์น˜๋งˆํฌ ๋…ผ๋ฌธ์œผ๋กœ, ๋‹ค์–‘ํ•œ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ์™€ ํ‰๊ฐ€ ๊ธฐ์ค€ ๊ตฌ์ถ•๊ณผ์˜ ์—ฐ๊ณ„ ์—ฐ๊ตฌ์— ์ฐธ๊ณ ๋œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
RelevAI-Reviewer๋Š” AI ๊ธฐ๋ฐ˜ ์ง„๋‹จ ๋ฐ ๋ฆฌ๋ทฐ ์—์ด์ „ํŠธ ํ‰๊ฐ€๋กœ, DeepCRE์˜ ํšจ๊ณผ์„ฑ๊ณผ ์‹ค์ œ ์ž„์ƒ ์ ์šฉ์—์„œ์˜ ์„ฑ๋Šฅ ํ‰๊ฐ€๋ฅผ ์œ„ํ•œ ํ™•์žฅ์  ์ ‘๊ทผ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
877๋ฒˆ ๋…ผ๋ฌธ์€ LLM์„ ํ™œ์šฉํ•œ ๋™๋ฃŒํ‰๊ฐ€์—์„œ ๋…ผ๋ฌธ์˜ ์ฃผ์š” ๋ฌธ์ œ์ ์„ ์‹ฌ์ธต ๋ถ„์„ํ•˜์—ฌ, 664๋ฒˆ์˜ ์ž๋™ ํ‰์  ์‹œ์Šคํ…œ ๋ณด์™„์— ์‹ค์ฆ์  ์ธ์‚ฌ์ดํŠธ๋ฅผ ์ œ๊ณตํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
664 ๋…ผ๋ฌธ์€ ์„œ๋ฒ ์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ ๊ณผ์ •์—์„œ AI ๋ฆฌ๋ทฐ์–ด์˜ ํ‰๊ฐ€ ํ’ˆ์งˆ ๋ฐ ํ”„๋ ˆ์ž„์„ ๋ฒค์น˜๋งˆํ‚นํ•จ์œผ๋กœ์จ, ์ž๋™ ๋ฆฌ๋ทฐ ์ƒ์„ฑ์—์„œ ํ’ˆ์งˆยท๋‹ค์–‘์„ฑ๊ณผ์˜ ์—ฐ๊ด€์„ฑ์„ ์ถ”๊ฐ€ ์—ฐ๊ตฌํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
AI ๋ฆฌ๋ทฐ์–ด์˜ ํ‰๊ฐ€ ๋ฒค์น˜๋งˆํฌ๋ฅผ ํ†ตํ•ด ๋ฆฌ๋ทฐ ์ƒ์„ฑ ๋ฐ ๊ฒ€์ถœ ๋ฐฉ๋ฒ•์˜ ๊ฐ๊ด€์  ์„ฑ๋Šฅ์„ ์ถ”๊ฐ€์ ์œผ๋กœ ๊ฒ€์ฆํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
๋””์ž์ธ ๋ฌธ์ œ์˜ ์ฐธ์‹ ์„ฑ ํ‰๊ฐ€ ์ž๋™ํ™” ๋งฅ๋ฝ์—์„œ ๋…ผ๋ฌธ ๊ด€๋ จ์„ฑ ํ‰๊ฐ€์˜ ์‹ค์งˆ์  ํ™œ์šฉ, ๋„๊ตฌ ๋ฐœ์ „ ๋ฐฉํ–ฅ์— ์ฐธ๊ณ ๋  ์ˆ˜ ์žˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
885 ๋…ผ๋ฌธ์€ ๋…ผ๋ฌธ ์ฒ ํšŒ(retraction) ๋ฐ์ดํ„ฐ์…‹์„ ์ œ๊ณตํ•จ์œผ๋กœ์จ, 664์˜ ๊ด€๋ จ์„ฑ ํŒ๋ณ„ ์‹œ์Šคํ…œ์ด ์‹ค์ œ ๋ฐ์ดํ„ฐ ํ’ˆ์งˆ ๋ฌธ์ œ์— ์–ด๋–ป๊ฒŒ ์ ์šฉ๋  ์ˆ˜ ์žˆ๋Š”์ง€ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
RelevAI-Reviewer ๋…ผ๋ฌธ์€ AI ๊ธฐ๋ฐ˜ ์„ค๋ฌธ ๋ฐ ์„œ๋ฒ ์ด ํ‰๊ฐ€ ๋ฐ์ดํ„ฐ์…‹์—์„œ ๋ฆฌ๋ทฐ์–ด ์ผ๊ด€์„ฑ ๋ถ„์„์— ํ™œ์šฉ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •