Automatic evaluation metrics for artificially generated scientific research

์ €์ž: Niklas Hoepner, Leon Eshuijs, Dimitrios Alivanistos, Giacomo Zamprogno, Ilaria Tiddi | ๋‚ ์งœ: 2025 | DOI: arXiv:2503.05712 📄 PDF


Essence

AI๊ฐ€ ์ƒ์„ฑํ•œ ๊ณผํ•™ ๋…ผ๋ฌธ์˜ ํ’ˆ์งˆ ํ‰๊ฐ€๋ฅผ ์œ„ํ•ด ์ธ์šฉ ํšŸ์ˆ˜ ์˜ˆ์ธก(Citation Count Prediction)๊ณผ ๋ฆฌ๋ทฐ ์ ์ˆ˜ ์˜ˆ์ธก(Review Score Prediction)์„ ์ž๋™ ํ‰๊ฐ€ ์ง€ํ‘œ๋กœ ์ œ์•ˆํ•˜๋ฉฐ, ๋‹จ์ˆœ ๋ชจ๋ธ์ด LLM ๊ธฐ๋ฐ˜ ๊ฒ€ํ† ์ž๋ณด๋‹ค ์ธ๊ฐ„ ํ‰๊ฐ€์™€ ๋” ์ผ์น˜ํ•จ์„ ์ž…์ฆํ•œ๋‹ค.

Motivation

Achievement

Figure 2

๋‹ค์–‘ํ•œ ์กฐ๊ฑด์—์„œ์˜ Pearson ์ƒ๊ด€๊ณ„์ˆ˜ ํžˆํŠธ๋งต: ๋ฆฌ๋ทฐ ์ ์ˆ˜์™€ ์ธ์šฉ ํšŸ์ˆ˜์˜ ๊ด€๊ณ„

  1. ์ธ์šฉ ํšŸ์ˆ˜ ์˜ˆ์ธก์˜ ์šฐ์›”์„ฑ: ๋ฆฌ๋ทฐ ์ ์ˆ˜ ์˜ˆ์ธก๋ณด๋‹ค ์ธ์šฉ ํšŸ์ˆ˜ ์˜ˆ์ธก์ด ๋” ์‹คํ–‰ ๊ฐ€๋Šฅํ•จ์„ ์ž…์ฆํ•˜์˜€์œผ๋ฉฐ, ์ œ๋ชฉ๊ณผ ์ดˆ๋ก๋งŒ ์‚ฌ์šฉํ•œ ๋‹จ์ˆœ ๋ชจ๋ธ๋„ LLM ๊ธฐ๋ฐ˜ ๊ฒ€ํ† ์ž๋ฅผ ๋Šฅ๊ฐ€ํ•˜๋Š” ์ผ๊ด€์„ฑ์„ ๋ณด์ž„
  2. ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ•: OpenReview์˜ ๋ชจ๋“  ์ œ์ถœ ๋…ผ๋ฌธ์„ ํ†ต์ผ๋œ ํ˜•์‹์œผ๋กœ ํŒŒ์‹ฑํ•˜๊ณ  ์ถ”๊ฐ€ ๋ฉ”ํƒ€๋ฐ์ดํ„ฐ(์ธ์šฉ ํšŸ์ˆ˜, ์—ฐ๊ตฌ ๊ฐ€์„ค)๋กœ ๋ณด๊ฐ•ํ•œ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹ ์ œ๊ณต
  3. ์˜ˆ์ธก ๋‚œ์ด๋„ ๋น„๊ต: ์ „์ฒด ๋…ผ๋ฌธ ์ •๋ณด ๋Œ€๋น„ ์—ฐ๊ตฌ ๊ฐ€์„ค ์ •๋ณด๋งŒ์œผ๋กœ๋Š” ์ ์ˆ˜ ์˜ˆ์ธก์ด ํ›จ์”ฌ ์–ด๋ ค์šฐ๋ฉฐ, ์™„์ „ํ•œ ๋…ผ๋ฌธ ํ…์ŠคํŠธ์˜ ์ด์ ์ด ๋ช…ํ™•ํ•จ์„ ํ™•์ธ

How

Originality

Limitation & Further Study

Evaluation

์ดํ‰: ์ด ๋…ผ๋ฌธ์€ AI ์ƒ์„ฑ ๊ณผํ•™ ์ฝ˜ํ…์ธ  ํ‰๊ฐ€์˜ ์ค‘์š”ํ•œ ๋ฌธ์ œ์— ๋Œ€ํ•ด ์‹ค์šฉ์ ์ด๊ณ  ์‹ ๋ขฐํ•  ์ˆ˜ ์žˆ๋Š” ์ž๋™ ์ง€ํ‘œ๋ฅผ ์ œ์•ˆํ•˜๋ฉฐ ๋Œ€๊ทœ๋ชจ ํ‘œ์ค€ํ™” ๋ฐ์ดํ„ฐ์…‹์„ ์ œ๊ณตํ•จ์œผ๋กœ์จ ํ•™๊ณ„์— ์œ ์˜๋ฏธํ•œ ๊ธฐ์—ฌ๋ฅผ ํ•˜๊ณ  ์žˆ์œผ๋‚˜, ์ธ๊ฐ„ ์ˆ˜์ค€ ์„ฑ๋Šฅ ๋‹ฌ์„ฑ๊ณผ ๋ชจ๋ธ ๋ณต์žก๋„ ํ–ฅ์ƒ ์—ฌ์ง€๊ฐ€ ๋‚จ์•„์žˆ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Intersectional inequalities in science ๋…ผ๋ฌธ์€ ์ธ์šฉ ๋ฐ ํ‰๊ฐ€ ๋ฉ”ํŠธ๋ฆญ์˜ ๋ถˆํ‰๋“ฑ ๋ฌธ์ œ๋ฅผ ๋ถ„์„ํ•˜๋ฉฐ, ์ธ์šฉ ๋ฐ ๋ฆฌ๋ทฐ์ ์ˆ˜ ๊ธฐ๋ฐ˜ ์ž๋™ ํ‰๊ฐ€๊ฐ€ ๋‚ดํฌํ•  ์ˆ˜ ์žˆ๋Š” ํŽธํ–ฅ์˜ ์ด๋ก ์  ๊ทผ๊ฑฐ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
AI ๊ธฐ๋ฐ˜ ๊ธ€์“ฐ๊ธฐ ํ‰๊ฐ€ ์ง€ํ‘œ์˜ ์ž๋™ํ™” ๋ฐฉ์•ˆ ๋ฐ ํ˜„์‹ค์  ํ•œ๊ณ„๋ฅผ ์ฒด๊ณ„์ ์œผ๋กœ ๋…ผ์˜ํ•˜์—ฌ, NER ๊ธฐ๋ฐ˜ GEC ํ†ตํ•ฉ ์‹œ์Šคํ…œ์˜ ํ‰๊ฐ€์„ค๊ณ„์— ๊ทผ๊ฑฐ๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
AI ๊ธฐ๋ฐ˜ ๋…ผ๋ฌธ ํ‰๊ฐ€ ๋ฐ ๋ฆฌ๋ทฐ ์‹œ์Šคํ…œ์˜ ํ•„์š”์„ฑ๊ณผ ํ•œ๊ณ„๋ฅผ ๋ถ„์„ํ•œ ์‹œ์ดˆ์  ๋…ผ๋ฌธ์ž…๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Pre: Peer Review ๊ธฐ๋ฐ˜ LLM ํ‰๊ฐ€ ๋…ผ๋ฌธ์€ ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ/๋ฉ”ํŠธ๋ฆญ์˜ ๋Œ€์•ˆ์  ์ž๋™ ํ‰๊ฐ€ ๋ฐฉ๋ฒ•๋ก ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋‹ค์ค‘ LLM ์—์ด์ „ํŠธ์˜ ํ˜‘์—…์  ์—ฐ๊ตฌ ์ˆ˜ํ–‰์„ ๋‹ค๋ฃจ๋Š” ์œ ์‚ฌํ•œ ์ ‘๊ทผ๋ฒ•์˜ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
3386์€ LLM์ด ๋…ผ๋ฌธ ์˜ํ–ฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ๋ฐฉ๋ฒ•๋ก ์„ ์ œ์‹œํ•˜๋ฉฐ, 127์˜ ์ธ์šฉ ์˜ˆ์ธก ์œ„์ฃผ์˜ ํ‰๊ฐ€ ๋ฐฉ๋ฒ•๊ณผ ๋Œ€์กฐ์ ์œผ๋กœ ๋…ผ์˜ํ•  ์ˆ˜ ์žˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
679๋Š” AI ์ƒ์„ฑ ๋ฆฌ๋ทฐ์˜ ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ๊ฐœ๋ฐœํ•˜์—ฌ, 127์˜ ์ž๋™ ํ‰๊ฐ€์ง€ํ‘œ ์ œ์•ˆ๊ณผ ์‹œ๋„ˆ์ง€ ํšจ๊ณผ๋ฅผ ๋‚ผ ์ˆ˜ ์žˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
๋ฒ ์ด์ง€์•ˆ ์ ‘๊ทผ๋ฒ•์„ ํ†ตํ•œ ์‹ ๋ขฐ๋„ ํ‰๊ฐ€๋ผ๋Š” ์ž๋™ ํ‰๊ฐ€ ์ง€ํ‘œ ์—ฐ๊ตฌ์˜ ๋ฐœ์ „ ๋ฐฉํ–ฅ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
Withdrarxiv ๋…ผ๋ฌธ์€ AI๊ฐ€ ์ž‘์„ฑํ•œ ๋…ผ๋ฌธ์˜ ์ฒ ํšŒ ์œ„ํ—˜์„ฑ๊ณผ ์‹ค์ œ ์‚ฌ๋ก€๋ฅผ ๋Œ€๊ทœ๋ชจ๋กœ ๋ถ„์„ํ•˜์—ฌ, ์ž๋™ ํ‰๊ฐ€ ์ง€ํ‘œ ๊ธฐ๋ฐ˜ ์˜ค๋ฅ˜ ํƒ์ง€์™€ ์‹ค์ œ ๋ฆฌํŠธ๋ž™์…˜ ๋ฐ์ดํ„ฐ์˜ ์—ฐ๊ฒฐ๊ณ ๋ฆฌ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •