Lazyreview a dataset for uncovering lazy thinking in nlp peer reviews

์ €์ž: Sukannya Purkayastha, Zhuang Li, Anne Lauscher, Lizhen Qu, Iryna Gurevych | ๋‚ ์งœ: 2025 | DOI: - 📄 PDF


Essence

Figure 2

Figure 2: Distribution of lazy thinking labels in our

๋ณธ ๋…ผ๋ฌธ์€ NLP ๋™๋ฃŒ ๊ฒ€ํ† ์—์„œ ๊ฒŒ์œผ๋ฅธ ์‚ฌ๊ณ (lazy thinking)๋ฅผ ํƒ์ง€ํ•˜๊ธฐ ์œ„ํ•œ LAZYREVIEW ๋ฐ์ดํ„ฐ์…‹์„ ์†Œ๊ฐœํ•œ๋‹ค. ARR ๊ฐ€์ด๋“œ๋ผ์ธ์— ์ •์˜๋œ 14๊ฐ€์ง€ ๊ฒŒ์œผ๋ฅธ ์‚ฌ๊ณ  ์œ ํ˜•์„ ๊ธฐ๋ฐ˜์œผ๋กœ 500๊ฐœ์˜ ์ „๋ฌธ๊ฐ€ ์ฃผ์„์ด ๋‹ฌ๋ฆฐ ๊ฒ€ํ†  ์„ธ๊ทธ๋จผํŠธ์™€ 1,276๊ฐœ์˜ ์‹ค๋ฒ„ ์ฃผ์„ ์„ธ๊ทธ๋จผํŠธ๋กœ ๊ตฌ์„ฑ๋œ ๋ฐ์ดํ„ฐ์…‹์„ ์ œ์‹œํ•˜๋ฉฐ, instruction-tuning์„ ํ†ตํ•ด LLM์˜ ์„ฑ๋Šฅ์„ 10-20 ํฌ์ธํŠธ ํ–ฅ์ƒ์‹œํ‚จ๋‹ค.

Motivation

Achievement

Figure 2

Figure 2: Distribution of lazy thinking labels in our

์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ•: 500๊ฐœ์˜ ์ „๋ฌธ๊ฐ€ ์ฃผ์„๊ณผ 1,276๊ฐœ์˜ ์‹ค๋ฒ„ ์ฃผ์„์„ ํฌํ•จํ•œ LAZYREVIEW ๋ฐ์ดํ„ฐ์…‹ ์ œ์‹œ | ๊ฐ€์ด๋“œ๋ผ์ธ ๊ฐœ์„ : ์–‘์„ฑ ์˜ˆ์ œ(positive examples)๋ฅผ ํฌํ•จํ•˜์—ฌ ์ฃผ์„ ํ’ˆ์งˆ์„ ํ–ฅ์ƒ์‹œํ‚จ ๊ฐ•ํ™”๋œ ๊ฐ€์ด๋“œ๋ผ์ธ ๊ฐœ๋ฐœ | LLM ์„ฑ๋Šฅ ํ–ฅ์ƒ: instruction-tuning์œผ๋กœ LLM ์„ฑ๋Šฅ์„ 10-20 ํฌ์ธํŠธ ํ–ฅ์ƒ | ๊ฒ€ํ†  ํ’ˆ์งˆ ๊ฐœ์„  ๊ฒ€์ฆ: ๊ฒŒ์œผ๋ฅธ ์‚ฌ๊ณ  ํ”ผ๋“œ๋ฐฑ์œผ๋กœ ์ˆ˜์ •๋œ ๊ฒ€ํ† ๊ฐ€ ๋” ํฌ๊ด„์ ์ด๊ณ  ์‹คํ–‰ ๊ฐ€๋Šฅํ•จ์„ ์ž…์ฆ | ์ฃผ์„ ํ’ˆ์งˆ ํ–ฅ์ƒ: ์–‘์„ฑ ์˜ˆ์ œ๊ฐ€ ์ฃผ์„ ํ’ˆ์งˆ๊ณผ in-context learning์„ ํ–ฅ์ƒ์‹œํ‚ด์„ ํ™•์ธ

How

Figure 3

Figure 3: Performance of LLMs on using different In Context learning (ICL) methods for Round 3 of our annotation

Originality

Limitation & Further Study

Evaluation

Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

์ดํ‰: ๋ณธ ๋…ผ๋ฌธ์€ NLP ๋™๋ฃŒ ๊ฒ€ํ†  ํ’ˆ์งˆ ํ–ฅ์ƒ์ด๋ผ๋Š” ์ค‘์š”ํ•œ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ์‹ค์ œ ๋ฐ์ดํ„ฐ์…‹์„ ๊ตฌ์ถ•ํ•˜๊ณ  ์ž๋™ํ™” ๋ฐฉ๋ฒ•์„ ์ œ์‹œํ•œ ๊ฐ€์น˜ ์žˆ๋Š” ์—ฐ๊ตฌ์ด๋‹ค. ์ฒด๊ณ„์ ์ธ ์ฃผ์„ ํ”„๋กœ์„ธ์Šค, ์–‘์„ฑ ์˜ˆ์ œ ํ™œ์šฉ, ๊ทธ๋ฆฌ๊ณ  ์‹ค์ œ ๊ฒ€ํ†  ํ’ˆ์งˆ ๊ฐœ์„  ๊ฒ€์ฆ์„ ํ†ตํ•ด ํ•™์ˆ  ์ถœํŒ ์ƒํƒœ๊ณ„์— ๊ธ์ •์  ๊ธฐ์—ฌ๋ฅผ ํ•  ์ˆ˜ ์žˆ์„ ๊ฒƒ์œผ๋กœ ๊ธฐ๋Œ€๋œ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๋‹ค๋ฅธ ์ ‘๊ทผ
LLM์˜ ์ž๊ธฐ ๊ฐœ์„  ๋Šฅ๋ ฅ์„ ์œ„ํ•œ ๋Œ€์•ˆ์  ํ”„๋กฌํ”„ํŒ… ๋ฐ ํ•™์Šต ํ”„๋ ˆ์ž„์›Œํฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
609 ๋…ผ๋ฌธ์€ ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ์— ๋Œ€ํ•œ LLM ๊ธฐ๋ฐ˜์˜ ๋…ผ์ฆ์  ํ‰๊ฐ€ ์ฒด๊ณ„๋ฅผ ์ œ์•ˆํ•˜์—ฌ, peer review ๊ณผ์ •์—์„œ์˜ '๊ฒŒ์œผ๋ฅธ ์‚ฌ๊ณ ' ๋ฌธ์ œ ํƒ์ƒ‰ ์ ‘๊ทผ๋ฒ•์„ ๋น„๊ตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Learning to generate research idea ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜ ์ ‘๊ทผ๋ฒ•์œผ๋กœ biomed ๋ถ„์•ผ ์•„์ด๋””์–ด/๊ฐ€์„ค ์ƒ์„ฑ์˜ ๋˜ ๋‹ค๋ฅธ ๋ฐฉ๋ฒ•๋ก ์„ ๋ณด์—ฌ์ค˜ ๋น„๊ต ์—ฐ๊ตฌ์— ๋„์›€์ด ๋ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Lazyreview ๋ฐ์ดํ„ฐ์…‹์€ ๊ตฌ์ฒด์ ์ธ ๋™๋ฃŒ ์‹ฌ์‚ฌ ํ”ผ๋“œ๋ฐฑ ํƒ์ง€ ๋Œ€์ƒ(๊ฒŒ์œผ๋ฅธ ์‚ฌ๊ณ )์„ ์ œ๊ณต, NLP ๊ธฐ๋ฐ˜ ๋™๋ฃŒ ์‹ฌ์‚ฌ ์ž๋™ํ™” ๋ฐฉ๋ฒ• ์—ฐ๊ตฌ์— ์‹ค์ œ ๋ฐ์ดํ„ฐ๋ฅผ ๋ณด์™„ํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
ReviewEval ๋…ผ๋ฌธ์€ AI ๊ธฐ๋ฐ˜ ๋ฆฌ๋ทฐ ํ’ˆ์งˆ ํ‰๊ฐ€์— ๋Œ€ํ•œ ์ ‘๊ทผ๋ฒ•๊ณผ ์ง€ํ‘œ๋ฅผ ๋น„๊ตํ•ด LAZYREVIEW ๋ฐ์ดํ„ฐ์…‹์˜ ์ ์šฉ ์˜์—ญ์„ ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
128๋ฒˆ ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜ ์ž๋™ ๋ฆฌ๋ทฐ ํ‰๊ฐ€์˜ ๋‹ค์–‘ํ•œ ์ง€ํ‘œ ๋ฐ ๋ฐฉ๋ฒ•๋ก ์„ ๋น„๊ต ๋ถ„์„ํ•˜์—ฌ, 481๋ฒˆ์˜ '๊ฒŒ์œผ๋ฅธ ๋ฆฌ๋ทฐ' ํƒ์ง€์™€ ์ƒํ˜ธ ๋ณด์™„์ ์ž…๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
481์˜ Lazyreview ๋ฐ์ดํ„ฐ์…‹์€ NLP ํ”ผ์–ด๋ฆฌ๋ทฐ์˜ 'lazy thinking'์„ ๊ฒ€์ถœํ•˜๋ ค๋Š” ์‹œ๋„๋ฅผ ํ•˜์—ฌ 883์˜ ๋ชจ์ˆœ ํƒ์ง€์™€ ์ƒํ˜ธ๋ณด์™„์ ์ž…๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
ReviewerGPT ๋…ผ๋ฌธ์€ LAZYREVIEW์™€ ์œ ์‚ฌํ•œ ๋ฆฌ๋ทฐ ํ”ผ๋“œ๋ฐฑ ์ž๋™ํ™” ๋ฌธ์ œ์— LLM ํ™œ์šฉ ๋ฐฉ์•ˆ์„ ์ถ”๊ฐ€์ ์œผ๋กœ ํƒ๊ตฌํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Lazyreview ๋…ผ๋ฌธ์€ LLM์ด ์ƒ์„ฑํ•˜๋Š” ๋ฆฌ๋ทฐ์˜ 'lazy thinking'๊ณผ ํ•™์ˆ  ๋ฆฌ๋ทฐ ํ’ˆ์งˆ์˜ ๋ฌธ์ œ๋ฅผ ํƒ๊ตฌํ•˜์—ฌ Agentreview์˜ ์—์ด์ „ํŠธ ๊ธฐ๋ฐ˜ ํ”ผ์–ด๋ฆฌ๋ทฐ ๋™์  ํ‰๊ฐ€๋ฅผ ์‹ค์ฆ์ ์œผ๋กœ ๋ณด์™„ํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
664 ๋…ผ๋ฌธ์€ ์„œ๋ฒ ์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ ๊ณผ์ •์—์„œ AI ๋ฆฌ๋ทฐ์–ด์˜ ํ‰๊ฐ€ ํ’ˆ์งˆ ๋ฐ ํ”„๋ ˆ์ž„์„ ๋ฒค์น˜๋งˆํ‚นํ•จ์œผ๋กœ์จ, ์ž๋™ ๋ฆฌ๋ทฐ ์ƒ์„ฑ์—์„œ ํ’ˆ์งˆยท๋‹ค์–‘์„ฑ๊ณผ์˜ ์—ฐ๊ด€์„ฑ์„ ์ถ”๊ฐ€ ์—ฐ๊ตฌํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
676๋ฒˆ ๋…ผ๋ฌธ์€ AI์™€ ์ธ๊ฐ„ ๋ฆฌ๋ทฐ์˜ ๊ฐ„๊ทน์„ ์ขํžˆ๋Š” ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•˜์—ฌ, 481๋ฒˆ ๊ฒŒ์œผ๋ฅธ ์‚ฌ๊ณ  ํƒ์ง€ ๋ฐ์ดํ„ฐ์…‹๊ณผ ์—ฐ๊ณ„ํ•ด ์‹ค์ œ ๋ฆฌ๋ทฐ ํ’ˆ์งˆ ๊ฐœ์„ ์— ํ™œ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
481์€ LLM ํ”ผ์–ด ๋ฆฌ๋ทฐ์˜ ํ’ˆ์งˆ ๋ฌธ์ œ(๊ฒŒ์œผ๋ฅธ ์‚ฌ๊ณ  ๋“ฑ)๋ฅผ ๋ฐํ˜€๋‚ด TreeReview์˜ ๊ฒ€ํ†  ์‹ฌ์ธตํ™” ๋ชฉ์ ์„ ๋ณด์™„ํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
Lazyreview ๋ฐ์ดํ„ฐ์…‹์€ NLP ๋™๋ฃŒ ์‹ฌ์‚ฌ ํ”„๋กœ์„ธ์Šค ๋‚ด '๊ฒŒ์œผ๋ฅธ ์‚ฌ๊ณ ' ํƒ์ง€๋ฅผ ์œ„ํ•œ ์‹ค์ œ ์˜ˆ์‹œ๋กœ, peer review ์ž๋™ํ™”์˜ ์‚ฌ๋ก€ ์—ฐ๊ตฌ์— ์ง์ ‘์ ์œผ๋กœ ์—ฐ๊ฒฐ๋œ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
AAAR-1.0 ๋ฒค์น˜๋งˆํฌ๋Š” LLM์ด ๋…ผ๋ฌธ ํ‰๊ฐ€์™€ ๋ฆฌ๋ทฐ ๋น„ํŒ ์ž‘์—…์— ์‚ฌ์šฉ๋  ๋•Œ, LAZYREVIEW์™€ ๊ฐ™์€ ํ’ˆ์งˆ ํ–ฅ์ƒ ๋ฐ์ดํ„ฐ์…‹์˜ ํ•„์š”์„ฑ์„ ์ž…์ฆํ•ฉ๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •