Neural automated writing evaluation with corrective feedback

์ €์ž: Izia Xiaoxiao Wang, Xihan Wu, Edith Coates, Min Zeng, Jiexin Kuang, Siliang Liu, Mengyang Qiu, Jungyeul Park | ๋‚ ์งœ: 2024 | DOI: N/A 📄 PDF


Essence

Figure 1

์‹œ์Šคํ…œ ์›Œํฌํ”Œ๋กœ์šฐ: ํ•™์Šต์ž๊ฐ€ ์—์„ธ์ด๋ฅผ ์ œ์ถœํ•˜๋ฉด ์ž๋™ ์“ฐ๊ธฐ ํ‰๊ฐ€(AWE)์™€ ๋ฌธ๋ฒ• ์˜ค๋ฅ˜ ์ˆ˜์ •(GEC)์„ ํ†ตํ•ฉํ•˜์—ฌ ์ ์ˆ˜์™€ ์ˆ˜์ • ํ”ผ๋“œ๋ฐฑ์„ ์ œ๊ณต

๋ณธ ๋…ผ๋ฌธ์€ ์ž๋™ ์“ฐ๊ธฐ ํ‰๊ฐ€(AWE: Automated Writing Evaluation)์™€ ๋ฌธ๋ฒ• ์˜ค๋ฅ˜ ์ˆ˜์ •(GEC: Grammatical Error Correction) ์‹œ์Šคํ…œ์„ ํ†ตํ•ฉํ•˜์—ฌ, ์ œ2์–ธ์–ด ํ•™์Šต์ž์—๊ฒŒ ์ฆ‰๊ฐ์ ์ธ ์—์„ธ์ด ํ‰์ ๊ณผ ๋ฌธ๋ฒ• ์ˆ˜์ • ํ”ผ๋“œ๋ฐฑ์„ ๋™์‹œ์— ์ œ๊ณตํ•˜๋Š” ํ†ตํ•ฉ ์‹œ์Šคํ…œ์„ ์ œ์‹œํ•œ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์‹œํ—˜ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ํ™˜๊ฒฝ์„ ๊ตฌํ˜„ํ•˜์—ฌ ๋ณด๋‹ค ์‹ค์งˆ์ ์ธ ์–ธ์–ด ํ•™์Šต ๊ฒฝํ—˜์„ ์ œ๊ณตํ•œ๋‹ค.

Motivation

Achievement

Figure 2

ํ†ตํ•ฉ AWE-GEC ์‹œ์Šคํ…œ์˜ ์‚ฌ์šฉ์ž ์ธํ„ฐํŽ˜์ด์Šค: ์›๋ณธ ํ…์ŠคํŠธ์˜ ์‚ญ์ œ๋œ ํ† ํฐ(๋นจ๊ฐ„์ƒ‰), ์ถ”๊ฐ€๋œ ๋ฌธ๋ฒ• ์ˆ˜์ •(์ดˆ๋ก์ƒ‰), AWE ์ ์ˆ˜(0-100 ๋ฒ”์œ„)

  1. ํฌ๋กœ์Šค-ํ”„๋กฌํ”„ํŠธ ์ ์ˆ˜ ์ œ๊ณต: ASAP++๊ณผ ASAP ๋ฐ์ดํ„ฐ์…‹์„ ํ™œ์šฉํ•˜์—ฌ 8๊ฐœ์˜ ์„œ๋กœ ๋‹ค๋ฅธ ํ”„๋กฌํ”„ํŠธ์— ๋Œ€ํ•œ ์ข…ํ•ฉ์ ์ธ ๋ฃจ๋ธŒ๋ฆญ ์ ์ˆ˜(content, organization, word choice, sentence fluency, conventions ๋“ฑ) ์ œ์‹œ. ๋‹จ์ˆœ ์ „์ฒด ์ ์ˆ˜๊ฐ€ ์•„๋‹Œ ๋‹ค์ฐจ์›์  ํ‰๊ฐ€ ๊ฒฐ๊ณผ ์ œ๊ณต.
  2. ๊ณ ์„ฑ๋Šฅ GEC ๋ชจ๋ธ: BEA 2019 ํ…Œ์ŠคํŠธ์…‹์—์„œ 65.29 Fโ‚€.โ‚… ์ ์ˆ˜ ๋‹ฌ์„ฑ. BERT ๊ธฐ๋ฐ˜ seq2seq ๋ชจ๋ธ๊ณผ ๋ฐ์ดํ„ฐ ์ฆ๊ฐ•(spell-checked ๋ฌธ์žฅ ์ถ”๊ฐ€๋กœ 157๋งŒโ†’172๋งŒ ๋ฌธ์žฅ์Œ์œผ๋กœ ํ™•๋Œ€)์„ ํ†ตํ•ด ๊ฐ•๋ ฅํ•œ ๋ฌธ๋ฒ• ์˜ค๋ฅ˜ ์ˆ˜์ • ์„ฑ๋Šฅ ๊ตฌํ˜„.
  3. ์‹ค์šฉ์  ํ†ตํ•ฉ ํ”Œ๋žซํผ: ํ•™์Šต์ž๊ฐ€ ์‹ค์ œ ์‹œํ—˜ ์ƒํ™ฉ์„ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ํ•  ์ˆ˜ ์žˆ๋Š” ์™„์ „ํ•œ ํ™˜๊ฒฝ ๊ตฌ์ถ•. ์—์„ธ์ด ์ œ์ถœ๋ถ€ํ„ฐ ์ฆ‰๊ฐ์ ์ธ ๊ฐ๊ด€์  ์ ์ˆ˜์™€ ์ˆ˜์ • ํ”ผ๋“œ๋ฐฑ๊นŒ์ง€์˜ ์ „ ๊ณผ์ • ์ž๋™ํ™”.

How

Originality

Limitation & Further Study

Evaluation

์ดํ‰: ๋ณธ ๋…ผ๋ฌธ์€ ์ž๋™ํ™” ์“ฐ๊ธฐ ํ‰๊ฐ€์™€ ๋ฌธ๋ฒ• ์˜ค๋ฅ˜ ์ˆ˜์ •์„ ์‹ ๊ฒฝ๋ง ๊ธฐ๋ฐ˜์œผ๋กœ ์ฒ˜์Œ ํ†ตํ•ฉํ•˜์—ฌ ์ œ2์–ธ์–ด ํ•™์Šต์ž์—๊ฒŒ ์‹ค์งˆ์  ๊ฐ€์น˜๋ฅผ ์ œ๊ณตํ•˜๋Š” ์‹œ์Šคํ…œ์„ ์ œ์‹œํ–ˆ์œผ๋‚˜, ์‹ค์ œ ํ•™์Šต ํšจ๊ณผ์— ๋Œ€ํ•œ ์‹ค์ฆ์  ๊ฒ€์ฆ๊ณผ ์žฅ๊ธฐ ์˜ํ–ฅ ๋ถ„์„์ด ๋ณด์™„๋˜๋ฉด ๋”์šฑ ๊ฐ•๋ ฅํ•œ ๊ธฐ์—ฌ๊ฐ€ ๋  ์ˆ˜ ์žˆ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
662๋ฒˆ ๋…ผ๋ฌธ์€ ๊ฐ•ํ™”ํ•™์Šต ๊ธฐ๋ฐ˜ ์‹คํ—˜ ์ œ์–ด ์ž๋™ํ™”๋ฅผ ๋‹ค๋ฃจ์–ด, 571๋ฒˆ๊ณผ ๊ฐ™์ด ์ž๋™ํ™” AI ํ‰๊ฐ€ ์‹œ์Šคํ…œ์˜ ๊ธฐ์ €๊ฐ€ ๋˜๋Š” ์‹คํ—˜์  ๋ฐฉ๋ฒ•๋ก ์„ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
ํ”ผ๋“œ๋ฐฑ ์ƒ์„ฑ ์ž๋™ํ™” ์—ฐ๊ตฌ์˜ ๊ธฐ๋ฐ˜์ด ๋˜๋Š” ๋…ผ๋ฌธ์œผ๋กœ, ์ž๋™ํ™”๋œ ์“ฐ๊ธฐ ํ‰๊ฐ€ ๋ฐ ํ”ผ๋“œ๋ฐฑ ์ œ๊ณต ์‹œ์Šคํ…œ ๊ฐœ๋ฐœ์— ์˜๊ฐ์„ ์ค๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
360 ๋…ผ๋ฌธ์˜ LLM ๊ธฐ๋ฐ˜ ๊ณผํ•™์  ์ปค๋ฎค๋‹ˆ์ผ€์ด์…˜ ์‹ฌ๋ฆฌ์  ์œ„ํ—˜ ๋ถ„์„์€ 571์˜ ์ž๋™ ํ‰๊ฐ€ ๊ธฐ๋ฐ˜ ์ƒ์„ฑ ํ…์ŠคํŠธ ํ”ผ๋“œ๋ฐฑ ๊ด€์ ๊ณผ ๋งž๋‹ฟ์•„ ์žˆ์Šต๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
AI ๊ธฐ๋ฐ˜ ๊ธ€์“ฐ๊ธฐ ํ‰๊ฐ€ ์ง€ํ‘œ์˜ ์ž๋™ํ™” ๋ฐฉ์•ˆ ๋ฐ ํ˜„์‹ค์  ํ•œ๊ณ„๋ฅผ ์ฒด๊ณ„์ ์œผ๋กœ ๋…ผ์˜ํ•˜์—ฌ, NER ๊ธฐ๋ฐ˜ GEC ํ†ตํ•ฉ ์‹œ์Šคํ…œ์˜ ํ‰๊ฐ€์„ค๊ณ„์— ๊ทผ๊ฑฐ๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ฝ”๋“œ ์ž๋™ ์™„์„ฑ์—์„œ ์ธ์ง€๋œ ์ƒ์‚ฐ์„ฑ ํ‰๊ฐ€์™€ ์œ ์‚ฌํ•˜๊ฒŒ, ์–ธ์–ด ํ•™์Šตยท์—์„ธ์ด ํ‰๊ฐ€์—์„œ ์ž๋™ํ™” ์‹œ์Šคํ…œ์˜ ์‹ค์ œ ํšจ์šฉ์„ ๋น„๊ตํ•˜๋Š” ๊ทผ๊ฑฐ์ž๋ฃŒ๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Neural automated writing evaluation with corrective feedback ๋…ผ๋ฌธ์€ ์˜๋ฌธ ์ž๋™ ์ฒจ์‚ญ ๋ฐ ์˜ค๋ฅ˜ ๊ต์ •์— ์ง‘์ค‘ํ•˜๊ณ  ์žˆ์–ด CSED์˜ ์ค‘๊ตญ์–ด ์˜๋ฏธ ์˜ค๋ฅ˜ ์ง„๋‹จ๊ณผ ๋Œ€๋น„ํ•ด์„œ ์ฝ๊ธฐ ์ข‹์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
592๋ฒˆ ๋…ผ๋ฌธ์€ ๋…ผ๋ฌธ ๋™๋ฃŒ์‹ฌ์‚ฌ์— ํŠนํ™”๋œ LLM์„, 571๋ฒˆ์€ ์ž๋™ ์“ฐ๊ธฐยท๋ฌธ๋ฒ• ํ‰๊ฐ€ ํ†ตํ•ฉ ์‹œ์Šคํ…œ์„ ์ œ์•ˆํ•˜์—ฌ AI๊ฐ€ ํ‰๊ฐ€ ํ”ผ๋“œ๋ฐฑ์„ ์ œ๊ณตํ•˜๋Š” ๋Œ€์•ˆ์  ์‚ฌ๋ก€์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
GEC ๋ฐฉ์‹์˜ ๊ฒฝ๋Ÿ‰ํ™” ๋ชจ๋ธ๊ณผ ์ง์ ‘ ์žฌ์ž‘์„ฑ ๊ธฐ๋ฐ˜ ์˜ค๋ฅ˜ ์ˆ˜์ • ์‹œ์Šคํ…œ์„ ๋น„๊ตํ•˜์—ฌ, ์ž…๋ ฅ ๋Œ€์ƒยทํ”ผ๋“œ๋ฐฑ ์„ค๊ณ„์ƒ์˜ ์ฐจ๋ณ„์  ํŒŒ์•…์ด ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Text editing by command ๋…ผ๋ฌธ์€ ๋ช…๋ น์–ด ๊ธฐ๋ฐ˜ ์—์„ธ์ด ํŽธ์ง‘์„ ์ œ์‹œํ•˜์—ฌ, ์ž๋™ํ™”๋œ ์“ฐ๊ธฐ ํ‰๊ฐ€ ๋ฐ ๊ต์ • ์—ฐ๊ตฌ์™€ ๊ฒฐํ•ฉ๋  ์ˆ˜ ์žˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Peer Review as A Multi-Turn Dialogue๋Š” LLM ๊ธฐ๋ฐ˜ ๋…ผ๋ฌธ ์žฅ๋ฌธ ํ‰๊ฐ€๋ฅผ ๋‹ค๋ฃจ๋ฉฐ, ํ‰๊ฐ€ ์ž๋™ํ™”์™€ ํ”ผ๋“œ๋ฐฑ์˜ ์‹ค์งˆ์  ์‘์šฉ ์‚ฌ๋ก€๋ฅผ ์ œ๊ณตํ•œ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
662๋ฒˆ์˜ ์‹คํ—˜์  ๊ฐ•ํ™”ํ•™์Šต ์ž๋™์ œ์–ด ํ”„๋ ˆ์ž„์›Œํฌ๋Š” 571๋ฒˆ์˜ ์ž๋™ ์“ฐ๊ธฐํ‰๊ฐ€ ๋ฐ ํ”ผ๋“œ๋ฐฑ ์‹œ์Šคํ…œ ๊ตฌ์กฐ์— ์—ฐ๊ตฌ ๋ฐฉ๋ฒ•๋ก ์œผ๋กœ ์ฐธ๊ณ ๋  ์ˆ˜ ์žˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
Neural automated writing evaluation with corrective feedback ๋…ผ๋ฌธ์€ SentRev ์ž‘์—…์—์„œ ์ƒ์„ฑ๋œ ๋ฌธ์žฅ๊ณผ ์œ ์‚ฌํ•œ ์ž๋™ ๊ต์ • ์‹œ์Šคํ…œ์˜ ์„ฑ๋Šฅ/ํ•œ๊ณ„ ๋ถ„์„์— ๋ฐ”ํƒ•์„ ๋‘” ์‹คํ—˜์„ ์ œ์‹œํ•œ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
OverleafCopilot์€ LLM์„ ์‹ค์ œ ๋…ผ๋ฌธ ์ž‘์„ฑ์— ํ†ตํ•ฉ ์ ์šฉํ•œ ์‚ฌ๋ก€๋กœ, ์ž๋™ํ™”๋œ ๊ธ€์“ฐ๊ธฐ ํ‰๊ฐ€ ์‹œ์Šคํ…œ์ด ์‹ค๋ฌด์—์„œ ์–ด๋–ป๊ฒŒ ์‘์šฉ๋˜๋Š”์ง€ ๋ณด์—ฌ์ค€๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •