Csed: A chinese semantic error diagnosis corpus

์ €์ž: Bo Sun, Baoxin Wang, Yixuan Wang, Wanxiang Che, Dayong Wu, Shijin Wang, Ting Liu | ๋‚ ์งœ: 2023 | DOI: N/A 📄 PDF


Essence

๋ณธ ๋…ผ๋ฌธ์€ ์ค‘๊ตญ์–ด ์˜๋ฏธ ์˜ค๋ฅ˜ ์ง„๋‹จ(Chinese Semantic Error Diagnosis, CSED)์„ ์œ„ํ•œ ์ตœ์ดˆ์˜ ๋Œ€๊ทœ๋ชจ ์ฝ”ํผ์Šค๋ฅผ ๊ตฌ์ถ•ํ•˜๊ณ  ์ด๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๊ตฌ๋ฌธ ์ •๋ณด๋ฅผ ํ™œ์šฉํ•œ ๋ชจ๋ธ์„ ์ œ์•ˆํ•œ๋‹ค. ์ฒ ์ž ์˜ค๋ฅ˜์™€ ๋ฌธ๋ฒ• ์˜ค๋ฅ˜์™€ ๋‹ฌ๋ฆฌ ์˜๋ฏธ ์˜ค๋ฅ˜๋Š” ๋ฌธ์žฅ์ด ์œ ์ฐฝํ•ด ๋ณด์ด๋ฉด์„œ๋„ ์˜๋ฏธ์ ์œผ๋กœ ๋ถ€์ ์ ˆํ•œ ๋ณต์žกํ•œ ์˜ค๋ฅ˜๋กœ, ์ด๋ฅผ ์ฒด๊ณ„์ ์œผ๋กœ ์—ฐ๊ตฌํ•˜๊ธฐ ์œ„ํ•œ ์ฒซ ๊ณต๊ฐœ ๋ฐ์ดํ„ฐ์…‹์„ ์ œ๊ณตํ•œ๋‹ค.

Motivation

Achievement

  1. CSED ์ฝ”ํผ์Šค ๊ณต๊ฐœ: ์ด์ง„ ๋ถ„๋ฅ˜ ๊ณผ์ œ์ธ CSED-Recognition(CSED-R, 49,408๋ฌธ์žฅ)๊ณผ ๋ฌธ์žฅ ์ƒ์„ฑ ๊ณผ์ œ์ธ CSED-Correction(CSED-C, 12,652๋ฌธ์žฅ)์˜ ๋‘ ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ ๊ตฌ์„ฑ๋œ ์ฒซ ์ „๋ฌธ ์ฝ”ํผ์Šค ์ œ๊ณต
  2. ํฌ๊ด„์  ์˜๋ฏธ ์˜ค๋ฅ˜ ๋ถ„๋ฅ˜: ์–ด์ˆœ(Word Order), ๋ˆ„๋ฝ(Missing), ์—ฐ์–ด(Collocation), ์ค‘๋ณต(Redundant), ํ˜ผ๋™(Confusion), ๋ชจํ˜ธํ•จ(Fuzziness), ๋…ผ๋ฆฌ ์˜ค๋ฅ˜(Illogic) ๋“ฑ 7๊ฐ€์ง€ ์˜๋ฏธ ์˜ค๋ฅ˜ ์œ ํ˜•์„ ์ƒ์„ธํžˆ ๋ถ„๋ฅ˜ํ•˜๊ณ  CGED์™€์˜ ์ฐจ์ด๋ฅผ ๋ถ„์„
  3. ๊ตฌ๋ฌธ ์ธ์‹ ๋ชจ๋ธ์˜ ํšจ๊ณผ ๊ฒ€์ฆ: ๊ตฌ๋ฌธ ์ •๋ณด ํ†ตํ•ฉ์ด ์˜๋ฏธ ์˜ค๋ฅ˜ ์ง„๋‹จ ์„ฑ๋Šฅ์„ ์œ ์˜๋ฏธํ•˜๊ฒŒ ๊ฐœ์„ ํ•จ์„ ์‹คํ—˜์ ์œผ๋กœ ์ž…์ฆํ•˜์˜€์œผ๋ฉฐ, ์ตœ์‹  ์‚ฌ์ „ํ•™์Šต ๋ชจ๋ธ๋„ ๋‚ฎ์€ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ ๊ณผ์ œ์˜ ๋‚œ์ด๋„๋ฅผ ์ฆ๋ช…

How

Originality

Limitation & Further Study

Evaluation

์ดํ‰: ๋ณธ ๋…ผ๋ฌธ์€ ์ค‘๊ตญ์–ด ์ž์—ฐ์–ธ์–ด์ฒ˜๋ฆฌ ๋ถ„์•ผ์—์„œ ๊ทธ๊ฐ„ ๊ด€์‹ฌ๋ฐ›์ง€ ๋ชปํ–ˆ๋˜ ์˜๋ฏธ ์˜ค๋ฅ˜ ์ง„๋‹จ์ด๋ผ๋Š” ์ค‘์š”ํ•œ ๋ฌธ์ œ์— ๋Œ€ํ•ด ๊ณ ํ’ˆ์งˆ์˜ ์ฒซ ์ „๋ฌธ ์ฝ”ํผ์Šค๋ฅผ ์ œ๊ณตํ•˜๋ฉฐ, ์˜๋ฏธ ์˜ค๋ฅ˜์˜ ํŠน์„ฑ์„ ์ฒด๊ณ„์ ์œผ๋กœ ๋ถ„์„ํ•˜๊ณ  ๊ตฌ๋ฌธ ์ •๋ณด์˜ ์œ ์šฉ์„ฑ์„ ์ž…์ฆํ•œ ์˜๋ฏธ ์žˆ๋Š” ๊ธฐ์ดˆ ์—ฐ๊ตฌ์ด๋‹ค. ๋‹ค๋งŒ ์ œ์•ˆ๋œ ๊ตฌ๋ฌธ ๊ธฐ๋ฐ˜ ๋ชจ๋ธ์˜ ๊ธฐ์ˆ ์  ๊นŠ์ด๋Š” ์ œํ•œ์ ์ด๋ฉฐ, ๋”์šฑ ์ •๊ตํ•œ ์˜๋ฏธ-๊ตฌ๋ฌธ ํ†ตํ•ฉ ๋ฐฉ๋ฒ•๋ก  ๊ฐœ๋ฐœ์ด ํ–ฅํ›„ ๊ณผ์ œ๋กœ ๋‚จ์•„์žˆ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
ํ•œ๊ตญ์–ด ๋ฐ ์ค‘๊ตญ์–ด ๋“ฑ ๋‹ค๊ตญ์–ด ์˜๋ฏธ ์˜ค๋ฅ˜ ๋ฐ ๋ฌธ๋ฒ• ์˜ค๋ฅ˜ ๊ฒ€์ถœ์„ ์œ„ํ•œ ๋ชจ๋ธ ๊ฐœ๋ฐœ์˜ ๊ธฐ๋ฐ˜์ด ๋ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์˜๋ฏธ๋ก ์  ํ…์ŠคํŠธ ๋ถ„์„์„ ์œ„ํ•œ ๊ตฌ๋ฌธ ์ •๋ณด ํ™œ์šฉ ๋ชจ๋ธ์„ ์ œ์•ˆํ•œ ๊ด€๋ จ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
CLAM์€ ์• ๋งคํ•œ ๋ฌธ์žฅ ์งˆ์˜์— ๋Œ€ํ•œ LLM ๋ช…ํ™•ํ™” ์ „๋žต์„ ์ œ์•ˆํ•˜๊ณ , CSED๋Š” ์‹ค์ œ ์˜๋ฏธ ์˜ค๋ฅ˜ ์œ ํ˜• ์ง„๋‹จ์— ์ „๋žต ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ์„ ๋ณด์—ฌ์ค€๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Neural automated writing evaluation with corrective feedback ๋…ผ๋ฌธ์€ ์˜๋ฌธ ์ž๋™ ์ฒจ์‚ญ ๋ฐ ์˜ค๋ฅ˜ ๊ต์ •์— ์ง‘์ค‘ํ•˜๊ณ  ์žˆ์–ด CSED์˜ ์ค‘๊ตญ์–ด ์˜๋ฏธ ์˜ค๋ฅ˜ ์ง„๋‹จ๊ณผ ๋Œ€๋น„ํ•ด์„œ ์ฝ๊ธฐ ์ข‹์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Improving grammatical error correction via contextual data augmentation ๋…ผ๋ฌธ์€ ๋ฌธ๋ฒ• ์˜ค๋ฅ˜ ๊ต์ •๊ณผ ๋ฐ์ดํ„ฐ ์ฆ๊ฐ•์„ ํ†ตํ•œ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๋‹ค๋ฃจ์–ด ์˜๋ฏธ ์˜ค๋ฅ˜์™€์˜ ์ฐจ๋ณ„์ ์„ ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
Csed๋Š” ๋ช…ํ™•ํ™”/์˜ค๋ฅ˜์ง„๋‹จ์ด ์ค‘์š”ํ•œ ์ค‘๊ตญ์–ด ์˜๋ฏธ ์˜ค๋ฅ˜ ์‹ค์ œ ์‚ฌ๋ก€ ๋ฐ์ดํ„ฐ์…‹์„ ์ œ๊ณตํ•ด CLAM์˜ ์‹ค์งˆ์  testbed๊ฐ€ ๋œ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
What factors affect multimodal in-context learning ๋…ผ๋ฌธ์€ ๋‹ค๊ตญ์–ด, ์˜๋ฏธ์  ๋ชจํ˜ธ์„ฑ ํ•™์Šต ๋“ฑ ์‹ค์ œ ์˜ค๋ฅ˜ ์ง„๋‹จ์„ ์œ„ํ•œ ๋‹ค์–‘ํ•œ in-context factor ์‹คํ—˜์„ ๋‹ค๋ฃฌ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •