Rule-based, neural and llm back-translation: Comparative insights from a variant of ladin

์ €์ž: Samuel Frontull, Georg Moser | ๋‚ ์งœ: 2024 | DOI: N/A 📄 PDF


Essence

์ €์ž์›(low-resource) ์–ธ์–ด์ธ ๋ผ๋”˜์–ด(Ladin)์˜ Val Badia ๋ฐฉ์–ธ์— ๋Œ€ํ•ด ๊ทœ์น™ ๊ธฐ๋ฐ˜(RBMT), ์‹ ๊ฒฝ๋ง(NMT), ๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ(LLM) ๊ธฐ๋ฐ˜์˜ ์„ธ ๊ฐ€์ง€ ์—ญ๋ฒˆ์—ญ(back-translation) ๊ธฐ๋ฒ•์„ ๋น„๊ต ๋ถ„์„ํ•˜์—ฌ, ์ €์ž์› ์‹œ๋‚˜๋ฆฌ์˜ค์—์„œ๋Š” ์—ญ๋ฒˆ์—ญ ๋ชจ๋ธ ์„ ํƒ์ด ์ตœ์ข… ์„ฑ๋Šฅ์— ์œ ์˜๋ฏธํ•œ ์˜ํ–ฅ์„ ๋ฏธ์น˜์ง€ ์•Š์Œ์„ ์‹ค์ฆํ–ˆ๋‹ค.

Motivation

Achievement

๋ฐ์ดํ„ฐ์…‹๋ฌธ์žฅ ์ˆ˜ํŠน์ง•
**๋ณ‘๋ ฌ ๋ฐ์ดํ„ฐ**18,139๋ผ๋”˜-์ดํƒˆ๋ฆฌ์•„ ์‚ฌ์ „์˜ ์˜ˆ์‹œ ๋ฌธ์žฅ
**๋‹จ์ผ์–ธ์–ด ๋ฐ์ดํ„ฐ**274,665์‹ ๋ฌธ 'La Usc di Ladins' (2012๋…„ ์ดํ›„)
**ํ…Œ์ŠคํŠธ์…‹ 1**424๋ฒ•๋ฅ /๊ณต์‹ ์šฉ์–ด (์žฌ๋‹จ ๊ทœ์ •)
**ํ…Œ์ŠคํŠธ์…‹ 2**833์—ญ์‚ฌยทํ–‰์ •ยท๋ฒ•๋ฅ  ํ˜ผํ•ฉ ํ…์ŠคํŠธ
**ํ…Œ์ŠคํŠธ์…‹ 3**1,563๋ฌธํ•™ ํ…์ŠคํŠธ (ํ”ผ๋…ธํ‚ค์˜ค, ๋ฌธ์ฒดยท๊ด€์šฉํ‘œํ˜„ ๋„์ „)
  1. ์ตœ์ดˆ ๋ผ๋”˜์–ด MT ์—ฐ๊ตฌ ์ˆ˜ํ–‰: ๋ผ๋”˜์–ด(ํŠนํžˆ Val Badia ๋ฐฉ์–ธ)๋ฅผ ๋Œ€์ƒ์œผ๋กœ ํ•œ ์ฒซ ๊ธฐ๊ณ„๋ฒˆ์—ญ ์—ฐ๊ตฌ ์ˆ˜ํ–‰ ๋ฐ ๋ฒค์น˜๋งˆํฌ ๊ตฌ์ถ•
  2. ์„ธ ๊ฐ€์ง€ ์—ญ๋ฒˆ์—ญ ๊ธฐ๋ฒ• ๋น„๊ต: RBMT, ๋ฏธ์„ธ์กฐ์ • NMT, LLM ๊ธฐ๋ฐ˜ ์—ญ๋ฒˆ์—ญ์ด ์ €์ž์› ์‹œ๋‚˜๋ฆฌ์˜ค์—์„œ ๋น„์Šทํ•œ BLEU/chrF++ ์ ์ˆ˜ ๋‹ฌ์„ฑ โ†’ ์—ญ๋ฒˆ์—ญ ๋ชจ๋ธ ์„ ํƒ์˜ ์˜ํ–ฅ์ด ์ œํ•œ์ ์ž„์„ ์‹ค์ฆ
  3. ์ž์› ๊ณต๊ฐœ: ํ…Œ์ŠคํŠธ ๋ฐ์ดํ„ฐ, RBMT ์‹œ์Šคํ…œ, ์ตœ๊ณ  ์„ฑ๋Šฅ ๋ชจ๋ธ์„ ๊ณต๊ฐœํ•˜์—ฌ ํ–ฅํ›„ ์—ฐ๊ตฌ ๊ธฐ๋ฐ˜ ์ œ๊ณต

How

๋ฐ์ดํ„ฐ ๊ตฌ์ถ•

์—ญ๋ฒˆ์—ญ ์ „๋žต

1) ์‹ ๊ฒฝ๋ง ๊ธฐ๋ฐ˜ (N1)

2) ๊ทœ์น™ ๊ธฐ๋ฐ˜ (RBMT)

3) LLM ๊ธฐ๋ฐ˜

Originality

Limitation & Further Study

ํ•œ๊ณ„:

ํ›„์† ์—ฐ๊ตฌ:

Evaluation

Novelty: 4.5/5 Technical Soundness: 4/5 Significance: 3.5/5 Clarity: 4.5/5 Overall: 4/5

์ดํ‰: ๋ณธ ๋…ผ๋ฌธ์€ ๋ผ๋”˜์–ด๋ผ๋Š” ๋ฏธ๊ฐœ์ฒ™ ์ €์ž์› ์–ธ์–ด์— ๋Œ€ํ•ด ๊ทœ์น™, ์‹ ๊ฒฝ๋ง, LLM ์„ธ ๊ฐ€์ง€ ์—ญ๋ฒˆ์—ญ ๊ธฐ๋ฒ•์„ ์ฒ˜์Œ์œผ๋กœ ๋น„๊ต ๋ถ„์„ํ•˜์—ฌ ํฅ๋ฏธ๋กœ์šด ์‹ค์ฆ ๊ฒฐ๊ณผ๋ฅผ ์ œ๊ณตํ–ˆ์œผ๋ฉฐ, ๊ณต๊ฐœ ์ž์›๊ณผ ๋ฒค์น˜๋งˆํฌ๋ฅผ ํ†ตํ•ด ํ–ฅํ›„ ์—ฐ๊ตฌ ๊ธฐ๋ฐ˜์„ ๋งˆ๋ จํ•œ ์ ์—์„œ ์˜์˜๊ฐ€ ์žˆ์œผ๋‚˜, ์ œํ•œ๋œ ๋ฐ์ดํ„ฐ์™€ ๋‹จ์ผ ์–ธ์–ด ์Œ์— ๋Œ€ํ•œ ์ดˆ๊ธฐ ํƒ์ƒ‰ ์—ฐ๊ตฌ๋กœ์„œ ์ผ๋ฐ˜ํ™” ๊ฐ€๋Šฅ์„ฑ์€ ์•„์ง ๋ฏธ์ง€์ˆ˜๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
์ €์ž์› ์–ธ์–ด์—์„œ์˜ crosslingual ์—ญ๋ฒˆ์—ญ ๋ถ„์„์„ ๋‹ค๋ฃฌ ๋ณธ ๋…ผ๋ฌธ์€ ๊ณ ํ’ˆ์งˆ ์›Œ๋“œ alignments ๊ธฐ๋ฒ•(755)๊ณผ ๋ฐ€์ ‘ํ•œ ์ด๋ก ์  ์—ฐ๊ด€์ด ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
119 ๋…ผ๋ฌธ์€ ์ž๋™ ์บก์…˜ ์ƒ์„ฑ ๋ฐ ํฌ๋กœ์Šค๋ง๊ตฌ์–ผ ์ •๋ ฌ์„ ๋‹ค๋ฃธ์œผ๋กœ์จ ๋ฐฑํŠธ๋žœ์Šฌ๋ ˆ์ด์…˜ ๊ธฐ๋ฐ˜ ์ €์ž์› ์–ธ์–ด ์—ฐ๊ตฌ์˜ ๋Œ€์•ˆ์  ์‚ฌ๋ก€๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
858 ๋…ผ๋ฌธ์€ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ์˜ ๋น„์ง€๋„ ํฌ๋กœ์Šค๋ง๊ตฌ์–ผ ํ•™์Šต์„ ๋Œ€๊ทœ๋ชจ๋กœ ๋‹ค๋ค„, 690์˜ ์ €์ž์› ์‹œ๋‚˜๋ฆฌ์˜ค ๋ถ„์„์— ํ›„์†์  ๊นŠ์ด๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
์˜๋ฃŒ ๋ถ„์•ผ์—์„œ ๋ฒˆ์—ญ ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•๊ณผ LLM์˜ ์„ฑ๋Šฅ์„ ๋น„๊ตํ•จ์œผ๋กœ์จ, ๋‹ค๊ตญ์–ด/๋‹คํ‘œํ˜„ ์˜๋ฃŒ ์˜์ƒ ํ•ด์„์˜ ์‹ ๋ขฐ์„ฑ๊ณผ ์‹ค์ œ ์ ์šฉ์„ฑ์„ ํ•จ๊ป˜ ๋…ผ์˜ํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
๋‹ค๊ตญ์–ด LLM์˜ ์ง€์‹ ์žฅ๋ฒฝ๊ณผ crosslingual ํ‰๊ฐ€๋ฅผ ๋‹ค๋ฃจ๋Š” 245๋ฒˆ ๋…ผ๋ฌธ์ด 690์˜ ๊ด€์ฐฐ์„ ๋ณด๋‹ค ๊ด‘๋ฒ”์œ„ํ•œ ์–ธ์–ด ์ง€์‹ ๋ฌธ์ œ๋กœ ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Automatically evaluating the paper reviewing capability of llms ๋…ผ๋ฌธ์€ LLM ์–ธ์–ด๊ธฐ๋ฐ˜ ์—ญ๋ฒˆ์—ญ์„ ํฌํ•จํ•œ ๋‹ค์–‘ํ•œ AI ์ž์—ฐ์–ธ์–ด ์ฒ˜๋ฆฌ ์„ฑ๋Šฅ ๋น„๊ต๋ฅผ ๋‹ค๋ฃจ์–ด 690์˜ ์‹คํ—˜์  ํ†ต์ฐฐ์„ ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •