Learning to split and rephrase from wikipedia edit history

์ €์ž: Jan A. Botha, Manaal Faruqui, John Alex, Jason Baldridge, Dipanjan Das | ๋‚ ์งœ: 2018 | DOI: N/A 📄 PDF


Essence

๋ณธ ๋…ผ๋ฌธ์€ ์œ„ํ‚คํ”ผ๋””์•„ ํŽธ์ง‘ ์ด๋ ฅ์„ ๋งˆ์ด๋‹ํ•˜์—ฌ ๋ฌธ์žฅ ๋ถ„ํ• -์žฌํ‘œํ˜„(split-and-rephrase) ์ž‘์—…์„ ์œ„ํ•œ 100๋งŒ ๊ฐœ ๊ทœ๋ชจ์˜ ๋Œ€๊ทœ๋ชจ ์ž์—ฐ ๋ฐ์ดํ„ฐ์…‹ WikiSplit์„ ๊ตฌ์ถ•ํ•˜๊ณ , ์ด๋ฅผ ํ™œ์šฉํ•˜์—ฌ ๊ธฐ์กด ๋ฐฉ๋ฒ• ๋Œ€๋น„ 32 BLEU ํฌ์ธํŠธ ํ–ฅ์ƒ์„ ๋‹ฌ์„ฑํ–ˆ๋‹ค.

Motivation

Achievement

  1. WikiSplit ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ•: 100๋งŒ ๊ฐœ์˜ ์ž์—ฐ์Šค๋Ÿฌ์šด ๋ฌธ์žฅ ๋ถ„ํ• -์žฌํ‘œํ˜„ ์˜ˆ์‹œ ์ถ”์ถœ. ๊ธฐ์กด WebSplit ๋Œ€๋น„ 60๋ฐฐ ๋งŽ์€ ๊ณ ์œ  ๋ถ„ํ•  ์˜ˆ์‹œ์™€ 90๋ฐฐ ๋” ํฐ ์–ดํœ˜ ๊ทœ๋ชจ(633k ํ† ํฐ) ๋‹ฌ์„ฑ.
  2. ์„ฑ๋Šฅ ๋Œ€ํญ ํ–ฅ์ƒ: WebSplit ๋ฒค์น˜๋งˆํฌ์—์„œ BLEU ์ ์ˆ˜ 30.5์—์„œ 62.4๋กœ ์ƒํ–ฅ(104% ํ–ฅ์ƒ), ์ด์ „ ์ตœ๊ณ  ์„ฑ๋Šฅ(Aharoni and Goldberg 2018์˜ 30.5 BLEU) ๋Œ€๋น„ 32 ํฌ์ธํŠธ ๊ฐœ์„ .
  3. ์–ธ์–ด ๊ฐ„ ์ผ๋ฐ˜ํ™” ๊ฐ€๋Šฅ์„ฑ: ์œ„ํ‚คํ”ผ๋””์•„๊ฐ€ ๋‹ค๊ตญ์–ด๋กœ ์กด์žฌํ•˜๋ฏ€๋กœ ์ œ์•ˆ๋œ ์ถ”์ถœ ๋ฐฉ๋ฒ•์„ ๋‹ค๋ฅธ ์–ธ์–ด๋กœ๋„ ํ™•์žฅ ๊ฐ€๋Šฅํ•œ ๊ธฐ๋ฐ˜ ์ œ๊ณต.

How

Originality

Limitation & Further Study

Evaluation

์ดํ‰: ๋ณธ ๋…ผ๋ฌธ์€ ์œ„ํ‚คํ”ผ๋””์•„ ํŽธ์ง‘ ์ด๋ ฅ์ด๋ผ๋Š” ํ’๋ถ€ํ•œ ์ž์—ฐ ์ž์›์„ ํšจ๊ณผ์ ์œผ๋กœ ํ™œ์šฉํ•˜์—ฌ ๊ธฐ์กด ์†Œ๊ทœ๋ชจ ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ์…‹์˜ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•œ ์šฐ์ˆ˜ํ•œ ๋ฐ์ดํ„ฐ์…‹ ๋…ผ๋ฌธ์ด๋‹ค. ๋น„๋ก ์ถ”์ถœ ๋ฐฉ๋ฒ•๋ก ์ด ๋‹จ์ˆœํ•˜๊ณ  ๋…ธ์ด์ฆˆ๊ฐ€ ์กด์žฌํ•˜๋‚˜, ๊ณต๊ฐœ๋œ ๋Œ€๊ทœ๋ชจ ์ž์—ฐ ๋ฐ์ดํ„ฐ์™€ ์ž…์ฆ๋œ ์„ฑ๋Šฅ ํ–ฅ์ƒ์˜ ์‹ค์šฉ์„ฑ์ด ์ถฉ๋ถ„ํžˆ ๊ฐ€์น˜ ์žˆ์œผ๋ฉฐ, ํ…์ŠคํŠธ ๋‹จ์ˆœํ™” ๋ถ„์•ผ์—์„œ ์ค‘์š”ํ•œ ๊ธฐ์ดˆ ์ž์›์œผ๋กœ ๋„๋ฆฌ ํ™œ์šฉ๋  ์ˆ˜ ์žˆ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Sentence split-and-rephrase ํƒœ์Šคํฌ์šฉ ์ž์—ฐ ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ•์€ ChatGPT์˜ ์ •ํ™•๋„ ๋ฐ ๋น„์šฉ ํšจ์œจ์„ฑ ํ‰๊ฐ€์— ๋ฐ์ดํ„ฐ์  ๊ธฐ์ดˆ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
์œ„ํ‚คํ”ผ๋””์•„ ํŽธ์ง‘ ํžˆ์Šคํ† ๋ฆฌ ๋“ฑ ์ƒ์„ฑยท๊ฒ€์ฆ ์ด์ค‘ ๊ธฐ๋ฐ˜์˜ ๋ฐ์ดํ„ฐ ํ™œ์šฉ ๋ฐฉ๋ฒ•์„ ํ†ตํ•ด Agentomics-ML์˜ ์ž๋™ํ™” ์‹คํ—˜ ์„ค๊ณ„์— ์ด๋ก ์  ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Wikipedia edit history ํ•™์Šต์„ ํ™œ์šฉํ•œ ์ œ๊ณต ๋ฐฉ์‹์€ BoolQ์˜ ์ž์—ฐ ๋ฐœ์ƒ์  ์˜ˆ/์•„๋‹ˆ์˜ค ์งˆ๋ฌธ์— ๋Œ€ํ•œ ์ดํ•ด๋„ ํ‰๊ฐ€์™€ ๋‹ค๋ฅธ ์ ‘๊ทผ์„ ์ทจํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Learning to split and rephrase from wikipedia edit history ๋…ผ๋ฌธ์€ ์œ„ํ‚ค ๋ฌธ์žฅ ๋ฆฌ๋ผ์ดํŒ…์„ ํ†ตํ•ด ์œ ์ฐฝ์„ฑ๊ณผ ๊ตฌ์กฐ ๊ฐœ์„ ์„ ๋‹ค๋ฃจ์–ด 272์˜ SentRev์™€ ๋ฐ์ดํ„ฐ ๋ฐ ์ ‘๊ทผ ๋ฐฉ์‹ ๋น„๊ต์— ์ ํ•ฉํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๊ฐ™์€ AI ๋ณด์กฐ ํ˜‘์—… ํ…์ŠคํŠธ ํŽธ์ง‘ ๋ถ„์•ผ์—์„œ ๋ฌธ์žฅ ์ƒ์„ฑ ๋ฐ ์žฌํ‘œํ˜„ ์ž‘์—…์„ ์‹ค์ œ ์ธ๊ฐ„ ํ˜‘๋ ฅ ๊ธฐ๋ฐ˜์œผ๋กœ ๋ถ„์„ํ•˜๋ฏ€๋กœ ์‹ค์ œ ํ˜‘์—… ์–‘์ƒ์„ ๋น„๊ตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์œ„ํ‚คํ”ผ๋””์•„ ์ˆ˜์ • ๋ฐ์ดํ„ฐ์—์„œ ๋ฌธ์žฅ ์žฌ์ž‘์„ฑ ๋ฐ ์˜ค๋ฅ˜ ๊ฒ€์ถœ ์„ฑ๋Šฅ ๋ถ„์„์„ ํ†ตํ•ด, LM-Combiner ๋ฐฉ์‹๊ณผ ๊ทผ๋ณธ์  ์ฐจ๋ณ„์„ฑ์„ ๊ฒ€ํ† ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Generalization Bias in Large Language Model Summarization ๋…ผ๋ฌธ์€ LLM์˜ ์ž๋™์ƒ์„ฑ ํ…์ŠคํŠธ์˜ ์งˆ์  ํ•œ๊ณ„์™€ ์ผ๋ฐ˜ํ™” ํŽธํ–ฅ์„ ์‹ค์ฆ์ ์œผ๋กœ ์ธก์ •ํ•˜์—ฌ, ๋ฐ์ดํ„ฐ ์ƒ์„ฑ ๊ธฐ๋ฒ•์˜ ์‹ค์ œ ์ ์šฉ๊ณผ ํ•œ๊ณ„๋ฅผ ๋ณด์™„์ ์œผ๋กœ ๋ถ„์„ํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
WikiAtomicEdits ๋…ผ๋ฌธ์€ ์œ„ํ‚คํ”ผ๋””์•„ ๊ธฐ๋ฐ˜ ๋Œ€๊ทœ๋ชจ ์ž์—ฐ ๋ฐ์ดํ„ฐ๋กœ, ๋ฌธ์žฅ์ƒ์„ฑ ๋ฐ ์žฌ๊ตฌ์„ฑ ์ž‘์—…์˜ ์ผ๋ฐ˜ํ™”๊ฐ€๋Šฅ์„ฑ์„ ์œ„ํ‚ค์Šคํ”Œ๋ฆฟ๊ณผ ์ด์–ด ๋ถ„์„ํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
791์˜ ๋ฌธ์„œ ํŽธ์ง‘ ์ž‘์—… ๋ฐ ์œ„ํ‚ค ๊ธฐ๋ฐ˜ ๋ฐ์ดํ„ฐ์…‹์€ 485์˜ ์œ„ํ‚ค ํŽธ์ง‘ ์ด๋ ฅ ๋“ฑ์—์„œ ๋ฌธ์žฅ ์ƒ์„ฑ๊ณผ ์žฌ๊ตฌ์„ฑ ๋ฐฉ๋ฒ• ์—ฐ๊ตฌ์˜ ๊ธฐ๋ฐ˜ ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Generating full length wikipedia biographies ๋…ผ๋ฌธ์€ ์œ„ํ‚คํ”ผ๋””์•„ ํŽธ์ง‘ ํžˆ์Šคํ† ๋ฆฌ๋ฅผ ์ด์šฉํ•œ ๊ตฌ์กฐ์  ํ…์ŠคํŠธ ์ž๋™ํ™”์˜ ์‹ค์งˆ์  ํ›„์† ์—ฐ๊ตฌ๋ฅผ ์ œ์‹œํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Why AI cannot do good science without humans ๋…ผ๋ฌธ์€ AI ์ƒ์„ฑ ํ…์ŠคํŠธ ๊ฒ€์ฆ ๋ฐ ์ธ๊ฐ„์˜ ์—ญํ• ์— ๋Œ€ํ•œ ํ˜„์‹ค์  ๋…ผํ‰์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
WikiSplit๊ณผ ์œ ์‚ฌํ•˜๊ฒŒ ๋Œ€๊ทœ๋ชจ ๊ณผํ•™ ๋ฌธ์„œ ์š”์•ฝ์ž‘์—… ๋ฐ ๋ณต์žก ๋ฌธ์žฅ ๋ถ„ํ• -์žฌํ‘œํ˜„ ์„ฑ๋Šฅ ํ‰๊ฐ€์— ํ™œ์šฉ๋œ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
485๋Š” ์œ„ํ‚คํ”ผ๋””์•„ ํŽธ์ง‘ ์ด๋ ฅ ์ž๋ฃŒ๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ์ •๋ ฌ ๋ฐ ๋ถ„ํ•  ๋ชจ๋ธ ํ›ˆ๋ จ์„ ๋‹ค๋ฃจ์–ด, 755์˜ ๋ฐฉ๋ฒ•๋ก ์„ ์‹ค์ œ ํƒœ์Šคํฌ์— ์ ์šฉํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
Toolformer ๋…ผ๋ฌธ์€ ์–ธ์–ด ๋ชจ๋ธ์˜ ์ž์ฒด ํ”ผ๋“œ๋ฐฑ ๋ฐ ๋„๊ตฌ ์‚ฌ์šฉ ๋Šฅ๋ ฅ ํ™•์žฅ ์ธก๋ฉด์—์„œ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹ ์—†์ด๋„ ์‹ค์งˆ์ ์ธ ํ…์ŠคํŠธ ํŽธ์ง‘ ์ž๋™ํ™”๋ฅผ ์ถ”๊ตฌํ•˜๋ฏ€๋กœ, WikiSplit ๋ฐ์ดํ„ฐ์…‹ ๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ์™€ ์‹œ๋„ˆ์ง€๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
ChatGPT๋ฅผ ํ™œ์šฉํ•œ ํ…์ŠคํŠธ ์ฃผ์„ ์ •ํ™•๋„ ๋น„๊ต ์—ฐ๊ตฌ์˜ ๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜ ์ž‘์—…์ด WikiSplit์™€ ๊ฐ™์ด ์‹ค์ œ ๋ฌธ์žฅ ์ˆ˜์ค€ ์ž์—ฐ ๋ฐ์ดํ„ฐ์…‹์— ์˜์กดํ•ฉ๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •