CoAuthor: Designing a Human-AI Collaborative Writing Dataset for Exploring Language Model Capabilities

์ €์ž: Mina Lee, Percy Liang, Qian Yang | ๋‚ ์งœ: 2022-04-29 | DOI: 10.1145/3491102.3502030 📄 PDF


Essence

Figure 1

CoAuthor ๋ฐ์ดํ„ฐ์…‹: 63๋ช…์˜ ์ž‘๊ฐ€์™€ GPT-3์˜ 4๊ฐœ ์ธ์Šคํ„ด์Šค ๊ฐ„ 1445๊ฐœ ์“ฐ๊ธฐ ์„ธ์…˜์—์„œ ์ˆ˜์ง‘๋œ ์ธ๊ฐ„-AI ํ˜‘๋ ฅ ์ƒํ˜ธ์ž‘์šฉ

๋ณธ ๋…ผ๋ฌธ์€ GPT-3์˜ ์ฐฝ์ž‘ ๋ฐ ๋…ผ์ฆ์  ๊ธ€์“ฐ๊ธฐ ์ง€์› ๋Šฅ๋ ฅ์„ ํƒ๊ตฌํ•˜๊ธฐ ์œ„ํ•ด ์„ค๊ณ„๋œ ๋Œ€๊ทœ๋ชจ ์ธ๊ฐ„-AI ํ˜‘๋ ฅ ๊ธ€์“ฐ๊ธฐ ๋ฐ์ดํ„ฐ์…‹ CoAuthor๋ฅผ ์ œ์‹œํ•˜๋ฉฐ, ์ƒํ˜ธ์ž‘์šฉ ๋ฐ์ดํ„ฐ์…‹ ๋ถ„์„์„ ํ†ตํ•ด ์–ธ์–ด ๋ชจ๋ธ์˜ ์—ญ๋Ÿ‰์„ HCI ๊ด€์ ์—์„œ ์ฒด๊ณ„์ ์œผ๋กœ ์ดํ•ดํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ค€๋‹ค.

Motivation

Achievement

Figure 2

์ฐฝ์ž‘๊ณผ ๋…ผ์ฆ์  ๊ธ€์“ฐ๊ธฐ์—์„œ ๋†’์€ ๋ฐ ๋‚ฎ์€ ๋ฌด์ž‘์œ„์„ฑ(randomness)์˜ GPT-3 ๋Šฅ๋ ฅ ๋น„๊ต

  1. ํฌ๊ด„์  ์ƒํ˜ธ์ž‘์šฉ ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ•: 63๋ช…์˜ ์ž‘๊ฐ€์™€ GPT-3์˜ 4๊ฐœ ์ธ์Šคํ„ด์Šค ๊ฐ„ 1445๊ฐœ ๊ธ€์“ฐ๊ธฐ ์„ธ์…˜์œผ๋กœ๋ถ€ํ„ฐ ์ˆ˜์ง‘๋œ CoAuthor ๋ฐ์ดํ„ฐ์…‹์„ ์ œ์‹œ. ์ด๋Š” ์‹ค์ œ ์‚ฌ์šฉ์ž์˜ ์ž์—ฐ์Šค๋Ÿฌ์šด ์ƒํ˜ธ์ž‘์šฉ์„ ๊ธฐ๋กํ•œ ์ตœ์ดˆ์˜ ๋Œ€๊ทœ๋ชจ ์ธ๊ฐ„-AI ํ˜‘๋ ฅ ๊ธ€์“ฐ๊ธฐ ๋ฐ์ดํ„ฐ์…‹์ด๋‹ค.
  2. ์–ธ์–ด ๋ชจ๋ธ ๋Šฅ๋ ฅ์˜ ๋‹ค๊ฐ์  ๋ถ„์„: ์–ธ์–ด ๋Šฅ๋ ฅ(fluency), ์•„์ด๋””์–ด ์ฐฝ์ถœ ๋Šฅ๋ ฅ(ideation), ํ˜‘๋ ฅ ๋Šฅ๋ ฅ(collaboration)์˜ ์„ธ ๊ฐ€์ง€ ์ฐจ์›์—์„œ GPT-3์˜ ์—ญ๋Ÿ‰์„ ์‹ค์ฆ์ ์œผ๋กœ ๋ถ„์„ํ•˜๊ณ , ๋‹ค์–‘ํ•œ "์ข‹์€ ํ˜‘๋ ฅ(good collaboration)"์˜ ์ •์˜ ํ•˜์—์„œ ๋ชจ๋ธ์˜ ๊ธฐ์—ฌ๋„๋ฅผ ํ‰๊ฐ€ํ–ˆ๋‹ค.
  3. ์žฌ์ƒ ์ธํ„ฐํŽ˜์ด์Šค ์ œ๊ณต: ๋ชจ๋“  ๊ธ€์“ฐ๊ธฐ ์„ธ์…˜์„ ์žฌ์ƒํ•  ์ˆ˜ ์žˆ๋Š” ๋Œ€ํ™”ํ˜• ๋„๊ตฌ๋ฅผ ๊ณต๊ฐœํ•˜์—ฌ, ์„ค๊ณ„์ž๋“ค์ด ์‹ค์ œ ์ƒํ˜ธ์ž‘์šฉ์˜ ์—ญํ•™๊ด€๊ณ„๋ฅผ ์ง๊ด€์ ์œผ๋กœ ์ดํ•ดํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ–ˆ๋‹ค.

How

Figure 3

CoAuthor ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘์šฉ ์ธํ„ฐํŽ˜์ด์Šค

Figure 4

์ž‘๊ฐ€์™€ GPT-3์ด ์ž‘์„ฑํ•œ ๋ฌธ์žฅ์˜ ํŠน์„ฑ ๋น„๊ต

Originality

Limitation & Further Study

Evaluation

์ดํ‰: ๋ณธ ๋…ผ๋ฌธ์€ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ์˜ ์ธ๊ฐ„-AI ํ˜‘๋ ฅ ๋Šฅ๋ ฅ์„ ์ฒด๊ณ„์ ์œผ๋กœ ํƒ๊ตฌํ•˜๊ธฐ ์œ„ํ•œ ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ์…‹-์ค‘์‹ฌ ๋ฐฉ๋ฒ•๋ก ์„ ์ œ์‹œํ•˜๋ฉฐ, ๊ณต๊ฐœ๋œ CoAuthor ๋ฐ์ดํ„ฐ์…‹๊ณผ ์žฌ์ƒ ์ธํ„ฐํŽ˜์ด์Šค๋Š” HCI ์ปค๋ฎค๋‹ˆํ‹ฐ์— ๋งค์šฐ ์‹ค์งˆ์ ์ธ ์ž์‚ฐ์ด ๋  ๊ฒƒ์œผ๋กœ ์˜ˆ์ƒ๋œ๋‹ค. ๋‹ค๋งŒ ๋‹จ์ผ ๋ชจ๋ธ์— ๋Œ€ํ•œ ๋ถ„์„๊ณผ ์ œํ•œ๋œ ์ž‘์—… ๋ฒ”์œ„์˜ ํ™•๋Œ€๊ฐ€ ํ–ฅํ›„ ๊ณผ์ œ์ด๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
CoAuthor ๋…ผ๋ฌธ์€ ์ธ๊ฐ„-AI ํ˜‘์—… ๋ฐ์ดํ„ฐ์…‹์„ ๊ตฌ์ถ•ํ•˜๊ณ  ๋ถ„์„ํ•ด ์ „๊ธฐ๋ฌธ/๋ฆฌ๋ทฐ ๋“ฑ ์ž๋™ ์ƒ์„ฑ๋ฌธ์„œ์—์„œ์˜ AI-๊ธฐ์—ฌ์™€ ์ธ๊ฐ„ ์ž‘์—…๊ณผ์˜ ์ธํ„ฐ๋ž™์…˜์— ๋Œ€ํ•œ ๊ทผ๋ณธ์  ํ†ต์ฐฐ์„ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
CoAuthor ๋ฐ์ดํ„ฐ์…‹์€ ์ธ๊ฐ„๊ณผ AI์˜ ํ˜‘๋™์  ๋…ผ๋ฌธ ์ž‘์„ฑ ๊ณผ์ •์„ ์ง‘์ค‘ ๋ถ„์„ํ•˜์—ฌ, OverleafCopilot์˜ ์‹ค์‚ฌ์šฉ ๋งฅ๋ฝ ์„ค๊ณ„์— ์ค‘์š”ํ•œ ์ด๋ก ์  ๋ฐฐ๊ฒฝ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
228(CoAuthor)์€ ์ธ๊ฐ„-AI ํ˜‘์—… ์ €์ˆ  ๋ฐ์ดํ„ฐ์…‹ ๋…ผ๋ฌธ์œผ๋กœ, 116์˜ ์ƒ์„ฑํ˜• AI ํ˜‘์—… ์‹œ๋‚˜๋ฆฌ์˜ค ์›Œํฌ์ˆ ์—ฐ๊ตฌ์˜ ๋ฐ์ดํ„ฐ์ , ์‹คํ—˜์  ๊ธฐ๋ฐ˜์ด ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
CoAuthor ๋…ผ๋ฌธ์€ ์ธ๊ฐ„-LLM ๊ณต๋™ ๊ธ€์“ฐ๊ธฐ ๊ณผ์ •์˜ ๋ฐ์ดํ„ฐ๋ฅผ ๊ณต๊ฐœํ•˜๋ฉฐ, Scholawrite ๋ฐ์ดํ„ฐ์…‹์ด ์ถ”์ ํ•˜๋Š” ํ•™์ˆ  ์ €์ˆ  ํ–‰ํƒœ ๋ถ„์„์— ๊ธฐ์ดˆ์ž๋ฃŒ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
CoAuthor(228)๋Š” ์ธ๊ฐ„-AI ํ˜‘์—… ๋…ผ๋ฌธ ์ž‘์„ฑ์— ํŠนํ™”๋œ ์‹ค์‚ฌ์šฉ ๋ฐ์ดํ„ฐ์…‹์„ ์ œ๊ณตํ•˜์—ฌ, ์Šคํ† ๋ฆฌ ์ฐฝ์ž‘ ํ˜‘์—… ์›Œํฌํ”Œ๋กœ์šฐ์™€ ๋น„๊ตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
CoAuthor ๋…ผ๋ฌธ์€ ์ธ๊ฐ„๊ณผ AI์˜ ํ˜‘์—…์  ๋…ผ๋ฌธ ์ž‘์„ฑ ๋ฐ์ดํ„ฐ์…‹์„ ์ œ์‹œํ•˜์—ฌ, ์œ„ํ‚ค ๊ธฐ์‚ฌ ์ž‘์„ฑ ๊ณผ์ •์—์„œ ํ˜‘์—…-์ž๋™ํ™” ์„ฑ๋Šฅ ๋น„๊ต์— ์ฐธ๊ณ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
CoAuthor ๋ฐ์ดํ„ฐ์…‹(228)์€ ์‹ค์ œ AI-human ๊ณต๋™ ์ €์ž‘ ํ–‰์œ„์˜ ๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜ ๋ถ„์„์ด๋ฉฐ, 775๋ฒˆ ๋…ผ๋ฌธ์€ ํ”„๋กœํ•„ ์••์ถ• ๊ธฐ๋ฐ˜ ํ˜‘์—… ๊ธ€์“ฐ๊ธฐ์ž…๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
228๋ฒˆ CoAuthor ๋…ผ๋ฌธ์€ ๋…ผ๋ฌธ ์ž‘์„ฑ ์ธก๋ฉด์—์„œ ์ธ๊ฐ„๊ณผ AI์˜ ํ˜‘์—… ๊ณผ์ •์„ ์‹ฌ์ธต ๋ถ„์„ํ•˜์—ฌ, 553๋ฒˆ์˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ AI ๋ฐ์ดํ„ฐ Annotation ์ž‘์—…์—์„œ์˜ ์ธ๊ฐ„-AI ํ˜‘์—…์— ๋‹ค๋ฅธ ์ธก๋ฉด์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM ๊ธฐ๋ฐ˜ ํ˜‘๋ ฅ ๊ธ€์“ฐ๊ธฐ ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ•์—์„œ ์œ ์‚ฌํ•œ ๋ชฉํ‘œ๋ฅผ ๋‹ค๋ฅธ ๋ฐฉ์‹์œผ๋กœ ์ ‘๊ทผํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
ํ•™์ˆ  ๊ธ€์“ฐ๊ธฐ์—์„œ AI ์–ธ์–ด๋ชจ๋ธ ์‚ฌ์šฉ์ด ํ…์ŠคํŠธ ํŠน์„ฑ ๋ฐ ๋‹ค์–‘์„ฑ์— ๋ฏธ์น˜๋Š” ์˜ํ–ฅ์„ ๋ถ„์„ํ•˜๋Š” ๊ด€๋ จ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๊ณผํ•™์  ๋…ผ๋ฌธ ์š”์•ฝ ๋ฐ ๊ตฌ์กฐ์  ์•„์ด๋””์–ด ์ œ์•ˆ์—์„œ reward-guided ์ƒ์„ฑ ๋ฐฉ์‹๊ณผ ๊ตฌ์กฐ์  ์„ค๊ณ„ ์ฐจ์ด๋ฅผ ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
์ฑ…์ž„ ์žˆ๋Š” AI ๋…ผ๋ฌธ ์ž‘์„ฑ ๋ฐ ํ˜‘์—… ์ง€์นจ ๋…ผ์˜๋กœ, CoAuthor์—์„œ ๋“œ๋Ÿฌ๋‚œ ํ˜„์žฅ ๋ฌธ์ œ์™€ ์œค๋ฆฌ์  ๊ณ ๋ฏผ์„ ๋” ๊นŠ์ด ํŒŒ์•…ํ•  ์ˆ˜ ์žˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
280๋ฒˆ ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜ ํ•™์ˆ  ๊ธ€์“ฐ๊ธฐ์˜ ์‹ค์ œ ์ฑ„ํƒ๊ณผ ํšจ๊ณผ๋ฅผ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ๋กœ ์‹ค์ฆํ•˜์—ฌ CoAuthor์˜ ๋ถ„์„์  ํ‹€์„ ์‹ค์ „ ํ™˜๊ฒฝ์œผ๋กœ ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Human-LLM Coevolution ๋…ผ๋ฌธ์€ ์ธ๊ฐ„๊ณผ LLM ํ˜‘์—… ๊ธ€์“ฐ๊ธฐ์˜ ๋™์  ๋ณ€ํ™”์™€ ์ง„ํ™”๋ฅผ ๋ถ„์„ํ•˜์—ฌ CoAuthor์˜ HCI์  ๋ถ„์„๊ณผ ์‹œ๋„ˆ์ง€๋ฅผ ์ด๋ฃน๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
Can large language models provide useful feedback ๋…ผ๋ฌธ์€ LLM ํ”ผ๋“œ๋ฐฑ์˜ ์‹ค์ œ ๋…ผ๋ฌธ ์‹ฌ์‚ฌ ํšจ์šฉ์„ ์ธก์ •ํ•ด CoAuthor ๋ฐ์ดํ„ฐ์…‹์˜ ํ™œ์šฉ ์‹œ๋‚˜๋ฆฌ์˜ค์™€ ์ ‘๋ชฉํ•  ์ˆ˜ ์žˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •