ChatGPT outperforms crowd workers for text-annotation tasks

์ €์ž: Fabrizio Gilardi, Meysam Alizadeh, Maรซl Kubli | ๋‚ ์งœ: 2023-07-25 | DOI: 10.1073/pnas.2305016120 📄 PDF


Essence

Figure 1

๊ทธ๋ฆผ 1: ๋„ค ๊ฐ€์ง€ ๋ฐ์ดํ„ฐ์…‹์—์„œ ChatGPT์˜ ์˜์  ์ƒท(zero-shot) ํ…์ŠคํŠธ ์ฃผ์„ ์„ฑ๋Šฅ ๋น„๊ต. ChatGPT์˜ ์ •ํ™•๋„(accuracy)๋Š” ๋Œ€๋ถ€๋ถ„์˜ ์ž‘์—…์—์„œ MTurk๋ฅผ ๋Šฅ๊ฐ€ํ•˜๋ฉฐ, ๋ชจ๋“  ์ž‘์—…์—์„œ ์ฝ”๋” ๊ฐ„ ํ•ฉ์˜๋„(intercoder agreement)๊ฐ€ MTurk์™€ ํ›ˆ๋ จ๋œ ์ฃผ์„์ž๋ฅผ ์ดˆ๊ณผํ•จ.

ChatGPT๋Š” ํ…์ŠคํŠธ ์ฃผ์„ ์ž‘์—…์—์„œ ํฌ๋ผ์šฐ๋“œ ์›Œ์ปค(crowd workers)๋ฅผ ํ‰๊ท  25 percentage point ์ดˆ๊ณผํ•˜๋Š” ์ •ํ™•๋„๋กœ ๋Šฅ๊ฐ€ํ•˜๋ฉฐ, ํ›ˆ๋ จ๋œ ์ฃผ์„์ž ์ˆ˜์ค€์˜ ์ฝ”๋” ๊ฐ„ ํ•ฉ์˜๋„๋ฅผ ๋‹ฌ์„ฑํ•˜๋ฉด์„œ๋„ MTurk ๋Œ€๋น„ ์•ฝ 30๋ฐฐ ์ €๋ ดํ•œ ๋น„์šฉ์œผ๋กœ ์ˆ˜ํ–‰ ๊ฐ€๋Šฅํ•จ์„ ์ž…์ฆํ•˜๋Š” ์—ฐ๊ตฌ์ด๋‹ค.

Motivation

Achievement

  1. ์ •ํ™•๋„ ์šฐ์›”์„ฑ: ChatGPT์˜ ์˜์  ์ƒท ์ •ํ™•๋„๋Š” 4๊ฐœ ๋ฐ์ดํ„ฐ์…‹ ์ „๋ฐ˜์—์„œ MTurk๋ฅผ ํ‰๊ท  ์•ฝ 25 percentage point ์ดˆ๊ณผ. ๊ด€๋ จ์„ฑ ์ž‘์—…(2๊ฐœ ํด๋ž˜์Šค)์˜ ๊ฒฝ์šฐ 70-83% ์ •ํ™•๋„ ๋‹ฌ์„ฑ(2023๋…„ ์ƒ˜ํ”Œ ์ œ์™ธ).
  2. ์ฝ”๋” ๊ฐ„ ํ•ฉ์˜๋„ ์ตœ๊ณ  ์„ฑ๋Šฅ: ChatGPT(์˜จ๋„=0.2)๋Š” ํ‰๊ท  97% ํ•ฉ์˜๋„๋กœ, ํ›ˆ๋ จ๋œ ์ฃผ์„์ž(79%), MTurk(56%)๋ฅผ ๋ชจ๋‘ ์ดˆ๊ณผ. ์˜จ๋„ ํŒŒ๋ผ๋ฏธํ„ฐ ์กฐ์ •์„ ํ†ตํ•ด ์ผ๊ด€์„ฑ ํ–ฅ์ƒ ๊ฐ€๋Šฅํ•จ์„ ์ž…์ฆ.
  3. ํš๊ธฐ์  ๋น„์šฉ ์ ˆ๊ฐ: ์ฃผ์„๋‹น ๋น„์šฉ $0.003(์•ฝ $0.003 ์ดํ•˜)์œผ๋กœ MTurk ๋Œ€๋น„ ์•ฝ 30๋ฐฐ ์ €๋ ดํ•˜๋ฉด์„œ๋„ ๋” ๋†’์€ ํ’ˆ์งˆ ์ œ๊ณต.
  4. ์ผ๊ด€๋œ ์„ฑ๋Šฅ: ๋‹ค์–‘ํ•œ ํ…์ŠคํŠธ ์œ ํ˜•(ํŠธ์œ—, ๋‰ด์Šค ๊ธฐ์‚ฌ)๊ณผ ์‹œ๊ฐ„ ๋ฒ”์œ„(2017-2023)์—์„œ ์ผ๊ด€๋˜๊ฒŒ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ ์ž…์ฆ. ChatGPT ์ •ํ™•๋„์™€ ํ›ˆ๋ จ๋œ ์ฃผ์„์ž์˜ ์ฝ”๋” ๊ฐ„ ํ•ฉ์˜๋„ ๊ฐ„ ์–‘์˜ ์ƒ๊ด€(r=0.46)์œผ๋กœ, ๋” ์–ด๋ ค์šด ์ž‘์—…์—์„œ ๋” ํฐ ์šฐ์›”์„ฑ ๋ฐœํœ˜.

How

Originality

Limitation & Further Study

Evaluation

์ดํ‰: ๋ณธ ๋…ผ๋ฌธ์€ ChatGPT๊ฐ€ ํ…์ŠคํŠธ ์ฃผ์„ ์ž‘์—…์—์„œ ํฌ๋ผ์šฐ๋“œ ์†Œ์‹ฑ์„ ์‹ค์งˆ์ ์œผ๋กœ ๋Œ€์ฒด ๊ฐ€๋Šฅํ•จ์„ ์ตœ์ดˆ๋กœ ์ฒด๊ณ„์ ์œผ๋กœ ์ž…์ฆํ•œ ์ค‘์š”ํ•œ ์‹ค์ฆ ์—ฐ๊ตฌ๋กœ, NLP ์—ฐ๊ตฌ ์ปค๋ฎค๋‹ˆํ‹ฐ์˜ ์‹ค๋ฌด ๋ฐฉ์‹ ์ „ํ™˜์„ ์ด‰๋ฐœํ•  ์‹œ์‚ฌ์ ์ด ์žˆ์œผ๋‚˜, ๋‹ค์–ธ์–ด ์„ฑ๋Šฅ๊ณผ ์žฅ๊ธฐ์  ์‹ ๋ขฐ์„ฑ์— ๋Œ€ํ•œ ์ถ”๊ฐ€ ๊ฒ€์ฆ์ด ํ•„์š”ํ•˜๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Sentence split-and-rephrase ํƒœ์Šคํฌ์šฉ ์ž์—ฐ ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ•์€ ChatGPT์˜ ์ •ํ™•๋„ ๋ฐ ๋น„์šฉ ํšจ์œจ์„ฑ ํ‰๊ฐ€์— ๋ฐ์ดํ„ฐ์  ๊ธฐ์ดˆ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
206์€ ์ธ๊ฐ„๊ณผ ํฌ๋ผ์šฐ๋“œ์›Œ์ปค๋ฅผ ๋Œ€์ƒ์œผ๋กœ LLM๊ณผ์˜ ์ž์—ฐ์–ด์ฒ˜๋ฆฌ ํ’ˆ์งˆ์„ ๋น„๊ตํ•˜์—ฌ, 511์˜ ์‹ฌ์ธต ๋‰ด์Šค ํ…์ŠคํŠธ ๋ถ„์„์—์„œ LLM vs ์ธ๊ฐ„์ฝ”๋” ๋น„๊ตํ‰๊ฐ€์— ์ด๋ก ยท์‹คํ—˜์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
ChatGPT๊ฐ€ ํ…์ŠคํŠธ ์ฃผ์„ ํƒœ์Šคํฌ์—์„œ ์ง‘๋‹จ ๋…ธ๋™์ž๋ฅผ ๋Šฅ๊ฐ€ํ•˜๋Š” ์‚ฌ๋ก€๋ฅผ ์ œ์‹œํ•˜๋ฉฐ, ๋ฐ์ดํ„ฐ ๋ผ๋ฒจ๋ง ์ž๋™ํ™”์˜ ๋‹ค์–‘ํ•œ ์ „๋žต์„ ๋…ผ์˜ํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
206๋ฒˆ ๋…ผ๋ฌธ์€ LLM ํ™œ์šฉ ํ…์ŠคํŠธ ์–ด๋…ธํ…Œ์ด์…˜ ํ’ˆ์งˆ์„ ํ‰๊ฐ€ํ•˜๋ฉฐ, 748๋ฒˆ์˜ ์ค€์ง€๋„ ๋ฐ์ดํ„ฐ ๋ผ๋ฒจ๋ง ๋ฌธ์ œ์™€ ๋‹ค๋ฅธ ๋ถ„์•ผ์˜ ๋ฐฉ๋ฒ•๋ก ์  ๋Œ€์•ˆ์„ ์ œ์‹œํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ ์ฃผ์„์—์„œ ํฌ๋ผ์šฐ๋“œ์†Œ์‹ฑ ๋Œ€์‹  LLM ์‚ฌ์šฉ์ด ๋ฐ์ดํ„ฐ ํ’ˆ์งˆ๊ณผ ํšจ์œจ์„ฑ์— ๋ฏธ์น˜๋Š” ์˜ํ–ฅ์„ ์‹คํ—˜์ ์œผ๋กœ ๋ถ„์„ํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM ๊ธฐ๋ฐ˜ ํ…์ŠคํŠธ ๋ถ„๋ฅ˜ ๋ฐ ์ฃผ์„ ์ž๋™ํ™”๋ฅผ ์œ„ํ•œ ์œ ์‚ฌํ•œ ๋ฐฉ๋ฒ•๋ก ์„ ์‚ฌ์šฉํ•˜๋Š” ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
GPT ๋ชจ๋ธ์„ ํ™œ์šฉํ•œ ํ…์ŠคํŠธ ํ‰๊ฐ€ ๋ฐ ์ฃผ์„ ์ž‘์—…์˜ ์„ฑ๋Šฅ์„ ๋ถ„์„ํ•˜๋Š” ๊ด€๋ จ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLMEval-Med๋Š” ์‹ค์ œ ์˜๋ฃŒ ๋„๋ฉ”์ธ์—์„œ LLM ์ฃผ์„์˜ ์ ์šฉ๊ณผ ํ•œ๊ณ„๋ฅผ ๋‹ค๋ฃจ๋ฉฐ, ChatGPT์˜ ๋ฒ”์šฉ ํ…์ŠคํŠธ ์ฃผ์„ ๋Šฅ๋ ฅ๊ณผ ๋น„๊ตํ•ด ์˜๋ฃŒ ํ˜„์žฅ ๋„๋ฉ”์ธ ํŠน์„ฑ์„ ๋ถ„์„ํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
206๋ฒˆ ๋…ผ๋ฌธ์€ ํฌ๋ผ์šฐ๋“œ์†Œ์‹ฑ ํ…์ŠคํŠธ ์–ด๋…ธํ…Œ์ด์…˜์„ ChatGPT ๊ธฐ๋ฐ˜์œผ๋กœ ์ž๋™ํ™”ํ•˜์—ฌ, 905๋ฒˆ์˜ ์„ฑ๋Šฅ๋น„๊ต ์—ฐ๊ตฌ์™€ ์ง์ ‘ ์—ฐ๊ด€๋ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Annotation์˜ ์‹ ๋ขฐ๋„์™€ LLM ํ™œ์šฉ๋œ ์˜ˆ์ธก ๋ฌธ์ œ๋ฅผ ์‹ค์ฆ์ ์œผ๋กœ ๋ถ„์„ํ•˜์—ฌ 206๋ฒˆ์˜ ์ž๋™ ์ฃผ์„ ์—ฐ๊ตฌ์— ๊นŠ์ด๋ฅผ ๋”ํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
ChatGPT๋ฅผ ํ™œ์šฉํ•œ ํ…์ŠคํŠธ ์ฃผ์„ ์ •ํ™•๋„ ๋น„๊ต ์—ฐ๊ตฌ์˜ ๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜ ์ž‘์—…์ด WikiSplit์™€ ๊ฐ™์ด ์‹ค์ œ ๋ฌธ์žฅ ์ˆ˜์ค€ ์ž์—ฐ ๋ฐ์ดํ„ฐ์…‹์— ์˜์กดํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
ํ•™์Šต์ž ๋ฐ ๊ต์‹ค ํ™˜๊ฒฝ์—์„œ ChatGPT ๋“ฑ LLM์ด ์‹ค์ œ๋กœ ์–ด๋–ป๊ฒŒ ์ฃผ์„ ๋ฐ ํ‰๊ฐ€์— ์“ฐ์ผ ์ˆ˜ ์žˆ๋Š”์ง€ ์‹ค์ œ ์‚ฌ๋ก€๋ฅผ ์ œ์‹œํ•œ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
Robust claim verification through fact detection ๋…ผ๋ฌธ์€ LLM์˜ ์ฃผ์„(ํŒฉํŠธ ํƒ์ง€) ๋Šฅ๋ ฅ์ด ์‹ค์ œ ๊ฒ€์ฆ ์—…๋ฌด์— ์–ด๋А ์ •๋„ ๋„์›€์ด ๋˜๋Š”์ง€ ์‚ฌ๋ก€ ์ค‘์‹ฌ์œผ๋กœ ํ‰๊ฐ€ํ•œ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
ChatGPT outperforms crowd workers for text-annotation tasks ๋…ผ๋ฌธ์€ LLM์ด ์‹ค์ œ ๋ฐ์ดํ„ฐ ๋ผ๋ฒจ๋ง์— ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋ณด์ด๋ฏ€๋กœ, ๋ณธ ๋…ผ๋ฌธ์˜ ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ์™€ ์ฆ๊ฐ• ๋ฐ์ดํ„ฐ์˜ ํ’ˆ์งˆ ๊ฐœ์„  ํšจ๊ณผ๋ฅผ ์‹ค์ œ ํ˜„์žฅ์—์„œ ์ ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์ ์—์„œ ์—ฐ๊ฒฐ๋ฉ๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •