Essence
๊ทธ๋ฆผ 1: ๋ค ๊ฐ์ง ๋ฐ์ดํฐ์
์์ ChatGPT์ ์์ ์ท(zero-shot) ํ
์คํธ ์ฃผ์ ์ฑ๋ฅ ๋น๊ต. ChatGPT์ ์ ํ๋(accuracy)๋ ๋๋ถ๋ถ์ ์์
์์ MTurk๋ฅผ ๋ฅ๊ฐํ๋ฉฐ, ๋ชจ๋ ์์
์์ ์ฝ๋ ๊ฐ ํฉ์๋(intercoder agreement)๊ฐ MTurk์ ํ๋ จ๋ ์ฃผ์์๋ฅผ ์ด๊ณผํจ.
ChatGPT๋ ํ
์คํธ ์ฃผ์ ์์
์์ ํฌ๋ผ์ฐ๋ ์์ปค(crowd workers)๋ฅผ ํ๊ท 25 percentage point ์ด๊ณผํ๋ ์ ํ๋๋ก ๋ฅ๊ฐํ๋ฉฐ, ํ๋ จ๋ ์ฃผ์์ ์์ค์ ์ฝ๋ ๊ฐ ํฉ์๋๋ฅผ ๋ฌ์ฑํ๋ฉด์๋ MTurk ๋๋น ์ฝ 30๋ฐฐ ์ ๋ ดํ ๋น์ฉ์ผ๋ก ์ํ ๊ฐ๋ฅํจ์ ์
์ฆํ๋ ์ฐ๊ตฌ์ด๋ค.
Evaluation
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ ChatGPT๊ฐ ํ
์คํธ ์ฃผ์ ์์
์์ ํฌ๋ผ์ฐ๋ ์์ฑ์ ์ค์ง์ ์ผ๋ก ๋์ฒด ๊ฐ๋ฅํจ์ ์ต์ด๋ก ์ฒด๊ณ์ ์ผ๋ก ์
์ฆํ ์ค์ํ ์ค์ฆ ์ฐ๊ตฌ๋ก, NLP ์ฐ๊ตฌ ์ปค๋ฎค๋ํฐ์ ์ค๋ฌด ๋ฐฉ์ ์ ํ์ ์ด๋ฐํ ์์ฌ์ ์ด ์์ผ๋, ๋ค์ธ์ด ์ฑ๋ฅ๊ณผ ์ฅ๊ธฐ์ ์ ๋ขฐ์ฑ์ ๋ํ ์ถ๊ฐ ๊ฒ์ฆ์ด ํ์ํ๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
Sentence split-and-rephrase ํ์คํฌ์ฉ ์์ฐ ๋ฐ์ดํฐ์
๊ตฌ์ถ์ ChatGPT์ ์ ํ๋ ๋ฐ ๋น์ฉ ํจ์จ์ฑ ํ๊ฐ์ ๋ฐ์ดํฐ์ ๊ธฐ์ด๋ฅผ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
206์ ์ธ๊ฐ๊ณผ ํฌ๋ผ์ฐ๋์์ปค๋ฅผ ๋์์ผ๋ก LLM๊ณผ์ ์์ฐ์ด์ฒ๋ฆฌ ํ์ง์ ๋น๊ตํ์ฌ, 511์ ์ฌ์ธต ๋ด์ค ํ
์คํธ ๋ถ์์์ LLM vs ์ธ๊ฐ์ฝ๋ ๋น๊ตํ๊ฐ์ ์ด๋ก ยท์คํ์ ๊ธฐ๋ฐ์ ์ ๊ณตํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
ChatGPT๊ฐ ํ
์คํธ ์ฃผ์ ํ์คํฌ์์ ์ง๋จ ๋
ธ๋์๋ฅผ ๋ฅ๊ฐํ๋ ์ฌ๋ก๋ฅผ ์ ์ํ๋ฉฐ, ๋ฐ์ดํฐ ๋ผ๋ฒจ๋ง ์๋ํ์ ๋ค์ํ ์ ๋ต์ ๋
ผ์ํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
206๋ฒ ๋
ผ๋ฌธ์ LLM ํ์ฉ ํ
์คํธ ์ด๋
ธํ
์ด์
ํ์ง์ ํ๊ฐํ๋ฉฐ, 748๋ฒ์ ์ค์ง๋ ๋ฐ์ดํฐ ๋ผ๋ฒจ๋ง ๋ฌธ์ ์ ๋ค๋ฅธ ๋ถ์ผ์ ๋ฐฉ๋ฒ๋ก ์ ๋์์ ์ ์ํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
ํ
์คํธ ๋ฐ์ดํฐ ์ฃผ์์์ ํฌ๋ผ์ฐ๋์์ฑ ๋์ LLM ์ฌ์ฉ์ด ๋ฐ์ดํฐ ํ์ง๊ณผ ํจ์จ์ฑ์ ๋ฏธ์น๋ ์ํฅ์ ์คํ์ ์ผ๋ก ๋ถ์ํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM ๊ธฐ๋ฐ ํ
์คํธ ๋ถ๋ฅ ๋ฐ ์ฃผ์ ์๋ํ๋ฅผ ์ํ ์ ์ฌํ ๋ฐฉ๋ฒ๋ก ์ ์ฌ์ฉํ๋ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
GPT ๋ชจ๋ธ์ ํ์ฉํ ํ
์คํธ ํ๊ฐ ๋ฐ ์ฃผ์ ์์
์ ์ฑ๋ฅ์ ๋ถ์ํ๋ ๊ด๋ จ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLMEval-Med๋ ์ค์ ์๋ฃ ๋๋ฉ์ธ์์ LLM ์ฃผ์์ ์ ์ฉ๊ณผ ํ๊ณ๋ฅผ ๋ค๋ฃจ๋ฉฐ, ChatGPT์ ๋ฒ์ฉ ํ
์คํธ ์ฃผ์ ๋ฅ๋ ฅ๊ณผ ๋น๊ตํด ์๋ฃ ํ์ฅ ๋๋ฉ์ธ ํน์ฑ์ ๋ถ์ํ๋ค.
ํ์ ์ฐ๊ตฌ
206๋ฒ ๋
ผ๋ฌธ์ ํฌ๋ผ์ฐ๋์์ฑ ํ
์คํธ ์ด๋
ธํ
์ด์
์ ChatGPT ๊ธฐ๋ฐ์ผ๋ก ์๋ํํ์ฌ, 905๋ฒ์ ์ฑ๋ฅ๋น๊ต ์ฐ๊ตฌ์ ์ง์ ์ฐ๊ด๋ฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
Annotation์ ์ ๋ขฐ๋์ LLM ํ์ฉ๋ ์์ธก ๋ฌธ์ ๋ฅผ ์ค์ฆ์ ์ผ๋ก ๋ถ์ํ์ฌ 206๋ฒ์ ์๋ ์ฃผ์ ์ฐ๊ตฌ์ ๊น์ด๋ฅผ ๋ํฉ๋๋ค.
์์ฉ ์ฌ๋ก
ChatGPT๋ฅผ ํ์ฉํ ํ
์คํธ ์ฃผ์ ์ ํ๋ ๋น๊ต ์ฐ๊ตฌ์ ๋ฐ์ดํฐ ๊ธฐ๋ฐ ์์
์ด WikiSplit์ ๊ฐ์ด ์ค์ ๋ฌธ์ฅ ์์ค ์์ฐ ๋ฐ์ดํฐ์
์ ์์กดํฉ๋๋ค.
์์ฉ ์ฌ๋ก
ํ์ต์ ๋ฐ ๊ต์ค ํ๊ฒฝ์์ ChatGPT ๋ฑ LLM์ด ์ค์ ๋ก ์ด๋ป๊ฒ ์ฃผ์ ๋ฐ ํ๊ฐ์ ์ฐ์ผ ์ ์๋์ง ์ค์ ์ฌ๋ก๋ฅผ ์ ์ํ๋ค.
์์ฉ ์ฌ๋ก
Robust claim verification through fact detection ๋
ผ๋ฌธ์ LLM์ ์ฃผ์(ํฉํธ ํ์ง) ๋ฅ๋ ฅ์ด ์ค์ ๊ฒ์ฆ ์
๋ฌด์ ์ด๋ ์ ๋ ๋์์ด ๋๋์ง ์ฌ๋ก ์ค์ฌ์ผ๋ก ํ๊ฐํ๋ค.
์์ฉ ์ฌ๋ก
ChatGPT outperforms crowd workers for text-annotation tasks ๋
ผ๋ฌธ์ LLM์ด ์ค์ ๋ฐ์ดํฐ ๋ผ๋ฒจ๋ง์ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์ด๋ฏ๋ก, ๋ณธ ๋
ผ๋ฌธ์ ํฉ์ฑ ๋ฐ์ดํฐ์ ์ฆ๊ฐ ๋ฐ์ดํฐ์ ํ์ง ๊ฐ์ ํจ๊ณผ๋ฅผ ์ค์ ํ์ฅ์์ ์ ์ฉํ ์ ์๋ค๋ ์ ์์ ์ฐ๊ฒฐ๋ฉ๋๋ค.