Essence
Figure 4: Aggregation Methods for All Workers, Exclude-By-Worker, and Exclude-By-Batch. Among the various models and
GPT-4์ ์ต์ ํ๋ ํฌ๋ผ์ฐ๋์์ฑ ํ์ดํ๋ผ์ธ์ ๋ฐ์ดํฐ ๋ผ๋ฒจ๋ง ๋ฅ๋ ฅ์ ๋น๊ตํ ์ฐ๊ตฌ๋ก, GPT-4๊ฐ ๊ฐ๋ณ ์ฑ๋ฅ์์ ์ฐ์ํ์ง๋ง ๋ผ๋ฒจ ์ง๊ณ(Label Aggregation)๋ฅผ ํตํด ํฌ๋ผ์ฐ๋ ๋ผ๋ฒจ๊ณผ ๊ฒฐํฉํ๋ฉด ๋ ๋์ ์ ํ๋๋ฅผ ๋ฌ์ฑํ ์ ์์์ ๋ณด์ฌ์ค.
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ ๊ธฐ์กด GPT-4 vs ํฌ๋ผ์ฐ๋ ์์ปค ๋น๊ต ์ฐ๊ตฌ์ ๋ฐฉ๋ฒ๋ก ์ ๋ฌธ์ ์ ์ ์ถฉ์คํ ํด๊ฒฐํ๋ฉด์, ์ต์ ํ๋ ํฌ๋ผ์ฐ๋์์ฑ ํ์ดํ๋ผ์ธ์ ์ ํ์ฑ์ ๊ฒ์ฆํ๊ณ GPT-4์์ ํ์ด๋ธ๋ฆฌ๋ ์ ๊ทผ์ด ๋ ๋์ ์ฑ๋ฅ์ ์ ๊ณตํ ์ ์์์ ์
์ฆํ๋ค๋ ์ ์์ ๋์ ํ์ ์ ๊ฐ์น๋ฅผ ๊ฐ์ง. ํนํ LLM ์๋ ํฌ๋ผ์ฐ๋์์ฑ์ ์๋ก์ด ์ญํ ์ ์ ์ํ ์ค์ํ ์ฐ๊ตฌ์.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
Towards effective extraction and evaluation of factual claims ๋
ผ๋ฌธ์ ๋ฐ์ดํฐ ๋ผ๋ฒจ๋ง/์ถ์ถ ์๋ํ์ ์ ๋ขฐ์ฑยทํจ๊ณผ์ฑ ๊ธฐ์ค ๋ฐ ํ๋ ์์ํฌ๋ฅผ ์ ์ํด, 905์ LLM ๊ธฐ๋ฐ ๋ฐ์ดํฐ ๋ผ๋ฒจ ์ ํ๋ ๋
ผ์๋ฅผ ๋ท๋ฐ์นจํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
Wordcraft(886)์ ๋ฌ๋ฆฌ, 905๋ ๋ฐ์ดํฐ ์ด๋
ธํ
์ด์
์ ์ ํ๋์ ํจ์จ์ฑ ์ธก๋ฉด์์ ์ธ๊ฐ๊ณผ GPT-4 ํ์
์ ํ๊ตฌํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
339๋ ์๋ ์ํ ์ ๋ฆฌ ์ฆ๋ช
์ฉ ๋์ ์ ๋ฐ์ดํฐ์
์ ์ ๊ณตํ์ฌ, 905์ AIยทํฌ๋ผ์ฐ๋ ์์ฑ ๋ฐ์ดํฐ ํ์ง ๋
ผ์์ ์ ํ์ ๊ดํ ๋์กฐ์ ์ด ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
905๋ฒ ๋
ผ๋ฌธ์ AI ๋ฐ ํฌ๋ผ์ฐ๋์์ฑ ๊ธฐ๋ฐ ๋ฐ์ดํฐ ์ฃผ์ ํ์ดํ๋ผ์ธ์ ์ ํ์ฑ๊ณผ ์ ๋ขฐ๋ ๋ฌธ์ ๋ฅผ ๋ค๋ค, AI๊ธฐ๋ฐ ๋ฌธํ๊ฒ์์ ์ค์ ์ ์ฉ ํ๊ณ์ ํจ๊ป ์ฝ๊ธฐ ์ ํฉํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
206๋ฒ ๋
ผ๋ฌธ์ ํฌ๋ผ์ฐ๋์์ฑ ํ
์คํธ ์ด๋
ธํ
์ด์
์ ChatGPT ๊ธฐ๋ฐ์ผ๋ก ์๋ํํ์ฌ, 905๋ฒ์ ์ฑ๋ฅ๋น๊ต ์ฐ๊ตฌ์ ์ง์ ์ฐ๊ด๋ฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
317๋ฒ ๋
ผ๋ฌธ์ NLI ์ฑ๋ฅ์ ์ธ๋ถ ์ง์ ๊ทธ๋ํ๋ก ๋์ด๋ ๋ฐฉ๋ฒ์ ์ ์ํ์ฌ, LLM์ ๋ฐ์ดํฐ ๋ผ๋ฒจ๋ง ๋ฐ ํ๋ณ๋ ฅ ๊ฐ์ ์ ๋ค๋ฃฌ 905๋ฒ ๋
ผ๋ฌธ์ ํ์ ์ฐ๊ตฌ๋ก ์ฐ๊ฒฐ๋๋ค.
ํ์ ์ฐ๊ตฌ
๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ์ ์ ๋ขฐ์ฑ ํ๊ฐ๋ผ๋ ์ ์์, ๋ฐ์ดํฐ ๋ผ๋ฒจ๋ง ํ์ง๊ณผ LLM ์ ๋ขฐ์ฑ ๋ฌธ์ ๋ฅผ ์ฐ๊ด์ง์ด ๋ณผ ์ ์๋ค.
์์ฉ ์ฌ๋ก
๋ฐ์ดํฐ ๋ผ๋ฒจ๋ง ๊ณผ์ ์์์ LLM ์ ๋ขฐ์ฑ ํ๊ฐ ๋ฐ ํ์ค ์์ฉ์์ ๋์ ์ ์ LLM ํธ๋ฌ์คํธํ๋ ์๊ณผ ์ฐ๊ฒฐํด ๋น๊ตํ ์ ์๋ค.