Essence
Figure 1: Mean Helpfulness Ratings of GPT and Human Reviews. The bar chart illustrates the mean
GPT-4๊ฐ ํผ์ด๋ฆฌ๋ทฐ(peer-review) ๋ณด์กฐ ๋๊ตฌ๋ก์ ์ธ๊ฐ ๋ฆฌ๋ทฐ์ด์ ์ ์ฌํ ์์ค์ ๋์์ ์ ๊ณตํ ์ ์๋์ง๋ฅผ ํ์ผ๋ฟ ์ฐ๊ตฌ๋ฅผ ํตํด ์กฐ์ฌํ ๋
ผ๋ฌธ์ด๋ค.
Evaluation
Novelty: 3/5 Technical Soundness: 3/5 Significance: 3/5 Clarity: 4/5 Overall: 3/5
์ดํ: ์ด ํ์ผ๋ฟ ์ฐ๊ตฌ๋ ํ์ ํผ์ด๋ฆฌ๋ทฐ์ AI๋ฅผ ํ์ฉํ ์ ์๋ ๊ฐ๋ฅ์ฑ์ ์ต์ด๋ก ์ค์ฆ์ ์ผ๋ก ํ์ํ๋ค๋ ์ ์์ ์์๊ฐ ์์ผ๋, ๊ทน๋๋ก ์ ํ๋ ์ํ ํฌ๊ธฐ(n=9)์ ์ค๊ณ์์ ์ฌ๋ฌ ํธํฅ์ผ๋ก ์ธํด ๊ฐํ ๊ฒฐ๋ก ์ ๋์ถํ๊ธฐ ์ด๋ ต๋ค. GPT์ ๋์ ๋ถ์ฐ์ฑ๊ณผ ๋ฌธ์ฅ ์์ค ์ค๋ฅ ๊ฐ์ง ๋ถ์กฑ์ ํ์ฌ ์ํ์์๋ ๋
๋ฆฝ์ ์ธ ๋ฆฌ๋ทฐ ๋๊ตฌ๋ณด๋ค๋ ์ธ๊ฐ ๋ฆฌ๋ทฐ์ ๋ณด์กฐ ์๋จ์ผ๋ก๋ง ํ์ฉ ๊ฐ๋ฅํจ์ ์์ฌํ๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
1087์ GPT-4๊ฐ ํผ์ด๋ฆฌ๋ทฐ ๊ณผ์ ์์ ์ค์ ๋ก ์ผ๋ง๋ ๋์์ด ๋๋์ง ์ ๋์ ์ผ๋ก ๊ฒํ ํด 776์์ AI ์ง์ ๋ฆฌ๋ทฐ ์ฃผ์ ์์คํ
์ ๊ทผ๊ฑฐ์๋ฃ๊ฐ ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
862๋ฒ์ AI ๊ธฐ๋ฐ ์ฒด๊ณ์ ๋ฌธํ๊ณ ์ฐฐ ๋๊ตฌ ํ๊ฐ ์คํ์1087๋ฒ์ ์ ์๋ GPT-4์ ํผ์ด๋ฆฌ๋ทฐ ๋ณด์กฐํ์ผ๋ฟ ์ฐ๊ตฌ์ ์ํ์ ๊ทผ๊ฑฐ๋ฅผ ์ ๊ณตํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
678 ๋
ผ๋ฌธ์ LLM์ด ๋ฆฌ๋ทฐ์ด ์ญํ ์ ๋์ฒดํ ์ ์๋์ง ํ๊ตฌํ๋ฉฐ, 1087 ๋
ผ๋ฌธ๊ณผ ๊ฐ์ด AI์ ํผ์ด๋ฆฌ๋ทฐ ์ง์ ์คํ ์ฐ๊ตฌ๋ฅผ ์ ๊ณตํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
184๋ LLM์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ์ ์ผ๋ง๋ ์ ์ฉํ ํผ๋๋ฐฑ์ ์ ๊ณตํ๋์ง์ ๋ํ ๋๋ค๋ฅธ ํ๊ฐ ๋
ผ๋ฌธ์ผ๋ก, 1087๊ณผ ์ํธ๋ณด์์ ์ผ๋ก ์ฝ์ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
AI/LLM์ ํผ์ด๋ฆฌ๋ทฐ ๋ณด์กฐ ๋๊ตฌ๋ก ํ์ฉํ๋ ๋ค๋ฅธ ์ ๊ทผ๋ฒ์ ์ ์ํ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
AI ๊ธฐ๋ฐ ํผ์ด๋ฆฌ๋ทฐ ํ์ง ํ๊ฐ๋ฅผ ๋ค๋ฅธ ๋ฐฉ๋ฒ๋ก ์ผ๋ก ์ํํ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
AI ๋ฆฌ๋ทฐ์ด๊ฐ ์๋ฒ ์ด ๋
ผ๋ฌธ ํ๊ฐ์ ์ ์ฉ๋ ๋์ ์ฑ๋ฅ์ ๋ค๋ฃจ๋ฉฐ, LLM์ ์ค์ ํ์ฉ ํจ๊ณผ์ ํ๊ณ๋ฅผ ๋น๊ตํด๋ณผ ์ ์๋ค.
๋ค๋ฅธ ์ ๊ทผ
904๋ฒ์ LLM ๊ธฐ๋ฐ ๊ฒ์์์ง๊ณผ 1087๋ฒ์ GPT-4 ํผ์ด๋ฆฌ๋ทฐ ๋ณด์กฐ์คํ์ AI๊ฐ ํ์ ์
๋ฌด๋ฅผ ๋ณด์กฐํ๋ ๋ฐฉ์์ ๋ค์์ฑ์ ๋ณด์ฌ์ค๋ค.
๋ค๋ฅธ ์ ๊ทผ
1087๋ฒ ๋
ผ๋ฌธ์ LLM ๊ธฐ๋ฐ ํผ์ด๋ฆฌ๋ทฐ ์ด์์คํดํธ์ ์ค์ ํจ๊ณผ๋ฅผ ํ๊ฐํด, 861๋ฒ์ LLM ํ์ฉ ํํฉ ์ค๋ฌธ๊ณผ ์ค์ง์ ์ฑ๊ณผ๋ฅผ ๋น๊ต ๊ฐ๋ฅํ๊ฒ ํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
GPT ๊ธฐ๋ฐ ํผ์ด๋ฆฌ๋ทฐ ์ง์ ์์คํ
์ ๋ค๋ฅธ ๋ฐฉ๋ฒ๋ก ์ผ๋ก ๊ตฌํํ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM์ ํ์ฉํ ํ์ ๋
ผ๋ฌธ ํ๊ฐ ๋ฐ ๋ฆฌ๋ทฐ ์ง์์ ๋ค๋ฅธ ๋ฐฉ์์ผ๋ก ์ ๊ทผํ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM์ ์ ๋ฌธ ์ง์ ๋ฐ ์ถ๋ก ๋ฅ๋ ฅ์ ๋ค๋ฅธ ๋ฐฉ์์ผ๋ก ๋ฒค์น๋งํนํ๋ ์ฐ๊ตฌ์ด๋ค.
ํ์ ์ฐ๊ตฌ
1087 ๋
ผ๋ฌธ์ GPT-4๋ฅผ ํ์ฉํ ๋
ผ๋ฌธ ์ฌ์ฌ ์ง์์ ์ค์ง์ ๊ฐ์น๋ฅผ ํ๊ฐํจ์ผ๋ก์จ 678์ ํ๊ณ ๋
ผ์ ํ์ ์ฐ๊ตฌ๋ก ์ฝํ ์ ์์ต๋๋ค.
ํ์ ์ฐ๊ตฌ
1087์์ GPT-4์ ํผ์ด๋ฆฌ๋ทฐ ๋ณด์กฐ ํจ๊ณผ๋ฅผ ๊ฒฝํ์ ์ผ๋ก ํ๊ฐํ ๊ฒฐ๊ณผ๋ 609์ LLM ๊ธฐ๋ฐ ๋
ผ์ฆ์ ๋ฆฌ๋ทฐ ํ๋ ์์ํฌ ํจ๊ณผ์ฑ ๊ฒ์ฆ๊ณผ ์ง์ ์ฐ๊ณ๋ฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
Peer review์ ๋ค์ํ ๋จ๊ณ์์ LLM์ด ์ด๋ป๊ฒ ์ค์ง์ ๋์์ ์ฃผ๋์ง ์ ๋์ ๋ถ์ํ๋ ๋
ผ๋ฌธ์ผ๋ก, ๋ณธ ํ์ผ๋ฟ ์ฐ๊ตฌ๋ฅผ ๋ ํ์ฅํ๋ ๊ฒฐ๊ณผ๋ฅผ ์ป์ ์ ์๋ค.
ํ์ ์ฐ๊ตฌ
GPT-4์ ํผ์ด๋ฆฌ๋ทฐ ๋ณด์กฐ ๋ฅ๋ ฅ์ ํน์ ํ์ ๋งฅ๋ฝ์ ํ์ฅ ์ ์ฉํ ์ฐ๊ตฌ์ด๋ค.
๋ฐ๋ก /๋นํ
๋
ผ๋ฌธ ๋ฆฌ๋ทฐ์์ ์ค์ LLM ํ์ฉ์ ๋ฌธ์ ์ ํ๊ณ, ์คํ์ง ์ด์๋ฅผ ์ ์ํ์ฌ LLM์ '๋์'์ด๋ผ๋ ๊ธ์ ์ ๊ด์ ์ ๊ท ํ์ ๋ง์ถฐ์ค๋ค.