Essence
๋ณธ ๋
ผ๋ฌธ์ ๋๋ฃํ๊ฐ(peer review) ๊ณผ์ ์ ๋๊ท๋ชจ์ธ์ด๋ชจ๋ธ(LLM)์ด ๋ถ์ ์ ์ผ๋ก ์ฌ์ฉ๋๋ ๊ฒ์ ํ์งํ๊ธฐ ์ํด ๊ฐ์ ํ๋กฌํํธ ์ฃผ์
(indirect prompt injection) ๊ธฐ๋ฒ์ ํตํด ์ํฐ๋งํฌ๋ฅผ ์ฝ์
ํ๊ณ , ํต๊ณ์ ์ผ๋ก ์๋ฐํ ๊ฒ์ฆ ๋ฐฉ๋ฒ์ผ๋ก LLM ์์ฑ ๋ฆฌ๋ทฐ๋ฅผ ๊ฒ์ถํ๋ ์์คํ
์ ์ ์ํ๋ค.
Evaluation
์ดํ: ๋๋ฃํ๊ฐ ๋ฌด๊ฒฐ์ฑ์ด๋ผ๋ ์ค์ํ ํ์์ ๋ํด ํต๊ณ์ ์ผ๋ก ํ์ํ๋ ์ํฐ๋งํน ๊ฒ์ฆ ๋ฐฉ๋ฒ์ ์ต์ด๋ก ์ ์ํ๋ฉฐ, ๋๊ท๋ชจ ๋ฆฌ๋ทฐ ํ๊ฐ ์ ๋ค์ค๊ฒ์ ๋ฌธ์ ๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ํด๊ฒฐํ ๊ธฐ์ฌ๋ ๋์ ๋
ผ๋ฌธ์ด๋ค. ๋ค๋ง ์ค์ ์กฐ์ง ๋ฐฐํฌ ์ ์ค๋ฆฌ์ ยท๊ธฐ์ ์ ๊ณ ๋ ค์ฌํญ ๋ฐ LLM ์งํ์ ๋ฐ๋ฅธ ์ง์ ๊ฐ๋ฅ์ฑ์ ๋ํ ์ฌํ ๋
ผ์๊ฐ ํ์ํ๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
Pre: A peer review based large language model evaluator ๋
ผ๋ฌธ์ LLM ๊ธฐ๋ฐ ๋ฆฌ๋ทฐ ํ๊ฐ์ ๋ฐฉ๋ฒ์ ๊ธฐ๋ฐ์ ์ ๊ณตํ์ฌ, LLM ์์ฑ ๋ฆฌ๋ทฐ ํ์ง ์์คํ
์ ์ด๋ก ์ ํ ๋๋ฅผ ์ด๋ฃน๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
677์ LLM ์ํฐ๋งํน์ด๋ ํ
์คํธ ํ์ง์ ์ด๋ก ์ ยท๋ฐฉ๋ฒ๋ก ์ ๊ธฐ๋ฐ์ ์ ๊ณตํ์ฌ ๋๋ฃํ๊ฐ ํ์ง ๋ฐฉ๋ฒ ์ค๊ณ์ ํ์ฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
270์ LLM์ด ์์ฑํ ๋ฆฌ๋ทฐ ํ์ง ๋ฐฉ์์ ์ ์ํ์ฌ, 860๊ณผ ๋ฌ๋ฆฌ AI ๋ฆฌ๋ทฐ ์๋ ํ๋ณ ์ ๊ทผ์ ๋ณด์ฌ์ค๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
846์ LLM์ด ์์ฑํ ํ
์คํธ๋ฅผ ํ์งํ๊ฑฐ๋ ๋๋ฃํ๊ฐ ๊ณผ์ ์ ๋ฌด๊ฒฐ์ฑ์ ๋ณดํธํ๋ ๋ค๋ฅธ ์ ๊ทผ๋ฒ์ ์ ์ํ์ฌ ๊ฐ์ ํ๋กฌํํธ ์ฃผ์
์ํฐ๋งํน๊ณผ ๋น๊ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
270์ LLM์ด ์์ฑํ ํผ์ด๋ฆฌ๋ทฐ ํ์ง๊ธฐ์ ์ด์ ์ ๋ง์ถ๋ฉฐ, 051์ ์
์ ๊ด๋ จ ํ์ง๊ธฐ์ ์ ์ฌ ๋ฐฉ์์ ๋๋ฉ์ธ ์์ฉ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
AI๊ฐ ์์ฑํ ๋ฆฌ๋ทฐ ํ
์คํธ์ ์๋ณ์ ๋ํ ์ค์ ์ ํ๊ฐ์ ํ๊ณ๋ฅผ ๋น๊ต ๋ถ์ํ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
3226์ AI ์์ฑ ์ฝํ
์ธ ํ์ง๋ ์ํฐ๋งํน์ ๋ค๋ฅธ ๋ฐฉ๋ฒ๋ก ์ ์ ์ํ์ฌ LLM ์์ฑ ๋๋ฃํ๊ฐ ํ์ง์ ๋์์ ์ผ๋ก ๋น๊ต๋๋ค.
ํ์ ์ฐ๊ตฌ
AI ๋ฆฌ๋ทฐ์ด์ ํ๊ฐ ๋ฒค์น๋งํฌ๋ฅผ ํตํด ๋ฆฌ๋ทฐ ์์ฑ ๋ฐ ๊ฒ์ถ ๋ฐฉ๋ฒ์ ๊ฐ๊ด์ ์ฑ๋ฅ์ ์ถ๊ฐ์ ์ผ๋ก ๊ฒ์ฆํ ์ ์์ต๋๋ค.
ํ์ ์ฐ๊ตฌ
Detecting LLM-written Peer Reviews ๋
ผ๋ฌธ์ LLM์ด ์์ฑํ ํ
์คํธ์ ์๋ณยท๊ฒ์ฆ ๊ด์ ์์ ํ์ ๋ฌธ์ ๋์ฑ
์ ๋
ผ์ํจ์ผ๋ก์จ, ์๋ ๋
ผ๋ฌธ ์์ฑ ํ์ ๋ถ์์ ์ค์ง์ ์ผ๋ก ํ์ฅํด ์ค๋ค.
ํ์ ์ฐ๊ตฌ
Detecting LLM-written Peer Reviews ๋
ผ๋ฌธ์ ์ฌ์ฌ ๊ณผ์ ์์ AI ํ์ฉ ๊ฒ์ถ์ ์ด์ ์ ๋ง์ถ์ด, ์ธ๊ฐ ํ์ง์์์ ์ ํ๋ ๋น๊ต์ ๋
ผ์ ํ์ฅ์ด ๊ฐ๋ฅํ๋ค.
ํ์ ์ฐ๊ตฌ
270์ LLM ๊ธฐ๋ฐ ๋ฆฌ๋ทฐ ํ๊ฐ๊ฐ ์ค์ ๋ก ์ธ๊ฐ ๋ฆฌ๋ทฐ์ ๊ตฌ๋ถ ๊ฐ๋ฅํ์ง ์ค์ฆ์ ์ผ๋ก ๋ถ์ํ์ฌ, ๋๋ฃํ๊ฐ ์ ๋ขฐ์ฑ ๋
ผ์์ ํ์ค์ ์์ ์ ๋ณดํญ๋๋ค.
์์ฉ ์ฌ๋ก
270์ LLM ๊ธฐ๋ฐ ํผ์ด๋ฆฌ๋ทฐ ์๋ ์์ฑ ํ์ง์ ํ๊ฐ ์ฌ๋ก๋ก, 126์ ์๋ ๋ฆฌ๋ทฐ ์์ฑ ์ฒด๊ณ๋ฅผ ์ค์ ๋ฆฌ๋ทฐ ํ๋ก์ธ์ค์ ์ฐ๊ฒฐํด์ค๋๋ค.