์ ์: Madhav Krishan Garg, Tejash Prasad, Tanmay Singhal, Chhavi Kirtani, Murari Mandal, Dhruv Kumar (IIIT Delhi, KIIT Bhubaneswar, BITS Pilani) | ๋ ์ง: 2025 | DOI: N/A 📄 PDF
Essence
ReviewEval๊ณผ ReviewAgent: ๋
ผ๋ฌธ๊ณผ ํํ/์ ๋ ๊ฐ์ด๋๋ผ์ธ์ด ์ฃผ์ด์ก์ ๋, ReviewAgent๊ฐ AI ๊ธฐ๋ฐ ๋ฆฌ๋ทฐ๋ฅผ ์์ฑํ๊ณ ReviewEval์ ํตํด ๋ค์ํ ์ฐจ์์์ ํ๊ฐ
ํ์ ๋
ผ๋ฌธ ๋๋ฃ ํ๊ฐ(peer review) ๋ถ์กฑ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด LLM ๊ธฐ๋ฐ ๋ฆฌ๋ทฐ ์์คํ
์ ์ ๋ขฐ์ฑ์ ํ๊ฐํ๋ ์ข
ํฉ ํ๋ ์์ํฌ ReviewEval๊ณผ ์์ฒด ๊ฐ์ ๋ฃจํ๋ฅผ ๊ฐ์ถ AI ๋ฆฌ๋ทฐ์ด ReviewAgent๋ฅผ ์ ์ํ๋ค.
Evaluation
์ดํ: ์ด ๋
ผ๋ฌธ์ AI ์์ฑ ํ์ ๋ฆฌ๋ทฐ์ ํ์ง์ ๋ค๊ฐ์ ์ผ๋ก ํ๊ฐํ๋ ํฌ๊ด์ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ์ฌ ์ด ๋ถ์ผ์ ์ค์ํ ๊ณต๋ฐฑ์ ๋ฉ์ฐ๊ณ ์๋ค. ํนํ ์ฌ์ค์ฑ, ๋ถ์ ๊น์ด, ์คํ ๊ฐ๋ฅ์ฑ๊ณผ ๊ฐ์ ์๋ก์ด ํ๊ฐ ์ฐจ์๊ณผ ์๋ํ๋ ์ฌ์ค ๊ฒ์ฆ ํ์ดํ๋ผ์ธ์ด ๊ฐ์น์๋ ๊ธฐ์ฌ์ด๋, ์ ํ๋ ๋ฐ์ดํฐ์
๊ท๋ชจ์ ์ค์ ํํ ์ ์ฉ ๊ฒ์ฆ์ ํตํด ์ค๋ฌด์ ์ํฅ๋ ฅ์ ๋์ฑ ๊ฐํํ ํ์๊ฐ ์๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
ORb ๋ฐ์ดํฐ์
์ AI ์์ฑ ๋ฆฌ๋ทฐ์ ์๋ํ ํ๊ฐ ํ๋กํ ์ฝ ๋ฐ ๋ ์ด๋ธ๋ง ์ค๊ณ๋ฅผ ์ํ ๊ธฐ์ด๊ฐ ๋๋ ์ค์ ๋ฒค์น๋งํฌ ๋ฐ์ดํฐ์
๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
ReviewEval ๋
ผ๋ฌธ์ AI ๊ธฐ๋ฐ ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ ์์ฑ ๋ฐ ํ๊ฐ ํ๋ ์์ํฌ๋ฅผ ์ ์ํด ContraSciView ๋ฐ์ดํฐ์
๋ฐ peer review ๋ชจ์ ํ์ง์ ํ๊ฐ ์ง์นจ์ผ๋ก ์ฝ์ ์ ์๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
AI ์์ฑ ๋ฆฌ๋ทฐ, ๋ช
ํํ ์ง๋ฌธ ๋ฐ ํ๊ฐ ํ๋ ์์ํฌ ๊ฐ๋ฐ์ ์ด๋ก ์ ๊ทผ๊ฑฐ๋ฅผ ์ ๊ณตํ๋ ๋
ผ๋ฌธ์
๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
LLM ๊ธฐ๋ฐ ๋๋ฃํ๊ฐ์ ์ ์ ๊ณผ ๋ค์ค ํ๊ฐ ๋ชจ๋ธ ๋
ผ์๊ฐ ์ ๋ขฐ์ฑ ํ๊ฐ ํ๋ ์์ํฌ์ ์ด๋ก ์ ๊ทผ๊ฑฐ๋ก ํ์ฉ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
LLM ๊ธฐ๋ฐ ํ์ ํ๊ฐ ์์คํ
์ ๊ธฐ์ ์ ๊ธฐ๋ฐ์ ์ ๊ณตํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
679 ๋
ผ๋ฌธ์ AI ๊ธฐ๋ฐ ๋ฆฌ๋ทฐ ์์ฑ ํ๊ฐ์ฒด๊ณ๋ฅผ ์ค๊ณํ์ฌ, 262์์ ์ ์ํ ๋จ๊ณ๋ณ LLM ๋
ผ๋ฌธ ์ฌ์ฌ ํ๋ ์์ํฌ์ ํจ๊ณผ ๊ฒ์ฆ์ ์ฐธ๊ณ ๊ฐ ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Standard terminology for peer review ๋
ผ๋ฌธ์ ํผ์ด๋ฆฌ๋ทฐ ํ๊ฐ์ ํ์คํ์ ์ฒด๊ณ์ ๋ถ์์ ์ด๋ก ์ ๋ฐฐ๊ฒฝ์ ์ ๊ณตํ์ฌ AI ๊ธฐ๋ฐ ๋ฆฌ๋ทฐ ์์คํ
๋น๊ตํ๊ฐ์ ๋ฐํ์ด ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Leiden Manifesto์ ์ฑ
์ ์๋ ๋ฌธํ๊ณ๋ํ ์์น์ ์ ๊ณตํ๋ ๊ธฐ๋ฐ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
GPT ๊ธฐ๋ฐ ํผ์ด๋ฆฌ๋ทฐ ์ง์ ์์คํ
์ ๋ค๋ฅธ ๋ฐฉ๋ฒ๋ก ์ผ๋ก ๊ตฌํํ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
AI๊ฐ ์์ฑํ ๋ฆฌ๋ทฐ๊ฐ ์ค์ ํ๊ฐ์ ์ผ๋ง๋ ์ ํฉํ์ง, ๋ค์ํ ํ๊ฐ ํ๋ ์์ํฌ๋ฅผ ํตํด ๊ฒ์ฆํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
ReviewEval ๋
ผ๋ฌธ์ AI ๊ธฐ๋ฐ ์ฌ์ฌ ํ๊ฐ์ ๊ณต์ ์ฑ๊ณผ ์ ๋ขฐ์ฑ ํ๋ณด๋ผ๋ ๊ด์ ์์ text-matching ์ทจ์ฝ์ ๊ทน๋ณต์ ์ํ ๋ ๋ค๋ฅธ ํ๊ฐ๋ฐฉ๋ฒ์ ์ฐ๊ตฌํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
ReviewEval(679)์ AI ์์ฑ ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ ํ์ง ํ๊ฐ ํ๋ ์์ํฌ๋ฅผ ๋ค๋ฃจ์ด, 445์ ํ์ง ์ค์ฌ ํ๊ฐ์ ์ํธ๋ณด์์ ์ผ๋ก ๋น๊ตํ ์ ์๋ค.
๋ค๋ฅธ ์ ๊ทผ
AI ๋ฐ ์ธ๊ฐ ๊ฐ ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ ํ์ง ๋น๊ต์ AI ๋ฆฌ๋ทฐ์ด์ ์ ๋ขฐ์ฑ ํ๊ฐ ํ๋ ์์ํฌ๋ฅผ ๋ค๋ฃจ์ด ReviewEval๊ณผ ์ํธ๋ณด์์ ์.
๋ค๋ฅธ ์ ๊ทผ
LLM์ ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ ๋ฅ๋ ฅ์ ๋๊ท๋ชจ๋ก ์๋ ํ๊ฐํ๋ ๋ฐฉ๋ฒ๋ก ์ ์ ์ํ์ฌ, AI-์์ฑ ๋ฆฌ๋ทฐ ํ๊ฐ์ ๋ฐ์ดํฐ์ ์ค๊ณ์ ์ฐจ์ด๋ฅผ ๋น๊ตํจ.
๋ค๋ฅธ ์ ๊ทผ
๋ค์ค ์์ด์ ํธ ์์คํ
์ ํ์ฉํ ํ์ ๋ฆฌ๋ทฐ ๋ฐ ํ๊ฐ์ ํ์ง ํฅ์ ๋ฐฉ๋ฒ์ ํ๊ตฌํ๋ ๊ด๋ จ ๋
ผ๋ฌธ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
ReviewEval ๋
ผ๋ฌธ์ AI ์์ฑ ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ์ ํ๊ฐ ์ฒด๊ณ๋ฅผ ์ง์ค์ ์ผ๋ก ๋ถ์ํ๋ฉฐ, 654์์ ์์ฑ ๋ฐ์ดํฐ์
์ ํ์ฉ ๋ฐ ์ฑ๋ฅ ํ๊ฐ ๊ด์ ์์ ์ํธ ๋ณด์์ ์ธ ์ ๋ณด๋ฅผ ์ ๊ณตํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋ค์ค ์์ด์ ํธ ํ ๋ก ์์คํ
์์ ํ ๊ตฌ์ฑ๊ณผ ๋ฆฌ๋์ญ์ด ์์ด๋์ด ํ์ง์ ๋ฏธ์น๋ ์ํฅ์ ๋ค๋ฃฌ๋ค.
๋ค๋ฅธ ์ ๊ทผ
ReviewEval ๋
ผ๋ฌธ์ AI ๊ธฐ๋ฐ ๋ฆฌ๋ทฐ ํ์ง ํ๊ฐ์ ๋ํ ์ ๊ทผ๋ฒ๊ณผ ์งํ๋ฅผ ๋น๊ตํด LAZYREVIEW ๋ฐ์ดํฐ์
์ ์ ์ฉ ์์ญ์ ํ์ฅํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
ReviewEval ๋
ผ๋ฌธ์ AI ์์ฑ ๋ถ์๊ฐ ์์ฝํํ ํ๊ฐ์์ ์ด๋ค ํ์ ์ฑ๊ณผ ์ ํจ์ฑ์ ๊ฐ๋์ง ๋ฆฌ๋ทฐ ๊ธฐ๋ฐ์ผ๋ก ์ ๋ ํ๊ฐํ์ฌ, ์์ฑ๋ ๋ถ์์ ํ๊ฐ ๊ด์ ์ ๋ณด์ํ๋ค.
ํ์ ์ฐ๊ตฌ
ReviewEval ๋
ผ๋ฌธ์ AI๊ฐ ์์ฑํ ๋ฆฌ๋ทฐ์ ํ๊ฐ ํ๋ ์์ํฌ๋ฅผ ์ ๊ณตํ๋ฉฐ, ์ ๋นํ ์๋์์ฑ ์์คํ
๊ฒฐ๊ณผ์ ํ์ง ๊ฒ์ฆ์ ์ฐธ๊ณ ํ ๋งํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
AI ์์ฑ ๋ฆฌ๋ทฐ ๋ฐ LLM ํ๊ฐ์งํ์ ์ ๋ขฐ์ฑ ํ๊ฐ๋ฅผ ํ์ ์ฐ๊ตฌ๋ก, ๋ค์ํ ํ๊ฐ์งํ ๋ฐ ๊ฐ์ ๋ฃจํ ์ ์์ด ๋น์ทํ ๋ฌธ์ ๋ฅผ ๋ค๋ฃน๋๋ค.
ํ์ ์ฐ๊ตฌ
ReviewEval์ AI ์์ฑ ๋ฆฌ๋ทฐ์ ํ์ง ํ๊ฐ ํ๋ ์์ํฌ๋ก, ์์ฑ ๋ชจ๋ธ(์: OpenReviewer)์ด ์์ฑํ ์ฌ์ฌํ์ ์ค์ ํ์ฉ ๊ฐ๋ฅ์ฑ์ ์ ๋์ ์ผ๋ก ๋ถ์ํ๋ ๋ฐ ๋์์ ์ค๋๋ค.
ํ์ ์ฐ๊ตฌ
ReviewEval ๋
ผ๋ฌธ์ AI๋ก ์์ฑ๋ ๋ฆฌ๋ทฐ ํ๊ฐ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ์ฌ ๋๋ฃ ์ฌ์ฌ ์๋ํ์์ ๋ฆฌ๋ทฐ์ ์ง ์ธก์ ๊ณผ ํฅ์์ ์ง์ ์ ์ผ๋ก ์ฐ๊ฒฐ๋๋ค.
ํ์ ์ฐ๊ตฌ
AI ์์ฑ ๋ฆฌ๋ทฐ์ ํ์ง์ ๋ค์ํ ๊ด์ ์์ ํ๊ฐํ๋ ReviewEval ํ๋ ์์ํฌ๋ฅผ ํตํด ํ์ง ์ ๋ ฌ๊ณผ ํธํฅ ๊ฐ์ ๊ด๋ จ ๋
ผ์๋ฅผ ์ฌํํ ์ ์์ต๋๋ค.
ํ์ ์ฐ๊ตฌ
679๋ฒ์ AI ์์ฑ ๋ฆฌ๋ทฐ์ ํ๊ฐ ํ๋ ์์ํฌ๋ก, 677๋ฒ์ ๋ค์ํ ๋ฆฌ๋ทฐ ์์ฑ ๊ฒฐ๊ณผ๋ฅผ ๊ฐ๊ด์ ์ผ๋ก ๋น๊ตยทํ๊ฐํ ์ ์๋ ๊ธฐ์ค์ ์ ๊ณตํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
679(ReviewEval)์ AI ๊ธฐ๋ฐ ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ ํ๊ฐ ์์ ํ๋ ์์ ํ์ฅํด, 537์ ์ด์ ์์ค(ํฌ์ปค์ค ๋ ๋ฒจ) ํ๊ฐ ์ฒด๊ณ๋ฅผ ๋ค์ฐจ์์ ์ผ๋ก ๊ตฌ์ฒดํํ๋ค.
ํ์ ์ฐ๊ตฌ
679๋ AI ์์ฑ ๋ฆฌ๋ทฐ์ ํ๊ฐ ํ๋ ์์ํฌ๋ฅผ ๊ฐ๋ฐํ์ฌ, 127์ ์๋ ํ๊ฐ์งํ ์ ์๊ณผ ์๋์ง ํจ๊ณผ๋ฅผ ๋ผ ์ ์๋ค.
ํ์ ์ฐ๊ตฌ
AI ๊ธฐ๋ฐ ํผ์ด๋ฆฌ๋ทฐ ๊ฐ์ํ ์ค์ ์ ์ฉ ์ฌ๋ก๋ก, ReviewEval์์ ์ ์๋ ํ๊ฐ ๋ฐฉ๋ฒ๋ก ์ ์ค์ง์ ์ํฉํธ๋ฅผ ๊ฒํ ํ ์ ์์ต๋๋ค.
์์ฉ ์ฌ๋ก
Peerarg๋ผ๋ ์ค์ ๋
ผ์ฆ ๊ธฐ๋ฐ ํผ์ด๋ฆฌ๋ทฐ ์คํ์ด ReviewEval์ ํ๊ฐ ์ฒด๊ณ์ ๊ฒฐ๊ณผ ๋น๊ต๋ฅผ ์ ๊ณตํ ์ ์์ต๋๋ค.
์์ฉ ์ฌ๋ก
AI ๋ฆฌ๋ทฐ์ด ์์คํ
๋ฐ peer review ๋์ ํ๊ฐ ํ๋ ์์ํฌ๊ฐ ์ค์ MT ๋ฐ์ดํฐ์ ํฉ์ณ์ง ๊ฐ๋ฅ์ฑ์ด ํฝ๋๋ค.
์์ฉ ์ฌ๋ก
ReviewEval์ AI-์์ฑ ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ์ ํ๊ฐ ํ๋ ์์ํฌ๋ฅผ ์ ๊ณตํ๋ฏ๋ก, ReviewAgents์ ์ค์ ํ์ฉ ์ธก๋ฉด์ด ์ฐ๊ฒฐ๋๋ค.