Essence
Figure 1: We introduce a focus-level evaluation frame-
LLM์ด ์์ฑํ ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๊ฐ ์ธ๊ฐ ์ ๋ฌธ๊ฐ ๋ฆฌ๋ทฐ์ด์ ๋์ผํ ์ค์ ์ธก๋ฉด์ ์ง์คํ๋์ง ํ๊ฐํ๊ธฐ ์ํด focus-level ํ๊ฐ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๊ณ , LLM๋ค์ด ๊ธฐ์ ์ ํ๋น์ฑ์๋ ๊ณผ๋ํ๊ฒ ์ง์คํ๋ฉด์ ์๋ก์(novelty) ํ๊ฐ๋ฅผ ๊ฐ๊ณผํ๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ๋ค.
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ์ด ๋
ผ๋ฌธ์ LLM ๋ฆฌ๋ทฐ ํ๊ฐ์ ์๋ก์ด focus-level ๊ด์ ์ ๋์
ํ์ฌ ๊ธฐ์กด ํ๊ฐ์ ๋งน์ ์ ๋ณด์ํ๊ณ , ์๋ํ๋ ํ๋ ์์ํฌ๋ฅผ ํตํด ๋๊ท๋ชจ ๋ถ์์ ๊ฐ๋ฅํ๊ฒ ํ๋ค. ํนํ LLM๋ค์ ์ผ๊ด๋ novelty ๊ฐ๊ณผ ํจํด ๋ฐ๊ฒฌ์ ํ์ ๋ฆฌ๋ทฐ ํ์ง ๋ฌธ์ ๋ฅผ ๊ตฌ์ฒด์ ์ผ๋ก ๋๋ฌ๋ด๋ฉฐ, ๊ณต๊ฐ ๋ฐ์ดํฐ์
์ ํ์ ์ฐ๊ตฌ์ ์ค์ํ ๊ธฐ์ฌ๋ฅผ ํ ๊ฒ์ผ๋ก ๊ธฐ๋๋๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
ํผ์ด ๋ฆฌ๋ทฐ ์๊ฒฌ ์ข
ํฉ ๋ฐ ๋ฉํ๋ฆฌ๋ทฐ ์์ฑ์ ๋ฐฉ๋ฒ๋ก ์ ๊ธฐ๋ฐ์ ์ ๊ณตํ๋ ์ ํ ์ฐ๊ตฌ์ด๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
128๋ฒ ๋
ผ๋ฌธ์ LLM์ ๋ฆฌ๋ทฐ ์์ฑ ๋ฅ๋ ฅ ์๋ ํ๊ฐ ํ๋ ์์ํฌ๋ก, OpenReviewer ์์คํ
ํ๊ฐ ๋ฐ ๊ฐ๋ฐ์ ๊ด๋ จ ์ด๋ก ์ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
537์ LLM ๋ฆฌ๋ทฐ์ ์ด์ -์์ค(focus-level) ํ๊ฐ์ ๋ธ๋ผ์ธ๋ ์คํ ๋ฌธ์ ์ ๊ดํ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ฉฐ, 128์ ๋ฆฌ๋ทฐ ํธํฅ ๋ถ์์ ์ด๋ก ์ ํ ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
์ค์ ํ๊ฐ ์ธก๋ฉด(Aspect-focused Review Analysis)์ ๋ฒค์น๋งํฌ ํ๋ ์์ํฌ ๋ฐ ํ๊ฐ ๊ธฐ์ค์ ๊ธฐ๋ฐ์ผ๋ก ํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋
ผ๋ฌธ ๋ฆฌ๋ทฐ ์๋ํ ๋ฐ ํ๊ฐ์ ๊ดํ ์ ์ฌํ ์ฐ๊ตฌ๋ก ์ํธ ๋ณด์์ ๊ด์ ์ ์ ๊ณตํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
AI์ ๋
ผ๋ฌธ ์ฌ์ฌ ํ๊ฐ๋ฅ๋ ฅ ์ธก์ ์ ๋ค๋ฅธ ํ๊ฐ ๊ธฐ์ค ๋ฐ ๋ฐ์ดํฐ์
์์ ๊ตฌํํ ์ฌ๋ก๋ก ๋ณผ ์ ์๋ค.
๋ค๋ฅธ ์ ๊ทผ
128์ LLM์ ๋ฆฌ๋ทฐ ํ๊ฐ ๋ฅ๋ ฅ์ ์๋ ํ๊ฐํ๋ ๋ฐฉ๋ฒ์ ์ ์ํ์ฌ, Peer review ๋ณด์กฐ ์ญํ ๋ก์ 678๊ณผ ๋น๊ตํ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM ๊ธฐ๋ฐ ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ ์๋ํ์ ํ์ง ํ๊ฐ๋ฅผ ๋ค๋ฅธ ๋ฐฉ์์ผ๋ก ์ ๊ทผํ๋ ๊ด๋ จ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM์ด ์ค์ ๋ก ๋ฆฌ๋ทฐ์ด ์ญํ ์ ์ ์ํํ ์ ์๋์ง ์๋ํ ํ๊ฐ ๋ฐฉ๋ฒ ๋ฐ ์คํ์ ํ๊ณ๋ฅผ ํจ๊ป ์ ์ํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
AI ๊ธฐ๋ฐ ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ ์์คํ
์ ํธํฅ ๋๋ ํ์ง์ ํ๊ฐํ๋ ์ ์ฌํ ๋ชฉํ์ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM ๊ธฐ๋ฐ ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ ํ๊ฐ ์๋ํ ์ฌ๋ก๋ก, AI ์์ฑ ํ
์คํธ ํ๊ฐยทํ์ง ๊ธฐ์ ์ ํ๋ฌธ์ ํ๊ฐ ๋ฐฉํฅ์ ๋ณด์ฌ์ค๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM์ด ์์ฑํ ๋ฆฌ๋ทฐ์ ์ง์ ํ๊ฐํ๋ ์ ์ฌํ ๋ฌธ์ ๋ฅผ ๋ค๋ฅธ ๊ด์ ์์ ๋ค๋ฃฌ๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM์ ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ ๋ฅ๋ ฅ ํ๊ฐ์ ๊ดํ ์ ์ฌํ ์ ๊ทผ ๋ฐฉ์์ ์ ์ํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
ReviewEval๋ LLM ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ ํ๊ฐ ๋ฅ๋ ฅ์ ์ ๋์ ์ผ๋ก ์ธก์ ํ์ฌ ๋ณธ ๋
ผ๋ฌธ๊ณผ ๋ณด์์ ๋น๊ต๊ฐ ๊ฐ๋ฅํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
Automatically evaluating the paper reviewing capability of llms๋ LLM ๋ฆฌ๋ทฐ ๋ฅ๋ ฅ ํ๊ฐ์์ ๋ค๋ฅธ ํ๊ฐ ์งํ์ ํ๋ ์์ํฌ๋ฅผ ์ ์ํด, ์ธก๋ฉด๋ณ ํ๊ฐ ๋ฐฉ๋ฒ๋ก ์ ๋น๊ตํ ์ ์๋ค.
๋ค๋ฅธ ์ ๊ทผ
128๋ฒ ๋
ผ๋ฌธ์ LLM ๊ธฐ๋ฐ ์๋ ๋ฆฌ๋ทฐ ํ๊ฐ์ ๋ค์ํ ์งํ ๋ฐ ๋ฐฉ๋ฒ๋ก ์ ๋น๊ต ๋ถ์ํ์ฌ, 481๋ฒ์ '๊ฒ์ผ๋ฅธ ๋ฆฌ๋ทฐ' ํ์ง์ ์ํธ ๋ณด์์ ์
๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
128๋ฒ ๋
ผ๋ฌธ์ LLM์ ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ ์์ฑ ๋ฅ๋ ฅ ํ๊ฐ๋ผ๋ ๋น์ทํ ๋ฌธ์ ๋ฅผ ๋ค๋ฃจ์ง๋ง, ํ๊ฐ ์งํ ๋ฐ ์คํ ๊ตฌ์ฑ์ ์ฐจ๋ณ์ ์ด ์๋ค.
๋ค๋ฅธ ์ ๊ทผ
128์ LLM์ ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ ๋ฅ๋ ฅ์ ์๋์ ์ผ๋ก ํ๊ฐํ๋ ๋ฐฉ๋ฒ์ ์ ์ํ๋ฏ๋ก, AI ๊ธฐ๋ฐ ๋๋ฃํ๊ฐ ์๋ํ(809)์ ํจ๊ณผ์ ํ๊ณ๋ฅผ ๋น๊ตํ๋ฉฐ ์ฝ๊ธฐ์ ์ ํฉํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
LLM์ ํ์ฉํ ๋
ผ๋ฌธ ๊ด๋ จ์ฐ๊ตฌ(related work) ์๋ํ๊ฐ์ ์์ฝ ์ฑ๋ฅ ๋น๊ต๋ฅผ ํตํด, ๊ณ ์ joint attention๊ณผ ์ต์ ์ ๊ทผ๋ฒ์ ์งํ๋ฅผ ๋ณด์ฌ์ค๋๋ค.
ํ์ ์ฐ๊ตฌ
128์ 126์์ ์ ์ํ LLM ๋ฆฌ๋ทฐ ์์ฑ์ focus-level ํ๊ฐ ๋ฐ ์ธ๊ฐ ์ ๋ฌธ์ฑ ๋น๊ต๋ฅผ ๋ ๊ตฌ์ฒด์ ์ผ๋ก ๋ถ์ํ์ฌ, ์ฑ๋ฅ์ ํ๊ณ์ ๊ฐ์ ์ ์ ๋์ถํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
Automatically evaluating the paper reviewing capability of llms ๋
ผ๋ฌธ์ LLM ์ธ์ด๊ธฐ๋ฐ ์ญ๋ฒ์ญ์ ํฌํจํ ๋ค์ํ AI ์์ฐ์ธ์ด ์ฒ๋ฆฌ ์ฑ๋ฅ ๋น๊ต๋ฅผ ๋ค๋ฃจ์ด 690์ ์คํ์ ํต์ฐฐ์ ํ์ฅํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
128๋ฒ ๋
ผ๋ฌธ์ LLM ๊ธฐ๋ฐ ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ ์๋ ํ๊ฐ ๋๊ตฌ๋ฅผ ์ ์ํด, 904๋ฒ ๋
ผ๋ฌธ์ AI ๊ฒ์์์ง์ด ์ฐ๊ตฌ ๊ฒ์ฆยทํ๊ฐ๊น์ง ํ์ฅ๋ ๋์ ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์ค๋ค.
ํ์ ์ฐ๊ตฌ
LLM ๊ธฐ๋ฐ ๋ฆฌ๋ทฐ ๋ถ์์ ํ๊ฐ ํ๋ ์์ํฌ๋ฅผ ๋์ฑ ํ์ฅํ์ฌ ๋ค์ํ ์ฐ๊ตฌ ์์ด์ ํธ๋ฅผ ์ข
ํฉ์ ์ผ๋ก ๋ฒค์น๋งํนํฉ๋๋ค.
๋ฐ๋ก /๋นํ
183์ LLM์ ๊ณผํ ๋
ผ๋ฌธ ์ค์ ๋ณด ๊ฐ์ง ์ญํ ์ ํ๊ฐํ๋ฉฐ, LLM์ ๋ฆฌ๋ทฐ ํ๊ณ์ ์ญํ ์ ๋
ผ์ํ๋ 128๊ณผ ๋นํ์ ๊ด์ ์์ ์ฐ๊ฒฐํ ์ ์๋ค.
๋ฐ๋ก /๋นํ
LLM ๋ฆฌ๋ทฐ ์์ฑ ๋ฅ๋ ฅ์ ํ๊ณ๋ฅผ ์๋ ํ๊ฐ ๊ด์ ์์ ๋ถ์ํ์ฌ Pre์ peer review ๊ธฐ๋ฐ ํ๊ฐ ๋ฐฉ์์ ํ๊ณ์ ๋ณด์์ ์ ์ ์ํฉ๋๋ค.