์ ์: Hyungyu Shin, Jingyu Tang, Yoonjoo Lee, Nayoung Kim, Hyunseung Lim, Ji Yong Cho, Hwajung Hong, Moontae Lee, Ju-ho Kim | ๋ ์ง: 2025 | URL: https://arxiv.org/abs/2502.17086 📄 PDF
Essence
Figure 1: We introduce a focus-level evaluation frame-
LLM์ด ์์ฑํ ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๊ฐ ์ธ๊ฐ ์ ๋ฌธ๊ฐ์ ๋์ผํ ํต์ฌ ์ธก๋ฉด์ ์ฃผ๋ชฉํ๋์ง ํ๊ฐํ๊ธฐ ์ํด focus-level ํ๊ฐ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ฉฐ, ์๋ ์ฃผ์ ์ฒ๋ฆฌ๋ฅผ ํตํด LLM์ blind spot์ ์ฒด๊ณ์ ์ผ๋ก ๋ถ์ํ๋ค.
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: LLM ๋ฆฌ๋ทฐ ํ๊ฐ์ ์๋ก์ด ์ฐจ์์ ์ ์ํ ์์ฐฝ์ ์ฐ๊ตฌ๋ก, ์๋ ํ๊ฐ ํ์ดํ๋ผ์ธ์ ํตํด LLM์ ๊ตฌ์กฐ์ ๋งน์ ์ ์ฒด๊ณ์ ์ผ๋ก ๋๋ฌ๋ด๋ฉฐ ํ์ ๋ฆฌ๋ทฐ ๊ณผ์ ์์ LLM ํ์ฉ ๋ฐฉ์์ ์ค์ง์ ์ง์นจ์ ์ ๊ณตํ๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
870๋ฒ ๋
ผ๋ฌธ์ ํ
์คํธ ๋งค์นญ์ ๊ธฐ๋ฐํ ๋ฆฌ๋ทฐ ํ์ง ํ๊ฐ ์ทจ์ฝ์ฑ์ ์ง์ ํ์ฌ, 537๋ฒ ๋
ผ๋ฌธ์ ์๋ ์ฃผ์ ์ฒ๋ฆฌ ๊ธฐ๋ฐ ํ๊ฐ์ ํ๊ณ์ ์ฅ์ ์ ํ์ค์ ์ผ๋ก ์กฐ๋ช
ํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
537๋ฒ์ focus-level ํ๊ฐ ํ๋ ์์ํฌ๋ 628๋ฒ์ด ์ฃผ์ฅํ ํผ์ด ๋ฆฌ๋ทฐ ํ์ง ์ ํ ๋ฌธ์ ํด๊ฒฐ์ ์ฌ์ธต์ ์ง๋จ ๋ฐ ํ๊ฐ ๋ชจ๋ธ๋ก ํ์ฉ๋ ์ ์๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
537์ LLM ๋ฆฌ๋ทฐ์ ์ด์ -์์ค(focus-level) ํ๊ฐ์ ๋ธ๋ผ์ธ๋ ์คํ ๋ฌธ์ ์ ๊ดํ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ฉฐ, 128์ ๋ฆฌ๋ทฐ ํธํฅ ๋ถ์์ ์ด๋ก ์ ํ ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
592๋ฒ ๋
ผ๋ฌธ์ ์ ๋ฌธ๊ฐ ๋ฆฌ๋ทฐ ๋ฐ์ดํฐ๋ก ํ์ธํ ๋ LLM์ ์ง์ ์์ฑยทํ๊ฐํ์ฌ, LLM ๋ฆฌ๋ทฐ์ ํ์ง์ ์ค์ ์ ์ผ๋ก ๋ถ์ํ๋ฉฐ blind spot ์ธก๋ฉด์ ๋์์ ์๊ฐ์ ์ ๊ณตํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM ๊ธฐ๋ฐ ํ์ ๋ฌธ์ ์์ฝ ๋ฐ ์ข
ํฉ์ ๋ค๋ฅธ ์ ๊ทผ๋ฒ์ผ๋ก ๊ตฌํํ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
์๊ฐ-ํ
์คํธ ํตํฉ ๋ถ์์ ํฌํจํ ์๋ ๋
ผ๋ฌธ ํ๊ฐ ์์คํ
์ ๋ค๋ฃจ๋ ๊ด๋ จ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM ํ๋กฌํํธ ์กฐ์ ๋ฐ ๋ฆฌ๋ทฐ ํ์ง ํฅ์์ ๋ค๋ฃฌ ๋
ผ๋ฌธ์ผ๋ก, focus-level ํ๊ฐ์ prompt engineering์ ์ํธ๋ณด์์ฑ์ ๊ฒํ ํ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
680 ๋
ผ๋ฌธ์ LLM ๋ฆฌ๋ทฐ๊ฐ ์ค์ ๋ก ์น๋ช
์ ๋ฌธ์ ๋ฅผ ๋์น์ง ์๋์ง, ์ด์ ๊ธฐ๋ฐ ํ๊ฐ๋ฅผ ํตํด ๋ธ๋ผ์ธ๋ ์คํ(537) ํ์ง์ ๋ค๋ฅธ ๊ด์ ์ ๋นํ์ ์ ์ํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
REMOR๋ LLM ๊ธฐ๋ฐ ๋
ผ๋ฌธ ์ฌ์ฌํ ์์ฑ์์ ๋ค๋ชฉ์ ๊ฐํํ์ต์ ํ์ฉํด ์ฌ์ธต์ ยท๊ท ํ์กํ ํผ๋๋ฐฑ์ ์งํฅํ๋ฉฐ, LLM ๋ฆฌ๋ทฐ์ ํ๊ฐ ๋ฐ ๊ฐ์ ์ธก๋ฉด์์ ์ ์ฌ ์ฃผ์ ๋ฅผ ๋ค๋ฃฌ๋ค.
๋ค๋ฅธ ์ ๊ทผ
Automatically evaluating the paper reviewing capability of llms๋ LLM ๋ฆฌ๋ทฐ ๋ฅ๋ ฅ ํ๊ฐ์์ ๋ค๋ฅธ ํ๊ฐ ์งํ์ ํ๋ ์์ํฌ๋ฅผ ์ ์ํด, ์ธก๋ฉด๋ณ ํ๊ฐ ๋ฐฉ๋ฒ๋ก ์ ๋น๊ตํ ์ ์๋ค.
๋ค๋ฅธ ์ ๊ทผ
537๋ฒ์ LLM ๋ฆฌ๋ทฐ์ ํน์ฑ ๋ถ์ยทํ๊ฐ ์ฒด๊ณ๋ฅผ ์ ์ํ์ฌ 591๋ฒ์์ ๊ฐ์กฐํ OpenReview๋ฅผ ํ์ฉํ AI ๊ธฐ๋ฐ ํ๊ฐ์ ์ํธ ๋ณด์์ ์ด๋ค.
ํ์ ์ฐ๊ตฌ
628๋ฒ ๋
ผ๋ฌธ์ AI ํ์ ๋ํ ๋ฆฌ๋ทฐ ํ์ง ์๊ธฐ์ ๊ฐํ๋ฐฉ์(์๋ฐฉํฅ ํผ๋๋ฐฑ, ๋ณด์ ๋ฑ)์ ์ฃผ์ฅํด, ๋ฆฌ๋ทฐ ํ๊ฐ์ ๊ทผ๋ณธ์ ํด๊ฒฐ์ฑ
์ ๋
ผ์ํ๋ค.
ํ์ ์ฐ๊ตฌ
679(ReviewEval)์ AI ๊ธฐ๋ฐ ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ ํ๊ฐ ์์ ํ๋ ์์ ํ์ฅํด, 537์ ์ด์ ์์ค(ํฌ์ปค์ค ๋ ๋ฒจ) ํ๊ฐ ์ฒด๊ณ๋ฅผ ๋ค์ฐจ์์ ์ผ๋ก ๊ตฌ์ฒดํํ๋ค.
ํ์ ์ฐ๊ตฌ
ReviewAgents๋ AI ๋ฆฌ๋ทฐ๊ฐ ์ธ๊ฐ ๋ฆฌ๋ทฐ์ด์ ์ ์ฌํ ์ค์ํ ๋ฌธ์ ๋ฅผ ํฌ์ฐฉํ๋์ง ๋ถ์ํด, LLM ํ๊ฐ ํ๋ ์์ํฌ์ ์ค์ ์์ฉ ์ฌ๋ก๋ฅผ ์ ๊ณตํ๋ค.
์์ฉ ์ฌ๋ก
654๋ฒ ๋
ผ๋ฌธ์ ๋๊ท๋ชจ ์ผ๊ด์ฑ ๋ณด์ฅ๋ ํผ์ด๋ฆฌ๋ทฐ ๋ฐ์ดํฐ์
์ ๊ตฌ์ถํ์ฌ, 537๋ฒ์ด ์ ์ํ ํ๊ฐ ํ๋ ์์ํฌ ์ ์ฉ์ ์ ํฉํ ์ค๋ฐ์ดํฐ๋ฅผ ์ ๊ณตํ๋ค.