Essence
OpenReviewer ๋ฐ๋ชจ ์ธํฐํ์ด์ค: PDF ์
๋ก๋, ๋งํฌ๋ค์ด ๋ณํ, ๋ฆฌ๋ทฐ ํ
ํ๋ฆฟ ํธ์ง, ๋ฆฌ๋ทฐ ์์ฑ ๊ธฐ๋ฅ
79,000๊ฐ์ ์ ๋ฌธ๊ฐ ๋ฆฌ๋ทฐ๋ก ํ์ธํ ๋ 8B ํ๋ผ๋ฏธํฐ ์ธ์ด๋ชจ๋ธ(Llama-OpenReviewer-8B)์ ํตํด ๊ธฐ๊ณํ์ต ๋ฐ AI ํ์ ์ง ๋
ผ๋ฌธ์ ๋ํ ๊ณ ํ์ง ๋๋ฃ์ฌ์ฌ ์๊ฒฌ์ ์์ฑํ๋ ์คํ์์ค ์์คํ
์ด๋ค. GPT-4o, Claude-3.5 ๊ฐ์ ๋ฒ์ฉ LLM๊ณผ ๋ฌ๋ฆฌ ๋นํ์ ์ด๊ณ ํ์ค์ ์ธ ๋ฆฌ๋ทฐ๋ฅผ ์์ฑํ์ฌ ์ธ๊ฐ ๊ฒํ ์์ ํ๊ฐ ๋ถํฌ์ ์ ์ฌํ ๊ฒฐ๊ณผ๋ฅผ ์ ์ํ๋ค.
Evaluation
์ดํ: OpenReviewer๋ ์ ๋ฌธ๊ฐ ๋ฐ์ดํฐ์
๊ธฐ๋ฐ ํ์ธํ ๊ณผ ๊ตฌ์กฐํ๋ ํ๋กฌํํธ ์ค๊ณ๋ก ๋ฒ์ฉ LLM์ ๊ณผ๋ํ ๋๊ด์ ํธํฅ์ ๊ทน๋ณตํ๊ณ ํ์ค์ ์ธ ํ์ ๋ฆฌ๋ทฐ๋ฅผ ์์ฑํ๋ ์ค์ฉ์ ์์คํ
์ด๋ค. ํฌ๊ณ ์ ์ ์ ํผ๋๋ฐฑ ๋๊ตฌ๋ก์์ ๊ฐ์น๋ ๋์ง๋ง, ํ๊ฐ ๋ฐฉ๋ฒ๋ก ์ ํ๊ณ์ ๋ค์ํ ํ๋ฌธ ๋ถ์ผ๋ก์ ํ์ฅ์ฑ ๊ฒ์ฆ์ด ํ์ํ๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
128๋ฒ ๋
ผ๋ฌธ์ LLM์ ๋ฆฌ๋ทฐ ์์ฑ ๋ฅ๋ ฅ ์๋ ํ๊ฐ ํ๋ ์์ํฌ๋ก, OpenReviewer ์์คํ
ํ๊ฐ ๋ฐ ๊ฐ๋ฐ์ ๊ด๋ จ ์ด๋ก ์ ์ ๊ณตํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๊ณผํ ๋ฌธํ ์ดํด ๋ฐ ์ฒ๋ฆฌ๋ฅผ ์ํ ์ธ์ด๋ชจ๋ธ์ ๋ค๋ฃจ๋ ๊ด๋ จ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
AI/LLM์ ํผ์ด๋ฆฌ๋ทฐ ๋ณด์กฐ ๋๊ตฌ๋ก ํ์ฉํ๋ ๋ค๋ฅธ ์ ๊ทผ๋ฒ์ ์ ์ํ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
678๋ฒ ๋
ผ๋ฌธ์ ๋ค์ํ ์ธ์ด ๋ชจ๋ธ์ ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ ํ์ง์ ๋น๊ตยทํ๊ตฌํด, OpenReviewer์ ํ๊ฐ ๊ด์ ๊ณผ ๋ณด์์ ์ผ๋ก ์ฝ์ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM์ ๊ณผํ์ ํ
์คํธ ํ๊ฐ ๋ฅ๋ ฅ์ ๋ถ์ํ๋ ๊ด๋ จ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
Peerarg ๋
ผ๋ฌธ์ LLM ๊ธฐ๋ฐ์ ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ ์์ฑ์ ๋ค๋ฃจ๋ฉด์ ๋
ผ์ฆ์ ๊ตฌ์กฐ์ ์ด์ ์ ๋์ด, OpenReviewer์ ๋นํ์ ๋ฆฌ๋ทฐ ์์ฑ ์ ๊ทผ๊ณผ ๋น๊ต ๊ฐ๋ฅํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
OpenReviewer ๋
ผ๋ฌธ์ ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ ์๋ํ์ ํนํ๋ LLM ์ค๊ณ ๋ฐ ํ๊ฐ๋ฅผ ๋ค๋ฃจ์ด, CycleResearcher๊ฐ ์ ์ํ ํตํฉ ์ฌ์ดํด ํ๋ ์์ํฌ์ ์ฐจ๋ณ๋๋ ๊ตฌ์กฐ๋ฅผ ๋ณด์ฌ์ค๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
ํนํ LLM(AI Reviewer)์ ํผ์ด๋ฆฌ๋ทฐ ๋ฐ ๋ฉํ๋ฆฌ๋ทฐ ์์ฑ ๋ฐฉ๋ฒ๋ก ์ ๋น๊ตํ์ฌ ๊ฐ ์ ๊ทผ๋ฒ์ ํ๊ณ์ ์ฅ์ ์ ํจ๊ป ์ดํด๋ณผ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
592๋ฒ ๋
ผ๋ฌธ์ ๋
ผ๋ฌธ ๋๋ฃ์ฌ์ฌ์ ํนํ๋ LLM์, 571๋ฒ์ ์๋ ์ฐ๊ธฐยท๋ฌธ๋ฒ ํ๊ฐ ํตํฉ ์์คํ
์ ์ ์ํ์ฌ AI๊ฐ ํ๊ฐ ํผ๋๋ฐฑ์ ์ ๊ณตํ๋ ๋์์ ์ฌ๋ก์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
537๋ฒ ๋
ผ๋ฌธ์ด LLM ๊ธฐ๋ฐ ์๋ ๋ฆฌ๋ทฐ์ blind spot์ ์ด์ ์ ๋ง์ถ ํ๊ฐ ํ๋ ์์ํฌ ์ฐ๊ตฌ๋ผ๋ฉด, 592๋ฒ์ ์ค์ LLM Reviewer ๋ชจ๋ธ์ ์คํ์์ค๋ก ๊ตฌํยทํ๊ฐํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋์ผํ๊ฒ LLM ๊ธฐ๋ฐ ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ ์๋ ์์ฑ์ ๋ค๋ฃจ์ง๋ง, ๋ค๋ชฉ์ ๊ฐํํ์ต(MORL)๊ณผ ์ถ๋ก ๋ฅ๋ ฅ ๊ฐํ๋ก ์ฐจ๋ณํ๋ ๋ฐฉ์์ ์ฌ์ฌ ์๊ฒฌ ์๋ํ ์์คํ
์ ์ ์ํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM์ ์ฐ๊ตฌ ๋ณด์กฐ ๋ฅ๋ ฅ์ ํ๊ฐํ๋ ๋ค๋ฅธ ๋ฒค์น๋งํฌ๋ ๋ฐฉ๋ฒ๋ก ์ ์ ์ํ๋ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
592 ์ญ์ ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ ๋ฐ ์์ฑ์ ์ํ LLM ํนํ ์์คํ
๊ฐ๋ฐ๋ก, 702์ ์ธ์ฉ ๊ฒ์๊ณผ ํตํฉ๋ ๋
ผ๋ฌธ ์์ฑ ํ๋ ์์ํฌ์ ์ ์ฌํ ๋ฌธ์ ๋ฅผ ๋ค๋ฃฌ๋ค.
๋ค๋ฅธ ์ ๊ทผ
AI์ ํ์ ํผ์ด ๋ฆฌ๋ทฐ ์นจํฌ์ ๊ทธ ์ค๋ฆฌ์ ยท์ฌํ์ ์ํฅ์ ๋ค๋ฃจ๋ ์ ์ฌํ ์ฃผ์ ์ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
์๋ํ๋ ๋
ผ๋ฌธ ํ์ง ๊ฒ์ฌ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ ์ ์ฌํ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM ๊ธฐ๋ฐ ๋ถ๋ฅ๋ฅผ ์ฐ๊ตฌ ๋ฌธํ ๋ถ์์ ํ์ฉํ๋ ๋ฐฉ๋ฒ๋ก ์ ์ผ๋ก ๊ด๋ จ๋ ์ฐ๊ตฌ์ด๋ค.
ํ์ ์ฐ๊ตฌ
ReviewEval์ AI ์์ฑ ๋ฆฌ๋ทฐ์ ํ์ง ํ๊ฐ ํ๋ ์์ํฌ๋ก, ์์ฑ ๋ชจ๋ธ(์: OpenReviewer)์ด ์์ฑํ ์ฌ์ฌํ์ ์ค์ ํ์ฉ ๊ฐ๋ฅ์ฑ์ ์ ๋์ ์ผ๋ก ๋ถ์ํ๋ ๋ฐ ๋์์ ์ค๋๋ค.
์์ฉ ์ฌ๋ก
629๋ฒ์ ํผ์ด๋ฆฌ๋ทฐ ์๋ ํ๊ฐ(based on peer review)๋ฅผ ๋ค๋ฃจ์ด, 592๋ฒ์ด ์์ฑํ AI ์ฌ์ฌํ์ ํ์ง๊ณผ ํจ๊ณผ ์ธก์ ๋ฐฉ๋ฒ์ ์ค์ง์ ํผ๋๋ฐฑ์ ์ ๊ณตํ๋ค.
์์ฉ ์ฌ๋ก
592๋ฒ ๋
ผ๋ฌธ์ Peer review ๋ถ์ผ์์ specialized LLM(์: GPT-4o ๋ฑ๊ณผ ๋น๊ต)์ ํ์ฉํด, 585๋ฒ์ด ๊ฐ์กฐํ ์์ ์ฑยท๊ฐ๊ฑด์ฑ ๋ฌธ์ ์ ๋ํ ์ค์ ์ ์ฉ ์ฌ๋ก๋ฅผ ์ ๊ณตํ๋ค.
๋ฐ๋ก /๋นํ
When AI Co-Scientists Fail ๋
ผ๋ฌธ์ ์๋ํ ๋ฆฌ๋ทฐยทํ๊ฐ์ ์ทจ์ฝ์ ๊ณผ ์คํจ ์ฌ๋ก๋ฅผ ๋ด์, OpenReviewer ์์คํ
์ ํ๊ณ์ ๊ฐ์ ๋ฐฉํฅ์ ์๊ฐํด ๋ณผ ์ ์๋ค.