Essence
REMOR์ ์๋ ๋ฐฉ์: (A) ๋ค์ค ์ฐจ์ ๋ณด์ ํจ์(HPRR)๋ฅผ ํตํ AI ๋ฆฌ๋ทฐ ์์ฑ ์์คํ
, (B) PeerRT ๋ฐ์ดํฐ์
์ ์ด์ฉํ ๊ฐ๋
๋ฏธ์ธ์กฐ์ (SFT) ๋ฐ GRPO ํ์ต ํ๋ก์ธ์ค
๋ณธ ๋
ผ๋ฌธ์ ์ถ๋ก (reasoning) ๊ธฐ๋ฅ์ ๊ฐ์ถ ๋ํ์ธ์ด๋ชจ๋ธ(LLM)๊ณผ ๋ค๋ชฉ์ ๊ฐํํ์ต(MORL)์ ๊ฒฐํฉํ์ฌ ์ธ๊ฐ ์์ค ์ด์์ ๊น์ด ์๊ณ ๊ท ํ์กํ ํ์ ๋
ผ๋ฌธ ์ฌ์ฌํ์ ์๋ ์์ฑํ๋ REMOR ์์คํ
์ ์ ์ํ๋ค. ๊ธฐ์กด AI ์ฌ์ฌํ์ ์์ ๋ถ์๊ณผ ๊ณผ๋ํ ์นญ์ฐฌ ๋ฌธ์ ๋ฅผ ๋ค๋ชฉ์ ๋ณด์ํจ์์ ์ถ๋ก ๋ฅ๋ ฅ์ผ๋ก ๊ทน๋ณตํ๋ค.
Evaluation
Novelty: 4.5/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 3.5/5 Overall: 4/5
์ดํ: REMOR์ ์ถ๋ก ๊ณผ ๊ฐํํ์ต์ ์ฌ์ฌํ ์์ฑ์ ์ฐฝ์์ ์ผ๋ก ๊ฒฐํฉํ์ฌ ์ธ๊ฐ ์์ค ์ด์์ ์ฑ๋ฅ์ ๋ฌ์ฑํ ์๋ฏธ ์๋ ๊ธฐ์ฌ์ด๋ค. ํนํ ๋ค์ฐจ์ ๋ณด์ํจ์์ PeerRT ๋ฐ์ดํฐ์
์ ๊ณต๊ฐ๋ ํ๊ณ์ ์ค์ง์ ์์ฐ์ด ๋ ๊ฒ์ด๋ค. ๋ค๋ง ์ธ๊ฐ ํ๊ฐ์ ๊ท๋ชจ, ๋ณด์ํจ์ ์ค๊ณ์ ์ ๋น์ฑ, ํ๋ถ์ผ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ์ ๋ํ ๋ ๊น์ ๊ฒ์ฆ์ด ๋
ผ๋ฌธ์ ์ํฅ๋ ฅ์ ๊ฐํํ ๊ฒ์ด๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
ClinicalGPT๋ ์ํ ๋
ผ๋ฌธ ๊ฒํ ๋ฅผ LLM์ผ๋ก ์๋ํํ ์ฌ๋ก๋ก, REMOR๊ฐ ๋ค๋ชฉ์ ๊ฐํํ์ต(MORL) ๊ธฐ๋ฒ์ ํ์ฅํด ๋ค์ํ ๋ถ์ผ์ ์ ์ฉํ ๊ฐ๋ฅ์ฑ๋ ์์ฌํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
677๋ฒ์ LLM ๊ธฐ๋ฐ ๋ฆฌ๋ทฐ ์์ฑ ํ๋กฌํํธ ์ต์ ํ ์ ๋ต์ ์๊ฐํ์ฌ, 665๋ฒ์ ๊ฐํํ์ต-์ถ๋ก ๊ฒฐํฉ ์์คํ
์ ์ค๊ณ ์๋ฆฌ์๋ ์๋ฏธ ์๋ ์์ฌ์ ์ ์ค๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
665๋ฒ ๋
ผ๋ฌธ์ LLM ๊ธฐ๋ฐ ์๋ ๋ฆฌ๋ทฐ ๋ฐ ์ ๋ขฐ์ฑ ํ๊ฐ์งํ ๊ฐ๋ฐ์ ๋ค๋ฃจ๋ฉฐ, 3283๋ฒ์ ์ ํ์ ์์ธก ํ๋ ์์ํฌ์ ํ๋น์ฑ ํ๊ฐ ๋ฐ ์ ๋ขฐ์ฑ ๋
ผ์์ ๊ธฐ์ด๋ฅผ ์ ๊ณตํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
778์ ๋ฉํ๋ฆฌ๋ทฐ ์๋ํ์ ๋ฌ๋ฆฌ 665๋ ์ธ์ ์ฌ์ฌ์ LLM ํ์
๊ธฐ๋ฐ ๋๋ฃํ๊ฐ ์๋ํ ํ๋ก์ธ์ค๋ฅผ ์ ์ํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋ ๋
ผ๋ฌธ ๋ชจ๋ ์ฐ๊ตฌ ์์ด๋์ด ๋๋ ํ์ ์ ์ฐ์ถ๋ฌผ ์์ฑ์ ๋ชฉํ๋ก ํ์ง๋ง, 484๋ ์์ด๋์ด ์๋์์ฑ์ ์ด์ ์ ๋๊ณ 665๋ ์๋ ๋
ผ๋ฌธ ์ฌ์ฌ์ ์ง์คํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
OpenReviewer ๋ํ LLM ๊ธฐ๋ฐ ๋ฆฌ๋ทฐ ์๋ํ ์์คํ
์ด์ง๋ง, ๋ณด์ํจ์/์ถ๋ก ์ฆ์ง ๋์ ์ ๋ฌธ๊ฐ ๋ฆฌ๋ทฐ ๋ฐ์ดํฐ ํ์ธํ๋ ์ ๊ทผ๋ฒ์ ํํด ์ฐจ๋ณ์ฑ์ด ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋ค์ธต ๋ถ์๊ณผ LLM ๊ธฐ๋ฐ ํ๋กฌํํ
์ผ๋ก ๊ณผํ ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ ์์ฑ ๋ฐ ๊ฐ์ ํตํฉ ๋ฌธ์ ๋ฅผ ๋ค๋ฃจ๋ฏ๋ก ๋ฉํ๋ฆฌ๋ทฐ ์์ฑ ๋ฐฉ๋ฒ๋ก ๊ณผ ๋น๊ต ๋ถ์ํ ์ ์์.
๋ค๋ฅธ ์ ๊ทผ
LLM๊ธฐ๋ฐ ์๋ ํผ์ด๋ฆฌ๋ทฐ ์์ฑ์์ ์์ฐ(๋ฐ๋ชจ) ์ ํ ๋ค์์ฑ๊ณผ AI reasoning์ ๊ฒฐํฉํ๋ ๋ฐฉ๋ฒ์ ์ ์ํด, 421์ human-free ์์ฐ ๋ค์์ฑ ํฅ์ ์ ๋ต๊ณผ ๋์กฐ๋ฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
665 ๋
ผ๋ฌธ์ LLM ๊ธฐ๋ฐ ์๋ ํผ์ด๋ฆฌ๋ทฐ ์์ฑ๊ณผ ๊ทธ ์ฒด๊ณํ ๋ฐฉ์์ ์ ์ํ์ฌ, 519(MARG)์ ๋ค์ค ์์ด์ ํธ ๋ฆฌ๋ทฐ ์์ฑ ๋ฐฉ๋ฒ๊ณผ ๋์กฐ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
665๋ฒ ๋
ผ๋ฌธ์ LLM์ผ๋ก ์๋ ๋ฆฌ๋ทฐ ์์ฑ ์ ๋
ผ๋ฆฌ์ reasoning๊ณผ alignment๋ฅผ ์ด์ฉํ์ฌ, 677๋ฒ์ aspect-based ํ๋กฌํํธ ๋ฐฉ์๊ณผ ์ํธ ๋ณด์์ ์
๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
676๋ฒ์ ๋ค๋จ๊ณ ๋
ผ๋ฌธ ์ฌ์ฌ๋ฅผ LLM ๋ค์ค ์์ด์ ํธ๋ก ๋ชจ๋ฐฉํ์ฌ, 665๋ฒ์ ๋ค๋ชฉ์ ๊ฐํํ์ต ๊ธฐ๋ฐ ์ฌ์ฌ ์์คํ
๊ณผ ์ ๊ทผ๋ฒ์ ๋น๊ตํ ์ ์๋ค.
๋ค๋ฅธ ์ ๊ทผ
โMind the blind spotsโ๋ LLM๊ฐ ๋
ผ๋ฌธ ์ฃผ์ ์ธก๋ฉด์ โ์ง์คโํ๋๊ฐ๋ฅผ ํ๊ฐํ๋ฉฐ, REMOR๋ ์์ฑ ๋ฆฌ๋ทฐ์ ๊ฐ๊ด์ฑยท์ฌ์ธต์ฑ ๊ฐํ๋ฅผ ์ถ๊ตฌํด ์ ๊ทผ๋ฒ์ด ๋๋น๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
665 ๋
ผ๋ฌธ์ LLM์ด ๋
ผ๋ฌธ ํ๊ฐ์์ chain-of-thought์ ๋นํ์ reasoning์ ํ์ฉํ๋ ์ ๊ทผ์ ๋ค๋ฃจ์ด, 243์์ ๋นํ์ ํผ๋๋ฐฑ์ RL์ ์ ๋ชฉ์ํจ ๊ฒ๊ณผ ์ฐ๊ฒฐ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
350์ ํ๋ ์(ํผ๋๋ฐฑ ๊ธฐ๋ฐ ๋ฉ๋์ปฌ ๋
ผ๋ฌธ ์๋์์ฑ)๊ณผ 665์ ๋๋ฃํ๊ฐ ์์ฑ ๊ฐ๊ฐ ๋ค์ค์์ด์ ํธ ์์คํ
๊ณผ AI๋ฆฌ๋ทฐ ์๋ํ๋ผ๋ ์๋ก ๋ค๋ฅธ ์ ๊ทผ์ ๋ณด์ฌ์ค๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
665๋ LLM ๊ธฐ๋ฐ ์๋ ๋ฆฌ๋ทฐ ์์ฑ์์ reasoning๊ณผ hallucination ๋์ ๋ฐฉ์์ ๋ค๋ค 680๊ณผ ์ฐ๊ฒฐ๋ฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
Meta-review generation with checklist-guided iterative introspection ๋
ผ๋ฌธ์ LLM ๊ธฐ๋ฐ ๋ฆฌ๋ทฐ ์๋ํ์ ์ฌ์ธต์ ์๊ธฐ๋ฐ์ ๋ฐ ์ฒดํฌ๋ฆฌ์คํธ ๊ธฐ๋ฐ ํ์ฅ ๋ฐฉ๋ฒ๋ก ์ ์ ์ํ์ฌ 665์ ๋ณด์์ ์์ด๋์ด๋ฅผ ์ค๋๋ค.
ํ์ ์ฐ๊ตฌ
Remor๋ LLM ๊ธฐ๋ฐ ์๋ ๋ฆฌ๋ทฐ ์์ฑ์ human-like ํ๊ฐ ์ฒ๋๋ฅผ ์ ์ฉ, ์ด ๋
ผ๋ฌธ์ ์๋-ํฌ-์๋ ์๋ ๋ฆฌ๋ทฐ ์์ฑ๊ณผ ์ง์ ๋น๊ต ๊ฐ๋ฅํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
REMOR ์์ฒด์ ์ผ๋ก ๊ธฐ์กด shallow review์ ํ๊ณ๋ฅผ ์ง์ ํ๋ฉฐ, ๋ค๋ชฉ์ ๋๋ฉ์ธ ํ์ฅ์๋ ์ ์ฉ ๊ฐ๋ฅํ๋ค.
ํ์ ์ฐ๊ตฌ
665๋ฒ ๋
ผ๋ฌธ์ ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ ์์ฑ ๊ณผ์ ์์ ์๊ธฐ๊ฒ์ฆ, ๋
ผ๋ฆฌ๋ฌธ์ ํด๊ฒฐ ๋ฑ์ LLM์ ์ด๋ป๊ฒ ํ์ฉํ ์ ์๋์ง ์ฌ์ธต์ ์ผ๋ก ์ ์ํฉ๋๋ค.
์์ฉ ์ฌ๋ก
083์ LLM ๊ธฐ๋ฐ ๋ฆฌ๋ทฐ ์์คํ
์ ๋๊ท๋ชจ, ์ค์ ํ๊ฐ๋ฅผ ๋ค๋ฃจ์ด REMOR์ ๊ด๋ จ๋ ์ค์ ์ ์ฉ ๋งฅ๋ฝ์ ๋ณด์ฌ์ค๋ค.