Essence
๋ณด์ ๋ชจ๋ธ(Reward Model, RM)์ ์ถ๋ก ๋ฅ๋ ฅ์ ํตํฉํจ์ผ๋ก์จ ํด์ ๊ฐ๋ฅ์ฑ๊ณผ ์ฑ๋ฅ์ ๋ชจ๋ ํฅ์์ํจ ์๋ก์ด ํด๋์ค์ ์์ฑํ ๋ณด์ ๋ชจ๋ธ์ธ RM-R1์ ์ ์ํ๋ค. Chain-of-Rubrics(CoR) ๋ฉ์ปค๋์ฆ์ ํตํด ์์
ํน์ฑ์ ๋ง์ถ ๋ง์ถคํ ์ถ๋ก ์ ๋ต์ ์ ์ฉํ์ฌ 70B, 340B ๋ชจ๋ธ๊ณผ GPT-4o๋ฅผ ์ต๋ 4.9% ๋ฅ๊ฐํ๋ค.
Evaluation
Novelty: 4.5/5 Technical Soundness: 4.5/5 Significance: 4.5/5 Clarity: 4/5 Overall: 4.4/5
์ดํ: ๋ณด์ ๋ชจ๋ธ๋ง์ ์ถ๋ก ์์
์ผ๋ก ์ฌ์ ์ํ๋ ํต์ฌ ์์ด๋์ด์ Chain-of-Rubrics์ ์์
์ธ์ ๋ฉ์ปค๋์ฆ์ด ํ์ ์ ์ด๋ฉฐ, ์ค์ฆ์ ์ฑ๊ณผ(์ต๋ 4.9% ์ฑ๋ฅ ํฅ์)์ ์ฒด๊ณ์ ๋ถ์์ ํตํด ์ค์ง์ ๊ธฐ์ฌ๋ฅผ ์
์ฆํ ์ฐ์ํ ์ฐ๊ตฌ์ด๋ค. ๋ค๋ง ์ค๋ผํด ๋ชจ๋ธ ์์กด์ฑ๊ณผ ์์
๋ถ๋ฅ์ ์ด์ง ๊ตฌ์กฐ๋ ์ค๋ฌด ํ์ฅ์ฑ ์ธก๋ฉด์์ ๊ฐ์ ์ฌ์ง๊ฐ ์๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
Self-Refine๋ ์๊ธฐ ํผ๋๋ฐฑ์ ํตํ LLM ๋จ๊ณ๋ณ ์ถ๋ก ๊ฐ์ ๊ธฐ๋ฒ์ ์ ์ํ์ฌ, RM-R1์ ๋ณด์๋ชจ๋ธ ์ถ๋ก ๋ฉ์ปค๋์ฆ๊ณผ ๊ธด๋ฐํ๊ฒ ์ฐ๊ฒฐ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
683 ๋
ผ๋ฌธ์ ๋ณด์ ๋ชจ๋ธ๋ง์ ํตํ LLM์ ์ถ๋ก ๋ฅ๋ ฅ ํฅ์ ๋ฉ์ปค๋์ฆ์ ์ค๋ช
ํ๋ฉฐ, 466 ๋
ผ๋ฌธ์์ ์ฌ์ฉํ๋ ์๋ฆฌํฐ์ฆ ๊ธฐ๋ฐ ๊ฐํ์ ๋ต์ ์ด๋ก ์ ๊ธฐ๋ฐ์ด ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
447๋ฒ ๋
ผ๋ฌธ์ LLM์ ์๊ธฐ ์ ๋ ๊ฐํํ์ต ๋ฉ์ปค๋์ฆ์ ๋ค๋ฃจ๋ฉฐ, 683๋ฒ์ด ์ ์ํ๋ ๋ณด์๋ชจ๋ธ ๊ธฐ๋ฐ ์ถ๋ก ํฅ์ ์ ๋ต์ ์ด๋ก ์ ๊ธฐ์ด๋ฅผ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
265๋ฒ ๋
ผ๋ฌธ์ RL ๊ธฐ๋ฐ ๊ฐํ์ถ๋ก ๊ธฐ๋ฒ์ ํตํด LLM์ reasoning ์ฑ๋ฅ์ ํฅ์์ํค๋ฉฐ, 683๋ฒ์ ์ถ๋ก ํ ๋ณด์๋ชจ๋ธ ์ ๊ทผ์ ์ด๋ก ์ ๋ฐฐ๊ฒฝ์ด ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
449์ RL ๊ธฐ๋ฐ LLM ์ต์ ํ ๋
ผ์๋ 683์์ ์ ์ํ๋ reward modeling as reasoning์ ๊ธฐ์ด ์์์ ์ถ๋ฐํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
RM-R1(683)์ ๋ณด์๋ชจ๋ธ์ ํตํ LLM์ ๋
ผ๋ฆฌ์ ์ถ๋ก ๊ฐํ ๋ฐฉ๋ฒ๋ก ์ ์ ์ํ์ฌ 243์ ์์ฐ์ด+์์น ๋ณด์ ํตํฉ ์ ๊ทผ์ ์ด๋ก ์ ๊ธฐ๋ฐ์ด ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๋ณด์ ๋ชจ๋ธ๋ง๊ณผ ์ถ๋ก ๋ฅ๋ ฅ์ ์ฐ๊ณํ๋ ์ ๊ทผ๋ฒ์ ๋ค๋ฃจ๊ธฐ ๋๋ฌธ์, ๊ฐํํ์ต ๊ธฐ๋ฐ ์๊ธฐ๊ฒ์ฆ(RISE) ์์คํ
๊ณผ์ ์ด๋ก ์ ์ฐ๊ณ๊ฐ ์ ์๋ฏธํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
Selfcheck ๋
ผ๋ฌธ์ LLM์ ์์ฒด ์ค๋ฅ ์ธ์, ์ถ๋ก ์ํ ์ ๊ฒ์ ์ง์คํ์ฌ, RM-R1 ๋
ผ๋ฌธ์ ๋ณด์ ๋ชจ๋ธ ๋ด ์ถ๋ก ํตํฉ ์ ๊ทผ์ ๋นํด ์ง์ ์ ์๊ธฐ ์ ๊ฒ ๋ฐฉ์์ ๋ค๋ฃฌ๋ค.
๋ค๋ฅธ ์ ๊ทผ
683๋ฒ ๋
ผ๋ฌธ์ Reasoning ๊ธฐ๋ฐ์ Reward Modeling์ ํตํด LLM ์๊ธฐ๊ต์ ์ ์กฐ๊ฑด๊ณผ ๊ฐ๋ฅ์ฑ์ ํญ๋๊ฒ ๋ถ์ํ์ฌ 471๋ฒ์ ๋นํ์ ๊ฒฐ๋ก ๊ณผ ๊ท ํ ์๊ฒ ์ฝ๊ธฐ์ ์ ํฉํ๋ค.
ํ์ ์ฐ๊ตฌ
Tree-planner ๋
ผ๋ฌธ์ ํจ์จ์ ์ธ ๋ฉํฐ์คํ
์์
๊ณํ์ ์ํ LLM ๊ธฐ๋ฐ ํ๋ ์์ํฌ๋ก, RM-R1์ ์ถ๋ก ์ค์ฌ ๋ณด์๋ชจ๋ธ ์ค๊ณ ๊ฐ์ด๋๋ผ์ธ์ ์ค์ ์์ฉ ์ฌ๋ก๋ฅผ ์ ์ํ๋ค.
ํ์ ์ฐ๊ตฌ
674๋ฒ ๋
ผ๋ฌธ์ LLM์ ์ ๋ต์ ๋๊ตฌ ์ฌ์ฉ ๋ฐ ๊ฐํํ์ต ๊ธฐ๋ฐ ์ถ๋ก ์ ๋ค๋ฃจ์ด, 683๋ฒ์ ์ฒด์ธ์ค๋ธ๋ฃจ๋ธ๋ฆญ์ค(CoR)๋ฅผ ํ์ฉํ ๋ง์ถคํ ์ถ๋ก ์ ๋ต๊ณผ ์ฐ๊ฒฐ๋ฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
RM-R1: Reward Modeling as Reasoning ๋
ผ๋ฌธ์ RL ๊ธฐ๋ฐ์ผ๋ก LLM์ ์ถ๋ก ๋ฅ๋ ฅ ๊ฐํ์ ๊ฒ์ ํตํฉ ์ฑ๋ฅ ํฅ์ ๋ฐฉ์์ ์ถ๊ฐ๋ก ํ๊ตฌํฉ๋๋ค.