์ ์: Dewei Wang, Xinmiao Wang, Xinzhe Liu, Jiyuan Shi, Yingnan Zhao, Chenjia Bai, Xuelong Li | ๋ ์ง: 2025-06-10 | URL: https://arxiv.org/abs/2506.08840 📄 PDF
Fig. 2.
ํด๋จธ๋ ธ์ด๋ ๋ก๋ด์ด ๋ณต์กํ ์งํ์ ์ธ๊ฐ๋ค์ด ๋ณดํ์ผ๋ก ํก๋จํ๊ธฐ ์ํด Mixture of Residual Experts (MoRE)์ ๋ค์ค ํ๋ณ์๋ฅผ ํ์ฉํ 2๋จ๊ณ RL ํ์ต ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค.
Fig. 1. Our framework leverages a two-stage training pipeline and the mixture
Fig. 2.
์ดํ: ๋ณธ ๋ ผ๋ฌธ์ ๋ณต์ก ์งํ ํก๋จ๊ณผ ์ธ๊ฐ๋ค์ด ๋ค์ค ๋ณดํ ํ์ต์ ๋์์ ๋ฌ์ฑํ๋ ํตํฉ์ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ฉฐ, MoE ๊ธฐ๋ฐ residual ์ ๊ทผ๋ฒ๊ณผ ๋ค์ค ํ๋ณ์ ํ์ฉ์ผ๋ก ๋ฐฉ๋ฒ๋ก ์ ๋ ์ฐฝ์ฑ์ ๋ณด์ธ๋ค. ์ค์ ๋ก๋ด ๋ฐฐํฌ ๊ฒ์ฆ๊ณผ ํจ๊ป ๊ธฐ์ ์ ์ผ๋ก ๊ฒฌ๊ณ ํ๊ณ ์ค๋ฌด์ ์ค์์ฑ์ด ๋์ ์ฐ๊ตฌ์ด๋ค.