์ ์: Qiguang Chen, Libo Qin, Jinhao Liu, Yue Liao, Jiaqi Wang, Jingxuan Zhou, Wanxiang Che | ๋ ์ง: 2025 | DOI: arXiv:2505.13307 📄 PDF
Essence
๊ทธ๋ฆผ 1: ์ ์๋ ๊ฐ๋
๊ฐ์ - (a) ์ถ๋ก ๊ฒฝ๊ณ(RB), (b) ๊ณ์ธก ๊ฐ๋ฅํ ์๋๋ฆฌ์ค์์ ์ํ์ ์ ๋ํํ๋ ๊ฒฐํฉ๋ฒ์น, (c) ์์ ๊ฐ์ ๋ฐ (d) ๊ณ์ธก ๋ถ๊ฐ๋ฅํ ๊ฒฝ๊ณ๋ฅผ ์ํ ๊ฒฝ๊ณ ๋ถํ ๋ฉ์ปค๋์ฆ, (e) ์ต์ ํ๋ฅผ ์ํ RB ๋ถ๋ฅ
๋ณธ ๋
ผ๋ฌธ์ ์ถ๋ก ๊ฒฝ๊ณ ํ๋ ์์ํฌ++(RBF++)๋ฅผ ์ ์ํ์ฌ ๋ํ ์ธ์ด ๋ชจ๋ธ(LLM)์ ์ฒด์ธ-์ค๋ธ-์ฝํฌ(CoT) ์ถ๋ก ๋ฅ๋ ฅ์ ํ๊ณ๋ฅผ ์ ๋ํํ๊ณ ์ต์ ํํ๋ ๋ฐฉ๋ฒ๋ก ์ ์ ์ํ๋ค. ๊ณ์ธก ๊ฐ๋ฅํ ๋ฅ๋ ฅ๊ณผ ๊ณ์ธก ๋ถ๊ฐ๋ฅํ ๋ฅ๋ ฅ(๋ฉํฐ๋ชจ๋ฌ ์ง๊ฐ ๋ฑ) ๋ชจ๋์ ๋ํด ์ฒด๊ณ์ ์ผ๋ก ์ถ๋ก ๊ฒฝ๊ณ๋ฅผ ๋ถ์ํ๊ณ ์ต์ ํ ์ ๋ต์ ๋์ถํ๋ค.
How
๊ทธ๋ฆผ 3: ํ
์คํธ ๋ชจ๋ฌ์์ ๋ค์ํ ์์
์ ๋ํ RB์ ๊ฒฐํฉ๋ฒ์น ๊ฒ์ฆ
ํต์ฌ ๋ฐฉ๋ฒ๋ก
- ์ถ๋ก ๊ฒฝ๊ณ ์ ์ (์ 1):
$$B^{Acc=K_1}(t|m) = \sup_d \{d | Acc(t|d,m) \leq K_1\}$$
๋ชฉํ ์ ํ๋ ์๊ณ๊ฐ(Kโ)์ ์ด๊ณผํ๋ ์ต๋ ๋์ด๋ ์์ค์ผ๋ก ์ ์
$$B(t_1, t_2, \ldots, t_n) \approx \frac{1}{\sum_{i=1}^{n} \frac{1}{B(t_i)}}$$
๊ฐ์ค ์กฐํ ํ๊ท ์ ์ฌ์ฉํ์ฌ ๋
๋ฆฝ์ ๋ฅ๋ ฅ์ ๊ฒฐํฉ ๊ฒฝ๊ณ ์ถ์
๊ณ์ธก ๊ฐ๋ฅํ ์์ j๊ฐ ๋ถ๋ถ ๊ฒฝ๊ณ๋ ๊ฐ๋ณ์ ์ผ๋ก ํ๊ฐํ๊ณ , j+1๋ฒ์งธ๋ถํฐ๋ ์์ Z๋ก ๋์ฒด
- ๊ฒฝ๊ณ ๋ถํ ๋ฉ์ปค๋์ฆ (์ 5-7):
ํตํฉ ๊ฒฝ๊ณ B(p,o,v)๋ฅผ ๊ณํ(p), ์ฐ์ฐ(o), ๋๋ฉ์ธ ์ง์(v)์ ๋
๋ฆฝ์ ๊ฒฝ๊ณ๋ก ๋ถํด ๊ฐ๋ฅ
- ๊ฒฝ๊ณ ๋ถ๋ฅ:
- ์์ ํ ์คํ ๊ฐ๋ฅ(CFRB): Acc โฅ 90%
- ๋ถ๋ถ์ ์ผ๋ก ์คํ ๊ฐ๋ฅ(PFRB): 10% < Acc < 90%
- ์์ ํ ๋ถ๊ฐ๋ฅ(CIRB): Acc โค 10%
๊ทธ๋ฆผ 4: BigGSM์ ํ
์คํธ ๋ชจ๋ฌ ์๋๋ฆฌ์ค์์ ๋ค์ํ ์ถ๋ก ๊ฒฝ๊ณ์ ํน์ฑ ๋ถ์
Evaluation
์ดํ: RBF++๋ CoT ์ถ๋ก ์ ๊ฒฝ๊ณ๋ฅผ ์ ๋ํํ๋ ์๋ก์ด ํ๋ ์์ํฌ๋ก, ๊ณ์ธก ๊ฐ๋ฅํ ์์ญ๊ณผ ๋ถ๊ฐ๋ฅํ ์์ญ์ ๋ชจ๋ ๋ค๋ฃจ๋ ค๋ ์ผ์ฌ์ฐฌ ์๋์ด๋ค. ๊ด๋ฒ์ํ ์ค์ฆ ๊ฒ์ฆ๊ณผ ์ค์ฉ์ ์ต์ ํ ๋ฐฉ๋ฒ(MARP++)์ ์ ์ํ ์ ์ด ๊ฐ์ ์ด๋, ์ด๋ก ์ ๊ธฐ์ด(ํนํ ์์ ๊ฐ์ )์ ์๋ฐ์ฑ๊ณผ ๋ณดํธ์ฑ์ ๋ํด ์ถ๊ฐ์ ๋
ผ์๊ฐ ํ์ํ๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
Large Language Models ๋
ผ๋ฌธ์ ๋ํ ์ธ์ด๋ชจ๋ธ์ ๊ตฌ์กฐ์ ํน์ง๊ณผ ์ถ๋ก ํ๊ณ ๋
ผ์๋ฅผ ํฌ๊ด์ ์ผ๋ก ๋ด์, RBF++์ ๋ฌธ์ ์ค์ ์ ์ด๋ก ์ ๋งฅ๋ฝ์ ์ ๊ณตํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
ํ์ด๋ฐ์ด์
๋ชจ๋ธ์ ์ถ๋ก ๋ฅ๋ ฅ๊ณผ ํ๊ณ์ ๋ํ ์ ๋์ ์๋ฒ ์ด๋ก, RBF++์ ํ๊ฐ ๊ธฐ๋ฒ์ ์ด๋ก ์ ์ผ๋ก ๋ท๋ฐ์นจํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๊ธด chain-of-thought ์ถ๋ก ๋ฅ๋ ฅ ํ๊ฐ๋ฅผ ๋ค๋ฃจ๋ ์ข
ํฉ์ ๋ฆฌ๋ทฐ๋ก, ์ถ๋ก ๊ฒฝ๊ณ ์ธก์ ์ฒด๊ณ์ ๋ํ ์ด๋ก ์ ๊ธฐ์ด๋ฅผ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
RBF++ ๋
ผ๋ฌธ์ LLM์ ์ถ๋ก ๊ฒฝ๊ณ์ ์์ ์ ๋ ฌ์ ์๋์ ๋ถ์์ ๊ฐ๋ฅํ๊ฒ ํ์ฌ ๋ณธ ์ฐ๊ตฌ์ ์ด๋ก ์ ๊ธฐ๋ฐ์ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
LLM ์ถ๋ก ๊ฒฝ๊ณ ๋ถ์ ๋ฐฉ๋ฒ๋ก (RBF++)์ด AI ๊ธฐ๋ฐ ๊ณผํ์ฐ๊ตฌ ์ค๋ฌด ์ ์ฉ์ ์ ์ฌ๋ ฅ ํ๊ฐ์ ๊ธฐ์ฌํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
์ํํธ์จ์ด ๊ณตํ ์๋ํ๋ฅผ ์ํ LLM ํ์ฉ์ ๋ค๋ฃจ๋ ์ ์ฌํ ์กฐ์ฌ ๋
ผ๋ฌธ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋ฉํฐ๋ชจ๋ฌ ์ถ๋ก ์ ๋ฉ์ปค๋์ฆ์ ๋ถ์ํ๋ ๋
ผ๋ฌธ๊ณผ ์ถ๋ก ๊ฒฝ๊ณ ์ ๋ํ ๋
ผ๋ฌธ์ ๋น๊ตํจ์ผ๋ก์จ ๋ค์ํ ํ๊ฐ ๊ธฐ์ค์ ์ ์ํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM์ ์๊ธฐ๊ฐ์ ํ๊ณ์ ์ถ๋ก ๊ฒฝ๊ณ์ ๋ํ ์ฒด๊ณ์ ๊ฒํ ๋ฅผ ํตํด, RBF++์ ๊ณ๋์ ๋ถ์์ ์ํธ๋ณด์ํจ.
ํ์ ์ฐ๊ตฌ
LLM ์ ๋ ฌ์ ๋ค์ฐจ์์ ๊ตฌ์กฐยท์์ ์ฑ ํ๊ฐ๊ฐ RBF++์ ์ถ๋ก ๊ฒฝ๊ณ ์ต์ ํ ๋ถ์๊ณผ ์ง์ ์ฐ๊ฒฐ๋ฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
652๋ฒ ๋
ผ๋ฌธ์ ๋ค์ํ reasoning boundary์ ์ต์ ํ์ ๊ณ๋ํ๋ฅผ ์๋ํ์ฌ, 844๋ฒ์ด ์ ์ํ๋ fluid intelligence ํ๊ฐ์ ๊ณ์ธต๋ณ ํ๊ณ ๋ฐ ํ์ฅ ๊ฐ๋ฅ์ฑ์ ์ฆ๋ช
ํฉ๋๋ค.
์์ฉ ์ฌ๋ก
RBF++๊ฐ ๋ถ์ํ LLM ์ถ๋ก ๋ฅ๋ ฅ์ ๊ณผํ์ ์ค์ ์์ฉ(์คํ ์ค๊ณยท๋ฌธํ ๊ฒ์ ๋ฑ)์ ์ค์ ์ฌ๋ก ์ค์ฌ์ผ๋ก ์ดํด๋ณผ ์ ์์ต๋๋ค.
๋ฐ๋ก /๋นํ
LLM์ self-improvement(์๊ธฐ๊ฐ์ ) ๋ฅ๋ ฅ์ด ์ค์ ๋ก ๊ฐ๋ฅํ์ง์ ๋ํด ์คํ์ ์ผ๋ก ๋
ผ์, ์ถ๋ก ๊ฒฝ๊ณ ํ๋ ์์ํฌ์ ๋นํ์ ์
์ฅ ์ ์.
๋ฐ๋ก /๋นํ
LLM์ด ์์ง ๋
ผ๋ฆฌ์ ์ถ๋ก ๋จ๊ณ์์ ์๊ธฐ๊ฒ์ฆ ๋ฐ reasoning ํ๊ณ๊ฐ ์ฌ๊ฐํ๋ค๋ ์ ์ ์ฒด๊ณ์ ์ผ๋ก ๋นํํ๋ฉฐ RBF++์ ํ๊ณ/ํ์์ฑ์ ์ ์ํฉ๋๋ค.