RBF++: Quantifying and optimizing reasoning boundaries across measurable and unmeasurable capabilities for chain-of-thought reasoning

์ €์ž: Qiguang Chen, Libo Qin, Jinhao Liu, Yue Liao, Jiaqi Wang, Jingxuan Zhou, Wanxiang Che | ๋‚ ์งœ: 2025 | DOI: arXiv:2505.13307 📄 PDF


Essence

Figure 1

๊ทธ๋ฆผ 1: ์ œ์•ˆ๋œ ๊ฐœ๋… ๊ฐœ์š” - (a) ์ถ”๋ก  ๊ฒฝ๊ณ„(RB), (b) ๊ณ„์ธก ๊ฐ€๋Šฅํ•œ ์‹œ๋‚˜๋ฆฌ์˜ค์—์„œ ์ƒํ•œ์„ ์ •๋Ÿ‰ํ™”ํ•˜๋Š” ๊ฒฐํ•ฉ๋ฒ•์น™, (c) ์ƒ์ˆ˜ ๊ฐ€์ • ๋ฐ (d) ๊ณ„์ธก ๋ถˆ๊ฐ€๋Šฅํ•œ ๊ฒฝ๊ณ„๋ฅผ ์œ„ํ•œ ๊ฒฝ๊ณ„ ๋ถ„ํ•  ๋ฉ”์ปค๋‹ˆ์ฆ˜, (e) ์ตœ์ ํ™”๋ฅผ ์œ„ํ•œ RB ๋ถ„๋ฅ˜

๋ณธ ๋…ผ๋ฌธ์€ ์ถ”๋ก  ๊ฒฝ๊ณ„ ํ”„๋ ˆ์ž„์›Œํฌ++(RBF++)๋ฅผ ์ œ์•ˆํ•˜์—ฌ ๋Œ€ํ˜• ์–ธ์–ด ๋ชจ๋ธ(LLM)์˜ ์ฒด์ธ-์˜ค๋ธŒ-์”ฝํฌ(CoT) ์ถ”๋ก  ๋Šฅ๋ ฅ์˜ ํ•œ๊ณ„๋ฅผ ์ •๋Ÿ‰ํ™”ํ•˜๊ณ  ์ตœ์ ํ™”ํ•˜๋Š” ๋ฐฉ๋ฒ•๋ก ์„ ์ œ์‹œํ•œ๋‹ค. ๊ณ„์ธก ๊ฐ€๋Šฅํ•œ ๋Šฅ๋ ฅ๊ณผ ๊ณ„์ธก ๋ถˆ๊ฐ€๋Šฅํ•œ ๋Šฅ๋ ฅ(๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ง€๊ฐ ๋“ฑ) ๋ชจ๋‘์— ๋Œ€ํ•ด ์ฒด๊ณ„์ ์œผ๋กœ ์ถ”๋ก  ๊ฒฝ๊ณ„๋ฅผ ๋ถ„์„ํ•˜๊ณ  ์ตœ์ ํ™” ์ „๋žต์„ ๋„์ถœํ•œ๋‹ค.

Motivation

Achievement

Figure 2

๊ทธ๋ฆผ 2: ์ถ”๋ก  ๊ฒฝ๊ณ„์˜ ์กด์žฌ ๊ฒ€์ฆ - BigGSM์—์„œ ์ˆ˜ํ–‰๋œ ํ‰๊ฐ€ ๊ฒฐ๊ณผ

  1. ์ •๋Ÿ‰์  ๊ฒฝ๊ณ„ ๋ถ„์„ ํ‹€: ์ถ”๋ก  ๊ฒฝ๊ณ„๋ฅผ ํ˜•์‹์ ์œผ๋กœ ์ •์˜(์‹ 1)ํ•˜๊ณ , ๊ฐ€์ค‘ ์กฐํ™” ํ‰๊ท  ๊ธฐ๋ฐ˜ ๊ฒฐํ•ฉ๋ฒ•์น™(์‹ 3)์„ ํ†ตํ•ด ๋ณต์žกํ•œ ์ž‘์—…์˜ ์ƒํ•œ์„ ์ •๋Ÿ‰ํ™”
  2. ๊ณ„์ธก ๋ถˆ๊ฐ€๋Šฅ ์˜์—ญ ์ฒ˜๋ฆฌ: ์ƒ์ˆ˜ ๊ฐ€์ •์„ ๋„์ž…ํ•˜์—ฌ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ง€๊ฐ ๋ฐ ๋„๋ฉ”์ธ ์ง€์‹๊ณผ ๊ฐ™์€ ์ง์ ‘ ๊ณ„์ธกํ•  ์ˆ˜ ์—†๋Š” ๋Šฅ๋ ฅ์˜ ๊ฒฝ๊ณ„๋ฅผ ์ถ”์ • ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•จ
  3. ๊ด‘๋ฒ”์œ„ํ•œ ๊ฒ€์ฆ: 38๊ฐœ ๋ชจ๋ธ, 13๊ฐœ CoT ์ž‘์—…, 10๊ฐ€์ง€ CoT ์ „๋žต์— ๊ฑธ์ณ RBF++์˜ ์ผ๋ฐ˜ํ™” ๊ฐ€๋Šฅ์„ฑ ์ž…์ฆ
  4. ์‹ค์šฉ์  ๋ฐฉ๋ฒ•๋ก  ์ œ์‹œ: ์ตœ์†Œ ์ˆ˜์šฉ ๊ฐ€๋Šฅ ์ถ”๋ก  ๊ฒฝ๋กœ(MARP)์™€ MARP++ ํ”„๋กฌํ”„ํŒ… ๋ฐฉ๋ฒ• ์ œ์•ˆ์œผ๋กœ ํ…์ŠคํŠธ ๋ฐ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ถ”๋ก ์—์„œ ์ตœ์†Œ 2% ์ •ํ™•๋„ ํ–ฅ์ƒ ๋‹ฌ์„ฑ
  5. ๊ณ ๊ธ‰ ์ถ”๋ก  ๋ชจ๋ธ ๋ถ„์„: BigGSM++ ๋ฒค์น˜๋งˆํฌ ๋„์ž…์œผ๋กœ DeepSeek-R1 ๊ฐ™์€ ๊ณ ๊ธ‰ ์ถ”๋ก  LLM์˜ ๊ฒฝ๊ณ„ ๋ถ„์„, ๊ฐ•ํ™” ํ•™์Šต์ด ๊ณ„์ธก ๋ถˆ๊ฐ€๋Šฅ ์˜์—ญ์—์„œ 100๋ฐฐ ๊ฐœ์„  ๋‹ฌ์„ฑ ๋ฐœ๊ฒฌ

How

Figure 3

๊ทธ๋ฆผ 3: ํ…์ŠคํŠธ ๋ชจ๋‹ฌ์—์„œ ๋‹ค์–‘ํ•œ ์ž‘์—…์— ๋Œ€ํ•œ RB์˜ ๊ฒฐํ•ฉ๋ฒ•์น™ ๊ฒ€์ฆ

ํ•ต์‹ฌ ๋ฐฉ๋ฒ•๋ก 

$$B^{Acc=K_1}(t|m) = \sup_d \{d | Acc(t|d,m) \leq K_1\}$$

๋ชฉํ‘œ ์ •ํ™•๋„ ์ž„๊ณ„๊ฐ’(Kโ‚)์„ ์ดˆ๊ณผํ•˜๋Š” ์ตœ๋Œ€ ๋‚œ์ด๋„ ์ˆ˜์ค€์œผ๋กœ ์ •์˜

$$B(t_1, t_2, \ldots, t_n) \approx \frac{1}{\sum_{i=1}^{n} \frac{1}{B(t_i)}}$$

๊ฐ€์ค‘ ์กฐํ™” ํ‰๊ท ์„ ์‚ฌ์šฉํ•˜์—ฌ ๋…๋ฆฝ์  ๋Šฅ๋ ฅ์˜ ๊ฒฐํ•ฉ ๊ฒฝ๊ณ„ ์ถ”์ •

๊ณ„์ธก ๊ฐ€๋Šฅํ•œ ์ƒ์œ„ j๊ฐœ ๋ถ€๋ถ„ ๊ฒฝ๊ณ„๋Š” ๊ฐœ๋ณ„์ ์œผ๋กœ ํ‰๊ฐ€ํ•˜๊ณ , j+1๋ฒˆ์งธ๋ถ€ํ„ฐ๋Š” ์ƒ์ˆ˜ Z๋กœ ๋Œ€์ฒด

ํ†ตํ•ฉ ๊ฒฝ๊ณ„ B(p,o,v)๋ฅผ ๊ณ„ํš(p), ์—ฐ์‚ฐ(o), ๋„๋ฉ”์ธ ์ง€์‹(v)์˜ ๋…๋ฆฝ์  ๊ฒฝ๊ณ„๋กœ ๋ถ„ํ•ด ๊ฐ€๋Šฅ

Figure 4

๊ทธ๋ฆผ 4: BigGSM์˜ ํ…์ŠคํŠธ ๋ชจ๋‹ฌ ์‹œ๋‚˜๋ฆฌ์˜ค์—์„œ ๋‹ค์–‘ํ•œ ์ถ”๋ก  ๊ฒฝ๊ณ„์˜ ํŠน์„ฑ ๋ถ„์„

Originality

Limitation & Further Study

Evaluation

์ดํ‰: RBF++๋Š” CoT ์ถ”๋ก ์˜ ๊ฒฝ๊ณ„๋ฅผ ์ •๋Ÿ‰ํ™”ํ•˜๋Š” ์ƒˆ๋กœ์šด ํ”„๋ ˆ์ž„์›Œํฌ๋กœ, ๊ณ„์ธก ๊ฐ€๋Šฅํ•œ ์˜์—ญ๊ณผ ๋ถˆ๊ฐ€๋Šฅํ•œ ์˜์—ญ์„ ๋ชจ๋‘ ๋‹ค๋ฃจ๋ ค๋Š” ์•ผ์‹ฌ์ฐฌ ์‹œ๋„์ด๋‹ค. ๊ด‘๋ฒ”์œ„ํ•œ ์‹ค์ฆ ๊ฒ€์ฆ๊ณผ ์‹ค์šฉ์  ์ตœ์ ํ™” ๋ฐฉ๋ฒ•(MARP++)์„ ์ œ์‹œํ•œ ์ ์ด ๊ฐ•์ ์ด๋‚˜, ์ด๋ก ์  ๊ธฐ์ดˆ(ํŠนํžˆ ์ƒ์ˆ˜ ๊ฐ€์ •)์˜ ์—„๋ฐ€์„ฑ๊ณผ ๋ณดํŽธ์„ฑ์— ๋Œ€ํ•ด ์ถ”๊ฐ€์  ๋…ผ์˜๊ฐ€ ํ•„์š”ํ•˜๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Large Language Models ๋…ผ๋ฌธ์€ ๋Œ€ํ˜• ์–ธ์–ด๋ชจ๋ธ์˜ ๊ตฌ์กฐ์  ํŠน์ง•๊ณผ ์ถ”๋ก  ํ•œ๊ณ„ ๋…ผ์˜๋ฅผ ํฌ๊ด„์ ์œผ๋กœ ๋‹ด์•„, RBF++์˜ ๋ฌธ์ œ ์„ค์ •์— ์ด๋ก ์  ๋งฅ๋ฝ์„ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ์˜ ์ถ”๋ก  ๋Šฅ๋ ฅ๊ณผ ํ•œ๊ณ„์— ๋Œ€ํ•œ ์ •๋Ÿ‰์  ์„œ๋ฒ ์ด๋กœ, RBF++์˜ ํ‰๊ฐ€ ๊ธฐ๋ฒ•์„ ์ด๋ก ์ ์œผ๋กœ ๋’ท๋ฐ›์นจํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๊ธด chain-of-thought ์ถ”๋ก  ๋Šฅ๋ ฅ ํ‰๊ฐ€๋ฅผ ๋‹ค๋ฃจ๋Š” ์ข…ํ•ฉ์  ๋ฆฌ๋ทฐ๋กœ, ์ถ”๋ก  ๊ฒฝ๊ณ„ ์ธก์ • ์ฒด๊ณ„์— ๋Œ€ํ•œ ์ด๋ก ์  ๊ธฐ์ดˆ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
RBF++ ๋…ผ๋ฌธ์€ LLM์˜ ์ถ”๋ก  ๊ฒฝ๊ณ„์™€ ์•ˆ์ „ ์ •๋ ฌ์˜ ์ˆ˜๋Ÿ‰์  ๋ถ„์„์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜์—ฌ ๋ณธ ์—ฐ๊ตฌ์˜ ์ด๋ก ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
LLM ์ถ”๋ก  ๊ฒฝ๊ณ„ ๋ถ„์„ ๋ฐฉ๋ฒ•๋ก (RBF++)์ด AI ๊ธฐ๋ฐ˜ ๊ณผํ•™์—ฐ๊ตฌ ์‹ค๋ฌด ์ ์šฉ์˜ ์ž ์žฌ๋ ฅ ํ‰๊ฐ€์— ๊ธฐ์—ฌํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์†Œํ”„ํŠธ์›จ์–ด ๊ณตํ•™ ์ž๋™ํ™”๋ฅผ ์œ„ํ•œ LLM ํ™œ์šฉ์„ ๋‹ค๋ฃจ๋Š” ์œ ์‚ฌํ•œ ์กฐ์‚ฌ ๋…ผ๋ฌธ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ถ”๋ก ์˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ๋ถ„์„ํ•˜๋Š” ๋…ผ๋ฌธ๊ณผ ์ถ”๋ก  ๊ฒฝ๊ณ„ ์ •๋Ÿ‰ํ™” ๋…ผ๋ฌธ์„ ๋น„๊ตํ•จ์œผ๋กœ์จ ๋‹ค์–‘ํ•œ ํ‰๊ฐ€ ๊ธฐ์ค€์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM์˜ ์ž๊ธฐ๊ฐœ์„  ํ•œ๊ณ„์™€ ์ถ”๋ก  ๊ฒฝ๊ณ„์— ๋Œ€ํ•œ ์ฒด๊ณ„์  ๊ฒ€ํ† ๋ฅผ ํ†ตํ•ด, RBF++์˜ ๊ณ„๋Ÿ‰์  ๋ถ„์„์„ ์ƒํ˜ธ๋ณด์™„ํ•จ.
ํ›„์† ์—ฐ๊ตฌ
LLM ์ •๋ ฌ์˜ ๋‹ค์ฐจ์›์  ๊ตฌ์กฐยท์•ˆ์ „์„ฑ ํ‰๊ฐ€๊ฐ€ RBF++์˜ ์ถ”๋ก  ๊ฒฝ๊ณ„ ์ตœ์ ํ™” ๋ถ„์„๊ณผ ์ง์ ‘ ์—ฐ๊ฒฐ๋ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
652๋ฒˆ ๋…ผ๋ฌธ์€ ๋‹ค์–‘ํ•œ reasoning boundary์˜ ์ตœ์ ํ™”์™€ ๊ณ„๋Ÿ‰ํ™”๋ฅผ ์‹œ๋„ํ•˜์—ฌ, 844๋ฒˆ์ด ์ œ์•ˆํ•˜๋Š” fluid intelligence ํ‰๊ฐ€์˜ ๊ณ„์ธต๋ณ„ ํ•œ๊ณ„ ๋ฐ ํ™•์žฅ ๊ฐ€๋Šฅ์„ฑ์„ ์ฆ๋ช…ํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
RBF++๊ฐ€ ๋ถ„์„ํ•œ LLM ์ถ”๋ก  ๋Šฅ๋ ฅ์˜ ๊ณผํ•™์  ์‹ค์ œ ์‘์šฉ(์‹คํ—˜ ์„ค๊ณ„ยท๋ฌธํ—Œ ๊ฒ€์ƒ‰ ๋“ฑ)์„ ์‹ค์ œ ์‚ฌ๋ก€ ์ค‘์‹ฌ์œผ๋กœ ์‚ดํŽด๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋ฐ˜๋ก /๋น„ํŒ
LLM์˜ self-improvement(์ž๊ธฐ๊ฐœ์„ ) ๋Šฅ๋ ฅ์ด ์‹ค์ œ๋กœ ๊ฐ€๋Šฅํ•œ์ง€์— ๋Œ€ํ•ด ์‹คํ—˜์ ์œผ๋กœ ๋…ผ์˜, ์ถ”๋ก  ๊ฒฝ๊ณ„ ํ”„๋ ˆ์ž„์›Œํฌ์— ๋น„ํŒ์  ์ž…์žฅ ์ œ์‹œ.
๋ฐ˜๋ก /๋น„ํŒ
LLM์ด ์•„์ง ๋…ผ๋ฆฌ์  ์ถ”๋ก  ๋‹จ๊ณ„์—์„œ ์ž๊ธฐ๊ฒ€์ฆ ๋ฐ reasoning ํ•œ๊ณ„๊ฐ€ ์‹ฌ๊ฐํ•˜๋‹ค๋Š” ์ ์„ ์ฒด๊ณ„์ ์œผ๋กœ ๋น„ํŒํ•˜๋ฉฐ RBF++์˜ ํ•œ๊ณ„/ํ•„์š”์„ฑ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •