Essence
๊ทธ๋ฆผ 2: EXSEARCH์ Expectation-Maximization ํ๋ก์ธ์ค ๊ฐ์. E-step์์๋ ํ์ ๊ถค์ ์ ์ํ๋งํ๊ณ ๊ฐ์ค์น๋ฅผ ํ ๋นํ๋ฉฐ, M-step์์๋ ์ฌ๊ฐ์ค์น ์์คํจ์๋ก LLM์ ํ์ต์ํจ๋ค.
๋ณธ ๋
ผ๋ฌธ์ ๋๊ท๋ชจ ์ธ์ด๋ชจ๋ธ(LLM)์ ์ ๋ณด ๊ฒ์ ์์ด์ ํธ๋ก ์๋ ๊ฐ์ ํ๋ ์๊ธฐ-์ธ์ผํฐ๋ธํ ๊ธฐ๋ฐ ํ์ ํ๋ ์์ํฌ(EXSEARCH)๋ฅผ ์ ์ํ๋ค. ์ผ๋ฐํ EM ์๊ณ ๋ฆฌ์ฆ์ ํตํด ๊ฒ์ ๊ถค์ ์ ์ ์ฌ๋ณ์๋ก ์ทจ๊ธํ๊ณ , LLM์ด ์์ฑํ ๋ฐ์ดํฐ๋ก๋ถํฐ ๋ฐ๋ณต์ ์ผ๋ก ํ์ตํ๋ ์๊ธฐ ๋ฃจํ๋ฅผ ํ์ฑํ๋ค.
How
ํต์ฌ ๋ฐฉ๋ฒ๋ก :
- ๊ฒ์ ๊ถค์ ๋ชจ๋ธ๋ง: ๊ฐ ๋จ๊ณ์์ ์ฌ๊ณ (thinking: ์ฟผ๋ฆฌ ์์ฑ) โ ๊ฒ์(search: ์ธ๋ถ ๋ฆฌํธ๋ฆฌ๋ฒ ํธ์ถ) โ ๊ธฐ๋ก(recording: ์ธ๋ถ ์ฆ๊ฑฐ ์ถ์ถ)์ 3๊ฐ์ง ์ก์
์ ๋ฐ๋ณต ์ํ
$$p(z | x; \theta) = \prod_{i=1}^{|z|} p(x_i | x, z_{
- E-step (๊ถค์ ํ์): ํ์ฌ LLM(ฮธ_t)์ด ์์ฑํ ํ๋ณด ๊ถค์ z์ ๋ํด ์ค์๋ ๊ฐ์ค์น ํ ๋น
$$w(z) \propto p(y | x, z; \theta_t)$$
(๊ถค์ ์ด ์ ๋ต์ ์ผ๋ง๋ ์ ์ง์ํ๋์ง ๋ฐ์)
- M-step (์ฌ๊ฐ์ค ํ์ต): ELBO ์ต๋ํ๋ก ๋ชจ๋ธ ์
๋ฐ์ดํธ
$$\max_\theta \mathbb{E}_{z \sim p(z|x;\theta_t)} [w(z) \log p(z|x;\theta) + w(z) \log p(y|x,z;\theta)]$$
์ฌ๊ธฐ์ ์ฒซ ํญ์ ๊ฒ์ ํ์ต(L_R), ๋ ๋ฒ์งธ ํญ์ ๋ต๋ณ ์์ฑ ํ์ต(L_A)์ ๋ด๋น
- ์๊ธฐ-์ธ์ผํฐ๋ธ ๋ฃจํ: E-step๊ณผ M-step์ ๋ฐ๋ณต ์ํํ์ฌ LLM์ด ์์ ์ ์์ฑ ๋ฐ์ดํฐ๋ก๋ถํฐ ์ ์ง์ ์ผ๋ก ํ์ต
Evaluation
์ดํ: EXSEARCH๋ LLM ๊ธฐ๋ฐ ์ ๋ณด ๊ฒ์ ์์ด์ ํธ๋ฅผ ์๊ธฐ-์ธ์ผํฐ๋ธํ๋ ์๊ธฐ ๊ฐ์ ๋ฃจํ๋ก ํ์ตํ๋ ์ด๋ก ์ ์ผ๋ก ๊ฒฌ๊ณ ํ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ฉฐ, ์ง์ ์ง์ฝ์ ์์
์์ ์ผ๊ด๋ ์ฑ๋ฅ ํฅ์์ ๋ณด์ฌ์ค๋ค. ๋ค๋ง ๊ณ์ฐ ํจ์จ์ฑ ๊ฐ์ ๊ณผ ๋ ๊ด๋ฒ์ํ ์์
์์ญ ๊ฒ์ฆ์ด ์ด๋ฃจ์ด์ง๋ค๋ฉด ๋ ๊ฐ๋ ฅํ ๊ธฐ์ฌ๊ฐ ๋ ์ ์๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
LLM์ ์๊ธฐ๊ฐ์ ๊ณผ self-improvement ๊ตฌ์กฐ์ ๋ํ ์ด๋ก ์ ๋ถ์์ ๋ฐํ์ผ๋ก, 447๋ฒ ๋
ผ๋ฌธ์ ๋ฐ๋ณต์ ๊ฐํํ์ต ๊ตฌ์กฐ๋ฅผ ๋ท๋ฐ์นจํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
655๋ฒ์ ReAct ๋ฐฉ์์ LLM์ ์ถ๋ก ๊ณผ์ ์ ํ๋(๊ฒ์ ๋ฑ)์ ํตํฉํ์ฌ, 447๋ฒ ExSearch ํ๋ ์์ํฌ์ ๊ทผ๊ฐ์ด ๋๋ ๊ฐ๋
์
๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
LLM ๊ธฐ๋ฐ ๊ฒ์ ๋ฐ RL ์ถ๋ก ๋ชจ๋ธ ์ฑ๋ฅ ํฅ์์ ์ํ ํ์-๊ฐํํ์ต ๊ฒฐํฉ์ ์ด๋ก ์ ๊ทผ๊ฑฐ๋ฅผ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
447๋ฒ ๋
ผ๋ฌธ์ LLM์ ์๊ธฐ ์ ๋ ๊ฐํํ์ต ๋ฉ์ปค๋์ฆ์ ๋ค๋ฃจ๋ฉฐ, 683๋ฒ์ด ์ ์ํ๋ ๋ณด์๋ชจ๋ธ ๊ธฐ๋ฐ ์ถ๋ก ํฅ์ ์ ๋ต์ ์ด๋ก ์ ๊ธฐ์ด๋ฅผ ์ ๊ณตํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
447 ๋
ผ๋ฌธ์ LLM์ด self-incentivization ๋ฐ iterative ์๊ธฐ ๊ฐํํ์ต์ ํตํด ์๊ธฐ ๊ฐ์ ์ ๋ฌ์ฑํ๋ ์๋ก์ด ๋ฐฉ์์ ์ ์ํ์ฌ 314์ PIT ๋ฐฉ์๊ณผ ๋๋น๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
285๋ฒ์ LLM์ ์๋ ์คํ์๋๋ ์ฐ๊ตฌ์ ์๊ธฐ ๊ฐ์ ์ ์ํ ํด๋ก์ฆ๋ ๋ฃจํ ํ๋ ์์ํฌ๋ก, ์๊ธฐ ์ธ์ผํฐ๋ธํ์ ๋ฐ๋ณต ์๊ฐํ์ต ๊ตฌ์กฐ๊ฐ ์ ์ฌํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
659 ๋
ผ๋ฌธ์ 447์ ์ ๋ณด ๊ฒ์ ์์ด์ ํธ ์ฑ๋ฅ์ ์ค์ง์ RAG ํ๋ ์์ํฌ์ ์ ์ฉํ๋ ๋ฐฉ์์ผ๋ก ํ์ฅํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
447์ ์๊ธฐ ์ธ์ผํฐ๋ธ๋ฅผ ํตํ LLM ์๊ธฐ๊ฐ์ ๋ฐฉ์์ผ๋ก, 470์ ์๊ธฐ ์ผ๊ด์ฑ๊ณผ ์ ๋ขฐ๋ ์ถ๋ก ๊ธฐ๋ฐ ์๊ธฐ๊ฐ์ ์คํ์ ํ์ ๋ฐ์ ์
๋๋ค.
ํ์ ์ฐ๊ตฌ
447์ ์๊ธฐ ์ธ์ผํฐ๋ธ ๊ตฌ์กฐ๋ฅผ ํตํ LLM ์๊ธฐ๊ฐ์ ๋ฐฉ์์ ์ ์ํ์ฌ, 746์ ์๊ธฐ ์ ์ ์์ด๋์ด๋ฅผ ๋ฐ์ ์ํต๋๋ค.
ํ์ ์ฐ๊ตฌ
447๋ฒ ๋
ผ๋ฌธ์ LLM์ ๋ฐ๋ณต์ ์๊ธฐ ์ธ์ผํฐ๋ธ ํน์ฑ์ ๋
ผ์ํ๋ฉฐ, 748๋ฒ์ ์์ฌ ๋ ์ด๋ธ ์ ์ ์์์ LLM ํ์ฉ ๋ฐ์ ์ ์์ฉ๋ ์ ์๋ค.
ํ์ ์ฐ๊ตฌ
LLM์ ์ ๋ต์ ํด ์ฌ์ฉ์ RL ๊ด์ ์์ ํ์ตํ๋ ๋
ผ๋ฌธ์ผ๋ก, ๋ฐ๋ณต์ ์๊ธฐ๊ฐ์ ๊ณผ ํด ์ต์ ํ ์ฐ๊ณ๋ฒ์ ๋ค๋ฃฌ๋ค.
ํ์ ์ฐ๊ตฌ
740๋ฒ ๋
ผ๋ฌธ์ ์น ๊ธฐ๋ฐ ์ ๋ณดํ์๊ณผ ์ถ๋ก ์ ์ํ LLM ํ์ต ๋ฐฉ๋ฒ์ ์ ์ํด 447๋ฒ์ ํ์์ Reasoning ์์ด์ ํธ ๊ฐ๋
์ ํ์ฅํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
์๊ธฐ ์ธ์ผํฐ๋ธํ ๊ธฐ๋ฐ ๊ฒ์ ํ์์ด RL ๊ธฐ๋ฐ LLM ์ถ๋ก ์ต์ ํ๋ก ํ์ฅ๋๋ ์ค์ ์ฌ๋ก๋ก ํ๊ฐ๋ฉ๋๋ค.