State-Free Inference of State-Space Models: The Transfer Function Approach
๐ง Audio Overview ์์ฑ
์ ์ : Rom N. Parnichkun, Stefano Massaroli, Alessandro Moro, Jimmy T. H. Smith, Ramin Hasani, Mathias Lechner, Qi An, Christopher Rรฉ, Hajime Asama, Stefano Ermon, Taiji Suzuki, Atsushi Yamashita, Michael Poli | ๋ ์ง : 2024-05-10 📄 PDF
Essence
์ํ๊ณต๊ฐ๋ชจ๋ธ(State-Space Model, SSM)์ ์ ๋ฌํจ์(Transfer Function) ํํ์ผ๋ก ์ฌ์ค๊ณํ์ฌ, ์ํ ํฌ๊ธฐ์ ์ฆ๊ฐ์๋ ๋ถ๊ตฌํ๊ณ ๋ฉ๋ชจ๋ฆฌ์ ๊ณ์ฐ ๋น์ฉ์ด ์ฆ๊ฐํ์ง ์๋ ์ํ-์์ (state-free) ๋ณ๋ ฌ ์ถ๋ก ์๊ณ ๋ฆฌ์ฆ์ ์ ์ํ๋ค. FFT(Fast Fourier Transform)๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ ์ด ์ ๊ทผ๋ฒ์ ๊ธฐ์กด S4/S5 ๋๋น 35% ๋ ๋น ๋ฅธ ํ์ต ์๋๋ฅผ ๋ฌ์ฑํ๋ค.
Motivation
Known : ์ ํ ์๊ฐ๋ถ๋ณ(LTI) SSM์ ๋ณ๋ ฌ ์ค์บ(parallel scan) ๋๋ FFT๋ฅผ ํตํด ํจ์จ์ ์ธ ์ํ์ค ๋ณ๋ ฌํ๊ฐ ๊ฐ๋ฅํ๋ฉฐ, ์์ ์๊ฐ ์๋ํ๊ท ์ถ๋ก ์ ์ง์ํ๋ค.
Gap : ๊ธฐ์กด SSM๋ค(S4, S5, LRU, Mamba)์ ๋ค์๊ณผ ๊ฐ์ ๋ฌธ์ ์ ์ ๊ฐ์ง๋ค:
๋๊ฐ(diagonal) ๋ชจ๋ SSM์ ํํ๋ ฅ์ด ์ ํ๋จ
๋ณ๋ ฌ ์ค์บ์ ์ํ-์น๋ฒ์ (state-multiplicative) ๋ฉ๋ชจ๋ฆฌ ๋ณต์ก๋ O(โn)๋ฅผ ๊ฐ์ง (โ: ์ํ์ค ๊ธธ์ด, n: ์ํ ํฌ๊ธฐ)
S4/S4D์ Cauchy/Vandermonde ํ๋ ฌ ์๊ณ ๋ฆฌ์ฆ์ O((โ+n)logยฒ(โ+n))๋ก ๋ณ๋ชฉ(FFT๋ O(โlog โ))
์ํ ํฌ๊ธฐ๊ฐ ํด์๋ก ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ด ๊ธ์ฆ
Why : ์ํ ํฌ๊ธฐ ์ฆ๊ฐ ์ ๋ฉ๋ชจ๋ฆฌ ๋น์ฉ์ด ์ ํ์ ์ผ๋ก ์ฆ๊ฐํ์ง ์์ผ๋ฉด์๋, ์์ ํ ํํ๋ ฅ(dense ํ๋ ฌ ํฌํจ)์ ์ ์งํ๊ณ ์ต์ ํ๋ FFT ์๊ณ ๋ฆฌ์ฆ๋ง ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ์ด ํ์.
Approach : ์ํ๊ณต๊ฐ๋ชจ๋ธ์ ์ ๋ฆฌ ์ ๋ฌํจ์(Rational Transfer Function, RTF) ํํ H(z) = hโ + (bโzโปยน + ... + bโzโปโฟ)/(1 + aโzโปยน + ... + aโzโปโฟ)๋ก ์ง์ ๋งค๊ฐ๋ณ์ํํ๊ณ , ๋ถ์/๋ถ๋ชจ ๊ณ์(a, b)๋ฅผ ์ํ์ค ๊ธธ์ด๋ก ํจ๋ฉํ ํ FFT๋ฅผ ์ด์ฉํ์ฌ ์ํ์ค ์๋ต ํํฐ๋ฅผ ๊ณ์ฐ.
Achievement
๋ฉ๋ชจ๋ฆฌ ์๋น ์ธก๋ฉด์์ S5(์ค์บ ๊ธฐ๋ฐ)๋ ์ํ ํฌ๊ธฐ์ ๋ฐ๋ผ ๋ฉ๋ชจ๋ฆฌ๊ฐ ๊ธ์ฆํ์ง๋ง, RTF๋ ์ ํ์ ์ผ๋ก ์ฆ๊ฐ
์ํ-์์ ๋ณต์ก๋ ๋ฌ์ฑ :
๊ณต๊ฐ ๋ณต์ก๋: O(โ) (์ํ ๋
๋ฆฝ์ )
์๊ฐ ๋ณต์ก๋: O(โlog โ) (FFT ๊ธฐํ)
๊ธฐ์กด S4๋ O(โ+n), S5๋ O(โn)
์์ ํ ํํ๋ ฅ ๋ณด์กด :
๋๊ฐ ํ๋ ฌ ์ ์ฝ ์์ด ์์์ ๋ฐ์ง(dense) ์ํ ์ ์ด ํ๋ ฌ A์ ๋์ ๊ฐ๋ฅ
์ ํ ์๋ถ๋ณ ์์คํ
์ ์์ ํ ํจ์ ๊ณต๊ฐ ํฌ๊ด
์ค์ฆ ์ฑ๋ฅ :
Long Range Arena (LRA) ๋ฒค์น๋งํฌ์์ S4 ๋๋น ํ๊ท 35% ํ์ต ์๋ ๊ฐ์
์ดํ
์
-์์ ๋ชจ๋ธ ์ค ์ต๊ณ ์์ค ์ ํ๋ ๋ฌ์ฑ
WikiText103 ์ธ์ด๋ชจ๋ธ๋ง์์ Hyena ํํฐ ๊ธฐ์ค์ ๋๋น ๊ฐ์ ๋ ๋นํน๋(perplexity)
How
์ํ-์์ ๋ณ๋ ฌ ์ถ๋ก ์๊ณ ๋ฆฌ์ฆ: (a) RTF ํํ, (b) ์๊ณ ๋ฆฌ์ฆ ํ๋ฆ๋(rFFTโํจ๋ฉโํฉ์ฑ๊ณฑโirFFT), (c) ๋จ์ผ ์คํ
์ถ๋ก ์ฉ ์ฌ๊ท ํํ
์ ๋ฌํจ์ ํํ์ ์ขํ ๋ถ๋ณ์ฑ(Coordinate Invariance) :
์ํ๊ณต๊ฐ ํํ (A, B, C, hโ)์ ์ ์ฌ๋ณํ์ผ๋ก ๋ฌดํํ ๋ง์ผ๋, ์ ๋ฌํจ์ H(z)๋ ๊ณ ์ ํ๋ฏ๋ก ๋งค๊ฐ๋ณ์ํ ์์ ์ฑ ์ฆ๊ฐ
๋ณ๋ ฌ ์ถ๋ก ์๊ณ ๋ฆฌ์ฆ :
๋ถ์ ๊ณ์ b์ ๋ถ๋ชจ ๊ณ์ a๋ฅผ ์ํ์ค ๊ธธ์ด โ๋ก ํจ๋ฉ
์ค์-FFT (rFFT)๋ฅผ ์ด์ฉํด ์ฃผํ์ ์์ญ์ผ๋ก ๋ณํ
์ฃผํ์ ์์ญ์์ ์์๋ณ ๊ณฑ์
(โ) ์ํ
์ญFFT (irFFT)๋ก ์ํ์ค ์๋ต ํํฐ h = [hโ, hโ, ..., hโโโ] ๋ณต์
์
๋ ฅ u์ ํํฐ h๋ฅผ ํฉ์ฑ๊ณฑ (convolution): y = h โ u
์ฌ๊ท ํํ(Recurrent Form) :
์๋ํ๊ท ์์ฑ ์์๋ companion matrix ํํ์ ์ฌ๊ท์ ์ฌ์ฉ์ผ๋ก O(nยฒ) ๋จ์ผ ์คํ
๊ณ์ฐ ์ ์ง
๋ถ๋ชจ ๊ณ์ a๋ก๋ถํฐ ํน์ฑ ๋คํญ์์ ๊ทผ(pole)์ด ๋จ์์ ๋ด๋ถ์ ์๋๋ก ์ ์ฝํ์ฌ BIBO ์์ ์ฑ ๋ณด์ฅ
Originality
์ ๋ฌํจ์ ๊ธฐ๋ฐ SSM ๋งค๊ฐ๋ณ์ํ : ๊ธฐ์กด์ ์ํ๊ณต๊ฐ ์ง์ ๋งค๊ฐ๋ณ์ํ(S4, S5) ๋๋ ๊ตฌ์กฐํ ํ๋ ฌ(Structured matrix) ๋์ ์ ๋ฆฌ ์ ๋ฌํจ์๋ฅผ ํ์ต ํ๋ผ๋ฏธํฐ๋ก ์ฌ์ฉ โ ์ด๋ก ์ ์ผ๋ก ์์ ํ ํํ
์์ FFT ๊ธฐ๋ฐ ์ถ๋ก : ๋ณต์กํ Cauchy/Vandermonde ์๊ณ ๋ฆฌ์ฆ ์ ๊ฑฐ, ์ฐ์
ํ์ค FFT ๋ผ์ด๋ธ๋ฌ๋ฆฌ ํ์ฉ์ผ๋ก ํ๋ซํผ ์ต์ ํ ์ฉ์ด
์ํ-์์ ์ฑ์ ํ์์ ์ฆ๋ช
: ๋ฉ๋ชจ๋ฆฌ/์๊ฐ ๋ณต์ก๋๊ฐ ์ํ ํฌ๊ธฐ n๊ณผ ๋ฌด๊ดํจ์ ์ด๋ก ๋ฐ ์คํ์ผ๋ก ์
์ฆ
์ฌ๊ท ํํ์์ ์ด์ค์ฑ : ํ๋ จ ์ ๋ณ๋ ฌ ํฉ์ฑ๊ณฑ ๋ชจ๋, ์ถ๋ก ์ ํจ์จ์ ์ฌ๊ท ๋ชจ๋๋ฅผ ์์ ๋กญ๊ฒ ์ ํ ๊ฐ๋ฅํ ์ค๊ณ
Limitation & Further Study
์์น ์์ ์ฑ : FFT์ ๋ถ๋์์์ ์ค์ฐจ ์ถ์ ์ด ๊ธด ์ํ์ค์์ ๋ฌธ์ ๋ ์ ์์ผ๋ฉฐ, ์์ ์ฑ ๋ถ์ ๋ถ์กฑ
๋น์ ํ์ฑ ๋ฏธ์ง์ : LTI ์์คํ
๋ง ์ง์ํ๋ฏ๋ก ์ํ-์์กด์ ๊ฐ์ค์น(์ํ-์ ์ํ SSM)์ ๊ฒฐํฉ ๋ถ๊ฐ
๋ค์ค ์ฑ๋ ํ์ฅ : ๋ค์ฐจ์ ์์คํ
(MIMO)์ผ๋ก์ ํ์ฅ ๋ฐฉ๋ฒ์ด ๋ช
ํํ์ง ์์ (ํ์ฌ๋ ์ฑ๋๋ณ ๋
๋ฆฝ์ SISO ์ ์ฉ)
์ด๊ธฐ ์ํ ํ์ต : ์ด๊ธฐ ์ํ xโ์ 0์ผ๋ก ๊ณ ์ ํ๋๋ฐ, ํ์ต ๊ฐ๋ฅํ ์ด๊ธฐ ์ํ์ ์ํฅ ๋ฏธํ์
ํ์ ์ฐ๊ตฌ ๋ฐฉํฅ :
๊ณ ์ฐจ ์ ๋ฌํจ์(๋ถ์ ์ฐจ์ > ๋ถ๋ชจ ์ฐจ์) ๋๋ ๋คํญ์ ๊ทผ์ฌ๋ฅผ ํตํ ๋น์ ํ ์ฑ๋ถ ํตํฉ
ํผํฉ ์ ๋ฐ๋(mixed-precision) ๊ณ์ฐ์ผ๋ก ์์น ์์ ์ฑ ๊ฐํ
๊ณ์ธต์ SSM ์ํคํ
์ฒ์์ ๊ฒฐํฉ
Evaluation
Novelty: 4.5/5 Technical Soundness: 4.5/5 Significance: 4/5 Clarity: 4/5 Overall: 4.25/5
์ดํ : ์ด ๋
ผ๋ฌธ์ SSM์ ์ ๋ฌํจ์ ํํ์ ํตํด ์ํ ํฌ๊ธฐ์ ๋ฌด๊ดํ O(โ) ๋ฉ๋ชจ๋ฆฌ ์ถ๋ก ์ ๋ฌ์ฑํ๋ ์ฐ์ํ ์ด๋ก ์ ๊ธฐ์ฌ์ 35% ํ์ต ์๋ ๊ฐ์ ์ด๋ผ๋ ์ค์ง์ ์ด๋์ ์ ๊ณตํ๋ค. ๋ค๋ง ์์น ์์ ์ฑ ๋ถ์ ๋ถ์กฑ, ๋น์ ํ์ฑ ํ์ฅ์ ์ ํ, MIMO ์์คํ
์ง์ ๋ฏธํก ๋ฑ์ด ์ค๋ฌด ์ ์ฉ ๋ฒ์๋ฅผ ๋ค์ ์ขํ๋ค. ์ ํ ์ํ์ค ๋ชจ๋ธ๋ง ๋ถ์ผ์์ ์ค์ํ ์ง์ ์ด๋, ์ต๊ทผ ํ์ด๋ธ๋ฆฌ๋ ์ํคํ
์ฒ(์: Hyena+Mamba ๊ณ์ด) ๋๋น ์๋์ ์์น ์ฌํ๊ฐ๊ฐ ํ์ํ๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ ๊ธฐ๋ฐ ์ฐ๊ตฌ
Neural-POD ๋
ผ๋ฌธ์ ์ ๊ฒฝ ์ฐ์ฐ์ ๊ธฐ๋ฐ์ ํจ์จ์ ์ฐ์ฐ์ ๊ทผ์ฌ์ SSM ํด์์ ๊ด๋ จ๋ ํ๋ ์์ํฌ๋ฅผ ์ ๊ณตํด ์ํ-์์ ์ถ๋ก ์ ์ด๋ก ์ ๊ธฐ๋ฐ์ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
์ํ๊ณต๊ฐ ๋ชจ๋ธ ์ด๋ก ์ ์ฌํ๋ ํด์์ ์ ๊ณตํ์ฌ, Pairformer ๋ฐ SSM ๊ธฐ๋ฐ ๋ถ์๋์ญํ ์์ฑ ํ๋ ์์ํฌ์ ์ด๋ก ์ ์ดํด๋ฅผ ๋์์ค๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
Scaling Deep Learning for Materials Discovery ๋
ผ๋ฌธ์ state-space model type์ ๊ณ์ฐ ํจ์จ ๋ฌธ์ ๊ทน๋ณต์ ์ํ ๋ค์ํ ์ค์ผ์ผ๋ง ๊ธฐ๋ฒ์ ์ ์ํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋ ๋ค ์ธ์ด ๋๋ ํํ์ ์ ์ด์ ๋ณ๋ ฌ ์ฒ๋ฆฌ, ํ๋ผ๋ฏธํฐ ํจ์จ์ฑ์ ์ง์คํ์ง๋ง ์ธ๋ถ ๋ฉ์ปค๋์ฆ์ด ๋ค๋ฆ
๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋ฐ์ดํฐ ๊ธฐ๋ฐ ๊ธฐ๊ณํ์ต ๊ธฐ๋ฐ ์ํธ์์ฉ ํผํ
์
๊ตฌ์ถ ๋
ผ๋ฌธ์ ๊ณ ์ฐจ์ ๋ฐ ๋๊ท๋ชจ ์ฐ์ฐ์ ํจ์จ์ ๋ณ๋ ฌํ ๋ฌธ์ ํด๊ฒฐ ๊ด์ ์์ ๋์์ ์ ๊ทผ์ ์ ์ํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋ค์๊ณ ์งํ ๋ฐฉ์ ์์ ์๊ฐ ์งํ๋ฅผ ํจ์จ์ ์ผ๋ก ํ์ตํ๋ ์๋ก์ด ์ ๊ฒฝ ์ฐ์ฐ์ ๋ชจ๋ธ๋ก, ์ํ ๊ณต๊ฐ ์ถ๋ก ๊ณผ ์ ์ฌ ๋ฌธ์ ๋ฅผ ๋ค๋ฃฌ๋ค.
ํ์ ์ฐ๊ตฌ
Reward-Guided Iterative Refinement in Diffusion Models at Test Time ๋
ผ๋ฌธ์ state-space approach์ฒ๋ผ ๋ณ๋ ฌ ์ถ๋ก ์๊ณ ๋ฆฌ์ฆ์ ํจ์จ ํฅ์ ๋ฐ ์ฑ๋ฅ ๊ฐ์ ์ ๋ชฉํ๋ก ํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
3122์ GMT๋ ๋ค์ํ ๋ง์ดํฌ๋ก ๊ตฌ์กฐ ์๋ฎฌ๋ ์ด์
์์ ์ํ-๊ณต๊ฐ ๋ฐฉ์์ ํจ์จ์ ํด๋ฒ๊ณผ ์ฑ๋ฅ ํ์ฅ์ ๋ค๋ฃจ์ด, 772์์ ์ ์ํ ๋ณ๋ ฌํยทFFT ๊ธฐ๋ฒ์ ์ค์ ์์ฉ์ ๋ณด์ฌ์ค๋๋ค.
์์ฉ ์ฌ๋ก
์ ๊ฒฝ ์ฐ์ฐ์ ๋ฐ SSM ๊ด๋ จ ๊ธฐ๋ฒ์ ๊ณผํ์ PDE ํ์ต ๋ฐ ๋ค์ํ ๋ฌผ๋ฆฌ ์์คํ
์์ ์ง์ ์ ์ผ๋ก ์ ์ฉํ๋ ๋
ผ๋ฌธ์
๋๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
๋์ ์ฒญ์ค
์ผ๋ฐ์ธ
๋ํ์ยท๋ํ์์
์ ๋ฌธ๊ฐ
ํค
์น๊ทผํ
ํ์ ์
ํ๊ธฐ์ฐฌ
์ฃผ์์ (์ ํ)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์
๋ซ๊ธฐ
์์ฑ
Developed by Jehyun Lee, KIST AIX Strategy Department | jehyun.lee@gmail.com