Essence
Transformer ๊ธฐ๋ฐ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ ์ฌ์ ํ์ต๋ ์ปจํ
์คํธ ๊ธธ์ด๋ฅผ ์ด๊ณผํ๋ ์ฅ๋ฌธ(long context)์์ ์ฑ๋ฅ ์ ํ๋ฅผ ๋ณด์ด๋๋ฐ, ๋ณธ ๋
ผ๋ฌธ์ ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ์ ๊ทผ ๋ฐฉ์(์์น ์ธ์ฝ๋ฉ, ์ปจํ
์คํธ ์์ถ, ๊ฒ์ ์ฆ๊ฐ, ์ฃผ์ ํจํด)๊ณผ ํ๊ฐ ๋ฐฉ๋ฒ์ ์ฒด๊ณ์ ์ผ๋ก ๋ถ๋ฅํ ์ข
ํฉ ์๋ฒ ์ด์ด๋ค.
How
ํต์ฌ ๋์ ๊ณผ์ (Challenges)
- OOD ๋ฌธ์ : ์ฌ์ ํ์ต ์ปจํ
์คํธ ์ฐฝ์ ์ด๊ณผํ ์ํ์ค ์ฒ๋ฆฌ ์ ์ธ ๊ฐ์ง ์์ธ (๋ฏธํด๊ฒฐ ํ ํฐ ๊ฑฐ๋ฆฌ, ์ฆ๊ฐ๋ attended ํ ํฐ ์, ์์ ํ ํฐ์ ์์์ ์์น ์ธ์ฝ๋ฉ)์ผ๋ก ์ธํ ์ธ์ฝ ๋ฅ๋ ฅ ์ ํ
- "Lost in the Middle" ํ์: LLM์ด ์
๋ ฅ ์ํ์ค์ ์์๊ณผ ๋ ์ ๋ณด์ ์ง์คํ๊ณ ์ค๊ฐ ๋ด์ฉ์ ๊ฐ๊ณผ
- ์ด์ฐจ ๋ณต์ก๋: Self-attention์ O(nยฒ) ๋ณต์ก๋๋ก ์ธํ ์ฅ๋ฌธ ์ฒ๋ฆฌ์ ์๊ฐ/์์ ์๋น
์ ๊ทผ ๋ฐฉ์ ์์ธ ๋ถ๋ฅ
1. ์์น ์ธ์ฝ๋ฉ (Positional Encoding)
- RoPE ๋ณํ:
- ์์น ์ธ๋ฑ์ค ์กฐ์ (Position Index Adjustment): ํ ํฐ ํ ๋น ์์ , ์ค์ผ์ผ๋ง, ์ฌํ ๋น ์กฐํฉ
- ๊ธฐ๋ณธ ์ฃผํ์ ์กฐ์ (Base Frequency Adjustment): NTK ์ด๋ก ๊ธฐ๋ฐ ฮธแตข ์์ , ์ง์ํญ ๊ธฐ๋ฐ b ๋ณ๊ฒฝ, ฮธแตข ์ง์ ์ค์ผ์ผ๋ง
- ๊ตฌ์กฐ ์์ (Structural Modification): RoPE ๊ณต์ ์์ฒด ์ต์ ํ
- Attention Bias: ์ฟผ๋ฆฌ-ํค ์ ์ฌ๋ ๊ณ์ฐ ์ ์๋ ๊ฑฐ๋ฆฌ ์ ๋ณด ์ถ๊ฐ
```
sim(qโ, kโ) = qโแตkโ + f_bias(m, n)
```
2. ์ปจํ
์คํธ ์์ถ (Context Compression)
- ์ํํธ ์์ถ (Soft Compression): ์์ฝ ํ ํฐ ์ถ๊ฐ ๋ฑ ๊ฐ์ ์ ๋ฐฉ๋ฒ
- ํ๋ ์์ถ (Hard Compression): ํ
์คํธ ์์ฝ, ์ ํ ๋ฑ ์ง์ ์ ๋ฐฉ๋ฒ
3. ๊ฒ์ ์ฆ๊ฐ (Retrieval Augmented)
- ๊ฒ์ ์ธ๋ถํ (Retrieval Granularity): ์ด๋ ๋จ์๋ก ๊ฒ์ํ ๊ฒ์ธ๊ฐ
- ์ ์ฌ๋ ๊ณ์ฐ (Similarity Computation): ๊ด๋ จ์ฑ ํ๊ฐ ๋ฐฉ์
- ์์น ์ธ์ฝ๋ฉ: ๊ฒ์๋ ์ปจํ
์คํธ์ ์์น ์ฒ๋ฆฌ
- ์ฃผ์ ๊ณ์ฐ (Attention Calculation): ๊ฒ์๋ ๋ด์ฉ์ ์ฃผ์ ์ ์ฉ
4. ์ฃผ์ ํจํด (Attention Pattern)
- Sliding Window: ์ด์ ํ ํฐ๋ง ์ฐธ์กฐ
- Parallel Context: ํ๋กฌํํธ์ ์ปจํ
์คํธ ๋ณ๋ ฌ ์ฒ๋ฆฌ
- Sparse Attention: ์ ํ์ ํ ํฐ ์ฐธ์กฐ
ํ๊ฐ ๋ฐฉ๋ฒ๋ก
๋ฐ์ดํฐ: ๊ธธ์ด ์์ค๋ณ(์งง์/์ค๊ฐ/๊ธด), ๋๋ฉ์ธ๋ณ, ์์ ์ ๋ฑ์ผ๋ก ๋ถ๋ฅ
์์
:
- QA: ์ง์์๋ต ๋ฅ๋ ฅ ํ๊ฐ
- Needle-in-a-Haystack: ํฐ ํ
์คํธ์์ ํน์ ์ ๋ณด ์ฐพ๊ธฐ
- ์ฝ๋: ์ฝ๋ ์ดํด ๋ฐ ์์ฑ
- ํต๊ณ: ๋ฌธ์ ํต๊ณ ์ ๋ณด ์ถ์ถ
- In-Context Learning: ์ฅ๋ฌธ few-shot ํ์ต
- ํ
์คํธ ์์ฑ: ์ฅ๋ฌธ ์์ฑ ๋ฅ๋ ฅ
๋ฉํธ๋ฆญ:
- ์๊ณ ๋ฆฌ์ฆ ๊ธฐ๋ฐ: ์ ํ๋, F1 ์ค์ฝ์ด ๋ฑ
- ๋ชจ๋ธ ๊ธฐ๋ฐ: BERTScore ๋ฑ ์๋ฒ ๋ฉ ์ ์ฌ๋
- LLM ๊ธฐ๋ฐ: GPT-4 ๋ฑ์ผ๋ก ํ๊ฐ
Evaluation
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ Transformer ๊ธฐ๋ฐ ์ฅ๋ฌธ ์ฒ๋ฆฌ๋ฅผ ์ํ ์ฒซ ๋ฒ์งธ ํฌ๊ด์ ์ด๊ณ ์ฒด๊ณ์ ์ธ ์๋ฒ ์ด๋ก์, ์๋ก์ด ๋ถ๋ฅ ์ฒด๊ณ์ ํ๊ฐ ํ๋ ์์ํฌ๋ฅผ ํตํด ๋น ๋ฅด๊ฒ ์ฑ์ฅํ๋ ์ด ๋ถ์ผ์ ๋ช
ํํ ๊ตฌ์กฐ๋ฅผ ์ ๊ณตํ๋ค. ํนํ ๋ฐฉ๋ฒ๋ก ๋ฟ ์๋๋ผ ํ๊ฐ ์ธก๋ฉด์ ๋๋ฑํ๊ฒ ๋ค๋ฃฌ ๊ฒ๊ณผ ๋ฏธํด๊ฒฐ ๋ฌธ์ ๋ฅผ ๋ช
์ํ ์ ์ด ์ฐจ๋ณ์ ์ด๋, ๊ธฐ์ด ์ด๋ก (OOD ๋ฑ)๊ณผ ์ค์ ๋ฐฉ๋ฒ๋ค ๊ฐ์ ๋ ๋ช
ํํ ์ธ๊ณผ ์ฐ๊ฒฐ์ด ์ด๋ฃจ์ด์ง๋ค๋ฉด ๋์ฑ ํต์ฐฐ๋ ฅ ์๋ ๊ฐ์ด๋๊ฐ ๋ ๊ฒ์ด๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
์ฅ๋ฌธ๋งฅ ์ธ์ด๋ชจ๋ธ์ ๊ธฐ๋ฐ์ด ๋๋ ํธ๋์คํฌ๋จธ ์ํคํ
์ฒ ๋ฐ ์ดํ
์
๋ฉ์ปค๋์ฆ์ ๋ค๋ฃจ๋ ๊ธฐ์ด ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
์ฅ๋ฌธ ์ปจํ
์คํธ ์ฒ๋ฆฌ๋ฅผ ์ํ ๋ค๋ฅธ ์ํคํ
์ฒ์ ์ ๊ทผ๋ฒ์ ์ ์ํ๋ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
์ฅ๋ฌธ ์ฒ๋ฆฌ๋ฅผ ์ํ ๊ฒ์ ์ฆ๊ฐ ๋ฐฉ์์ผ๋ก ์ปจํ
์คํธ ํ์ฅ ๋ฌธ์ ๋ฅผ ๋ค๋ฅธ ๊ฐ๋์์ ํด๊ฒฐํ๋ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
005๋ ์ฅ๋ฌธ ์ปจํ
์คํธ ์ธ์ด๋ชจ๋ธ์ ๊ด๋ฒ์ํ๊ฒ ์๋ฒ ์ดํ๋ฉฐ, 036๊ณผ ์ฃผ์ ๊ฐ ์ ์ฌํ๋ ๋ถ๋ฅ ๋ฐ ๊ฐ์กฐ์ ์ด ๋ค๋ฅด๋ค.
ํ์ ์ฐ๊ตฌ
์ปจํ
์คํธ ์์ถ์ด๋ ํจ์จ์ ์ฃผ์ ๋ฉ์ปค๋์ฆ์ ํตํด ์ฅ๋ฌธ ์ฒ๋ฆฌ๋ฅผ ํ์ฅํ ์ฐ๊ตฌ์ด๋ค.
ํ์ ์ฐ๊ตฌ
318์ RAG์ ์ปจํ
์คํธ ๊ธธ์ด ์ค์ ์ต์ ํ ๋ฑ์ ๋ค๋ค 036์ ์ ๊ทผ ๋ถ๋ฅ๋ฅผ ์ค์ ์คํ ํ๋ผ๋ฏธํฐ ๊ฒฐ์ ์ธก๋ฉด์ผ๋ก ํ์ฅํ๋ค.
ํ์ ์ฐ๊ตฌ
LLM์ ํ๋๋(๊ณํ์์ฑ) ๋ฐ ๊ธด ์ปจํ
์คํธ ํ์ฉ ๋ฅ๋ ฅ์ ๋ํ ์ต์ ์์ฝ/๋ํฅ์ ์ ๊ณตํ์ฌ, 036์ ๋งฅ๋ฝ ํ์ฅ ํ๊ฐ ํ๋ฆ ๋ฐ ์๋ฒ ์ด์ ์ค์ง์ ์๋ฃ๋ฅผ ๋ณด์ถฉํด์ค.
์์ฉ ์ฌ๋ก
452๋ ์ค์ ๋
ผ๋ฌธ ์์ฝ ๋ฑ์์ ์ฅ๋ฌธ ์ปจํ
์คํธ ๋ชจ๋ธ์ด ์ฑ๋ฅ์ ๋ฐํํ๋๊ฐ์ ๋ํ ํ๊ฐ๋ฅผ ์ ์ํด, 036์ ๊ธฐ์ ์ ์๋ฒ ์ด๋ฅผ ํ์ค์ฑ๊ณผ ์ฐ๊ฒฐํด์ค๋ค.