A survey on transformer context extension: Approaches and evaluation

์ €์ž: Yijun Liu, Jinzheng Yu, Yang Xu, Zhongyang Li, Qingfu Zhu | ๋‚ ์งœ: 2025 | DOI: arXiv:2503.13299v2 📄 PDF


Essence

Transformer ๊ธฐ๋ฐ˜ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์€ ์‚ฌ์ „ ํ•™์Šต๋œ ์ปจํ…์ŠคํŠธ ๊ธธ์ด๋ฅผ ์ดˆ๊ณผํ•˜๋Š” ์žฅ๋ฌธ(long context)์—์„œ ์„ฑ๋Šฅ ์ €ํ•˜๋ฅผ ๋ณด์ด๋Š”๋ฐ, ๋ณธ ๋…ผ๋ฌธ์€ ์ด๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•œ ์ ‘๊ทผ ๋ฐฉ์‹(์œ„์น˜ ์ธ์ฝ”๋”ฉ, ์ปจํ…์ŠคํŠธ ์••์ถ•, ๊ฒ€์ƒ‰ ์ฆ๊ฐ•, ์ฃผ์˜ ํŒจํ„ด)๊ณผ ํ‰๊ฐ€ ๋ฐฉ๋ฒ•์„ ์ฒด๊ณ„์ ์œผ๋กœ ๋ถ„๋ฅ˜ํ•œ ์ข…ํ•ฉ ์„œ๋ฒ ์ด์ด๋‹ค.

Motivation

Achievement

Figure 1: Framework of survey

Figure 1: ์„œ๋ฒ ์ด์˜ ํ”„๋ ˆ์ž„์›Œํฌ. 3๊ฐ€์ง€ ํ•ต์‹ฌ ๋„์ „ ๊ณผ์ œ(์„น์…˜ 2)์™€ 4๊ฐ€์ง€ ์ ‘๊ทผ ๋ฐฉ์‹ ๋ถ„๋ฅ˜(์„น์…˜ 3), ํ‰๊ฐ€ ๊ด€์ (์„น์…˜ 4), ํ–ฅํ›„ ๋ฐฉํ–ฅ(์„น์…˜ 5)

  1. ์ƒˆ๋กœ์šด ๋ถ„๋ฅ˜ ์ฒด๊ณ„: ์žฅ๋ฌธ ์ฒ˜๋ฆฌ ๋ฐฉ๋ฒ•์„ ์œ„์น˜ ์ธ์ฝ”๋”ฉ(Positional Encoding), ์ปจํ…์ŠคํŠธ ์••์ถ•(Context Compression), ๊ฒ€์ƒ‰ ์ฆ๊ฐ•(Retrieval Augmented), ์ฃผ์˜ ํŒจํ„ด(Attention Pattern) 4๊ฐ€์ง€๋กœ ์ฒด๊ณ„ํ™”ํ•˜์—ฌ ๊ธฐ์กด ์ ‘๊ทผ์˜ ์ค‘๋ณต์„ฑ ์ œ๊ฑฐ
  2. ํฌ๊ด„์  ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ: ๋ฐ์ดํ„ฐ(๊ธธ์ด ์ˆ˜์ค€, ๋„๋ฉ”์ธ, ์˜ˆ์ œ ์ˆ˜), ์ž‘์—…(QA, Needle-in-a-Haystack, ์ฝ”๋“œ, ํ†ต๊ณ„, In-Context Learning, ํ…์ŠคํŠธ ์ƒ์„ฑ), ๋ฉ”ํŠธ๋ฆญ(์•Œ๊ณ ๋ฆฌ์ฆ˜ ๊ธฐ๋ฐ˜, ๋ชจ๋ธ ๊ธฐ๋ฐ˜, LLM ๊ธฐ๋ฐ˜) 3๊ฐœ ์ฐจ์›์œผ๋กœ ๊ตฌ์„ฑ
  3. ๋ฏธํ•ด๊ฒฐ ๋ฌธ์ œ ๋ช…์‹œ: ๋ฐฉ๋ฒ• ํ†ตํ•ฉ, "Train Short, Test Long" ํ•™์Šต, ์žฅ๋ฌธ ์ƒ์„ฑ, ์ •๋ณด ํ•„ํ„ฐ๋ง๊ณผ ์ƒ์„ฑ ํšจ๊ณผ ๊ฐ„ trade-off, sparse attention์˜ "Lost-in-the-Middle" ๋ฌธ์ œ ๋“ฑ 5๊ฐ€์ง€ ๋ฏธ๋ž˜ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ ์ œ์‹œ

How

ํ•ต์‹ฌ ๋„์ „ ๊ณผ์ œ (Challenges)

์ ‘๊ทผ ๋ฐฉ์‹ ์ƒ์„ธ ๋ถ„๋ฅ˜

1. ์œ„์น˜ ์ธ์ฝ”๋”ฉ (Positional Encoding)

```

sim(qโ‚˜, kโ‚™) = qโ‚˜แต€kโ‚™ + f_bias(m, n)

```

2. ์ปจํ…์ŠคํŠธ ์••์ถ• (Context Compression)

3. ๊ฒ€์ƒ‰ ์ฆ๊ฐ• (Retrieval Augmented)

4. ์ฃผ์˜ ํŒจํ„ด (Attention Pattern)

ํ‰๊ฐ€ ๋ฐฉ๋ฒ•๋ก 

๋ฐ์ดํ„ฐ: ๊ธธ์ด ์ˆ˜์ค€๋ณ„(์งง์Œ/์ค‘๊ฐ„/๊ธด), ๋„๋ฉ”์ธ๋ณ„, ์˜ˆ์ œ ์ˆ˜ ๋“ฑ์œผ๋กœ ๋ถ„๋ฅ˜

์ž‘์—…:

๋ฉ”ํŠธ๋ฆญ:

Originality

Limitation & Further Study

Evaluation

์ดํ‰: ๋ณธ ๋…ผ๋ฌธ์€ Transformer ๊ธฐ๋ฐ˜ ์žฅ๋ฌธ ์ฒ˜๋ฆฌ๋ฅผ ์œ„ํ•œ ์ฒซ ๋ฒˆ์งธ ํฌ๊ด„์ ์ด๊ณ  ์ฒด๊ณ„์ ์ธ ์„œ๋ฒ ์ด๋กœ์„œ, ์ƒˆ๋กœ์šด ๋ถ„๋ฅ˜ ์ฒด๊ณ„์™€ ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ํ†ตํ•ด ๋น ๋ฅด๊ฒŒ ์„ฑ์žฅํ•˜๋Š” ์ด ๋ถ„์•ผ์— ๋ช…ํ™•ํ•œ ๊ตฌ์กฐ๋ฅผ ์ œ๊ณตํ•œ๋‹ค. ํŠนํžˆ ๋ฐฉ๋ฒ•๋ก ๋ฟ ์•„๋‹ˆ๋ผ ํ‰๊ฐ€ ์ธก๋ฉด์„ ๋™๋“ฑํ•˜๊ฒŒ ๋‹ค๋ฃฌ ๊ฒƒ๊ณผ ๋ฏธํ•ด๊ฒฐ ๋ฌธ์ œ๋ฅผ ๋ช…์‹œํ•œ ์ ์ด ์ฐจ๋ณ„์ ์ด๋‚˜, ๊ธฐ์ดˆ ์ด๋ก (OOD ๋“ฑ)๊ณผ ์‹ค์ œ ๋ฐฉ๋ฒ•๋“ค ๊ฐ„์˜ ๋” ๋ช…ํ™•ํ•œ ์ธ๊ณผ ์—ฐ๊ฒฐ์ด ์ด๋ฃจ์–ด์ง„๋‹ค๋ฉด ๋”์šฑ ํ†ต์ฐฐ๋ ฅ ์žˆ๋Š” ๊ฐ€์ด๋“œ๊ฐ€ ๋  ๊ฒƒ์ด๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
์žฅ๋ฌธ๋งฅ ์–ธ์–ด๋ชจ๋ธ์˜ ๊ธฐ๋ฐ˜์ด ๋˜๋Š” ํŠธ๋žœ์Šคํฌ๋จธ ์•„ํ‚คํ…์ฒ˜ ๋ฐ ์–ดํ…์…˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ๋‹ค๋ฃจ๋Š” ๊ธฐ์ดˆ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์žฅ๋ฌธ ์ปจํ…์ŠคํŠธ ์ฒ˜๋ฆฌ๋ฅผ ์œ„ํ•œ ๋‹ค๋ฅธ ์•„ํ‚คํ…์ฒ˜์  ์ ‘๊ทผ๋ฒ•์„ ์ œ์‹œํ•˜๋Š” ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์žฅ๋ฌธ ์ฒ˜๋ฆฌ๋ฅผ ์œ„ํ•œ ๊ฒ€์ƒ‰ ์ฆ๊ฐ• ๋ฐฉ์‹์œผ๋กœ ์ปจํ…์ŠคํŠธ ํ™•์žฅ ๋ฌธ์ œ๋ฅผ ๋‹ค๋ฅธ ๊ฐ๋„์—์„œ ํ•ด๊ฒฐํ•˜๋Š” ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
005๋Š” ์žฅ๋ฌธ ์ปจํ…์ŠคํŠธ ์–ธ์–ด๋ชจ๋ธ์„ ๊ด‘๋ฒ”์œ„ํ•˜๊ฒŒ ์„œ๋ฒ ์ดํ•˜๋ฉฐ, 036๊ณผ ์ฃผ์ œ๊ฐ€ ์œ ์‚ฌํ•˜๋‚˜ ๋ถ„๋ฅ˜ ๋ฐ ๊ฐ•์กฐ์ ์ด ๋‹ค๋ฅด๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
์ปจํ…์ŠคํŠธ ์••์ถ•์ด๋‚˜ ํšจ์œจ์  ์ฃผ์˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ํ†ตํ•ด ์žฅ๋ฌธ ์ฒ˜๋ฆฌ๋ฅผ ํ™•์žฅํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
318์€ RAG์˜ ์ปจํ…์ŠคํŠธ ๊ธธ์ด ์„ค์ • ์ตœ์ ํ™” ๋“ฑ์„ ๋‹ค๋ค„ 036์˜ ์ ‘๊ทผ ๋ถ„๋ฅ˜๋ฅผ ์‹ค์ œ ์‹คํ—˜ ํŒŒ๋ผ๋ฏธํ„ฐ ๊ฒฐ์ • ์ธก๋ฉด์œผ๋กœ ํ™•์žฅํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
LLM์˜ ํ”Œ๋ž˜๋‹(๊ณ„ํš์ƒ์„ฑ) ๋ฐ ๊ธด ์ปจํ…์ŠคํŠธ ํ™œ์šฉ ๋Šฅ๋ ฅ์— ๋Œ€ํ•œ ์ตœ์‹  ์š”์•ฝ/๋™ํ–ฅ์„ ์ œ๊ณตํ•˜์—ฌ, 036์˜ ๋งฅ๋ฝ ํ™•์žฅ ํ‰๊ฐ€ ํ๋ฆ„ ๋ฐ ์„œ๋ฒ ์ด์— ์‹ค์งˆ์  ์ž๋ฃŒ๋ฅผ ๋ณด์ถฉํ•ด์คŒ.
์‘์šฉ ์‚ฌ๋ก€
452๋Š” ์‹ค์ œ ๋…ผ๋ฌธ ์š”์•ฝ ๋“ฑ์—์„œ ์žฅ๋ฌธ ์ปจํ…์ŠคํŠธ ๋ชจ๋ธ์ด ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•˜๋Š”๊ฐ€์— ๋Œ€ํ•œ ํ‰๊ฐ€๋ฅผ ์ œ์‹œํ•ด, 036์˜ ๊ธฐ์ˆ ์  ์„œ๋ฒ ์ด๋ฅผ ํ˜„์‹ค์„ฑ๊ณผ ์—ฐ๊ฒฐํ•ด์ค€๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •