A comprehensive survey on long context language modeling

์ €์ž: Jiaheng Liu, Dawei Zhu, Zhiqi Bai, Yancheng He, Huanxuan Liao, Haoran Que, Zekun Wang, Chenchen Zhang, Ge Zhang, Jiebin Zhang, Yuanxing Zhang, Zhuo Job Chen, Hangyu Guo, S. Li, Ziqiang Liu, Yong Shan, Yifan Song, Jiayi Tian, Wenhao Wu, Zongqing Zhou | ๋‚ ์งœ: 2025 | URL: https://arxiv.org/abs/2503.17407 📄 PDF


Essence

์žฅ๋ฌธ๋งฅ ์–ธ์–ด๋ชจ๋ธ(LCLM) ๊ตฌ์ถ•, ํ›ˆ๋ จ, ๋ฐฐํฌ, ํ‰๊ฐ€๋ฅผ ์œ„ํ•œ ํฌ๊ด„์  ์กฐ์‚ฌ๋กœ, ๋ฐ์ดํ„ฐ ์ „๋žต๋ถ€ํ„ฐ ์ธํ”„๋ผ, ํ‰๊ฐ€ ํŒจ๋Ÿฌ๋‹ค์ž„, ์‘์šฉ ๋ถ„์•ผ๊นŒ์ง€ ์ฒด๊ณ„์ ์œผ๋กœ ์ •๋ฆฌํ•œ ๋Œ€๊ทœ๋ชจ ์„œ๋ฒ ์ด ๋…ผ๋ฌธ.

Motivation

Achievement

How

Figure 3

Figure 3. Illustration of training pipeline of LCLMs.

Originality

Limitation & Further Study

Evaluation

Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

์ดํ‰: ์žฅ๋ฌธ๋งฅ ์–ธ์–ด๋ชจ๋ธ์˜ ์ „์ฒด ์ƒ๋ช…์ฃผ๊ธฐ๋ฅผ ์ตœ์ดˆ๋กœ ์ฒด๊ณ„์ ์œผ๋กœ ์ •๋ฆฌํ•œ ํ•„์ˆ˜ ์ฐธ๊ณ  ์ž๋ฃŒ๋กœ, ๋ฐ์ดํ„ฐ๋ถ€ํ„ฐ ๋ฐฐํฌ๊นŒ์ง€ ์‹ค๋ฌด์ž์—๊ฒŒ ์œ ์šฉํ•˜๋ฉฐ, ํ‰๊ฐ€ ์‹ ๋ขฐ์„ฑ ๋ฌธ์ œ ์ง€์  ๋“ฑ ๋น„ํŒ์  ํ†ต์ฐฐ๋„ ์ œ๊ณตํ•œ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
452์˜ ์žฅ๋ฌธ๋งฅ๋ชจ๋ธ ๋ฒค์น˜๋งˆํฌ(L-CiteEval)๋Š” 005์˜ long context language modeling์— ๋Œ€ํ•œ ํฌ๊ด„์  ์ด๋ก  ๋ฐ ๋™ํ–ฅ์กฐ์‚ฌ๋ฅผ ์ด๋ก ์  ๊ธฐ๋ฐ˜์œผ๋กœ ์‚ผ๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๋กฑ์ปจํ…์ŠคํŠธ LLM ํ™œ์šฉ๋ฒ•๊ณผ ์†Œ๋ถ„์ž/๊ณ ๋ถ„์ž ์„ค๊ณ„์— ํ•„์š”ํ•œ ์ •๋ณด ์ถ”์ถœยท์š”์•ฝ ์ „๋žต์˜ ๊ธฐ์ดˆ ์ด๋ก ์„ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
005 ๋…ผ๋ฌธ์€ ๋กฑ ์ปจํ…์ŠคํŠธ LLM์˜ ์–ธ์–ด ๋ชจ๋ธ๋ง ๊ธฐ๋ฐ˜ ์ •๋ณด๋ฅผ ์‹ฌ์ธต ๋ถ„์„ํ•˜์—ฌ KGValidator๊ฐ€ ํ™œ์šฉํ•˜๋Š” LLM์˜ ์žฅ๋‹จ์  ์ดํ•ด์— ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
์–ธ์–ด ๋ชจ๋ธ ํ•™์Šต ๋ฐ ํ‰๊ฐ€๋ฅผ ์œ„ํ•œ ๋ฐฉ๋ฒ•๋ก ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•˜๋Š” ์„ ํ–‰ ์—ฐ๊ตฌ์ด๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
์žฅ๋ฌธ๋งฅ ์–ธ์–ด๋ชจ๋ธ์˜ ๊ธฐ๋ฐ˜์ด ๋˜๋Š” ํŠธ๋žœ์Šคํฌ๋จธ ์•„ํ‚คํ…์ฒ˜ ๋ฐ ์–ดํ…์…˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ๋‹ค๋ฃจ๋Š” ๊ธฐ์ดˆ ์—ฐ๊ตฌ์ด๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ์˜ ์ „๋ฐ˜์ ์ธ ๋ฐœ์ „์„ ๋‹ค๋ฃจ๋ฉฐ ์žฅ๋ฌธ๋งฅ ๋ชจ๋ธ์˜ ๊ธฐ์ดˆ๋ฅผ ์ œ๊ณตํ•˜๋Š” ์„œ๋ฒ ์ด์ด๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
005์˜ ์žฅ๋ฌธ ์ปจํ…์ŠคํŠธ LLM ์„œ๋ฒ ์ด๋Š” 316์ฒ˜๋Ÿผ ๋ฐ˜์‘/ํ•ฉ์„ฑ ์˜ˆ์ธก์— ๋Œ€์šฉ๋Ÿ‰ ๋ฌธ๋งฅ ๋ชจ๋ธ์„ ํ™œ์šฉํ•  ๋•Œ์˜ ์ด๋ก ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๊ธด ๋ฌธ๋งฅ ์ฒ˜๋ฆฌ ๋ฐ ๋‰ด์Šค/๊ณผํ•™๋ฌธ์„œ ์ƒ์„ฑ์—์„œ ๋“ฑ์žฅํ•˜๋Š” ๋‹ค์–‘ํ•œ ์–ธ์–ด๋ชจ๋ธ context handling ์ „๋žต๊ณผ ์ตœ์‹  ๋ฐฉํ–ฅ์„ ์—ฐ๊ตฌํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๊ธธ์–ด์ง„ ์ปจํ…์ŠคํŠธ์™€ ๋ณต์žกํ•œ ์‹ค์‹œ๊ฐ„ ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ๋ฅผ ์œ„ํ•œ ์ž์—ฐ์–ด๋ชจ๋ธ ์„ค๊ณ„์— ๊ด€ํ•œ ์ตœ์‹  ์ด๋ก ์ด ๊ฒ€์ถœ๊ธฐ ์ œ์–ด ๋“ฑ AI ์‹คํ—˜ ์ž๋™ํ™” ์ ์šฉ์— ๋„์›€๋œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
825์˜ ๋‹ค์ค‘์—์ด์ „ํŠธ ์‹œ์Šคํ…œ ๊ตฌํ˜„๊ณผ ํ‰๊ฐ€์—๋Š” 005์˜ ๋กฑ ์ปจํ…์ŠคํŠธ LLM ์ด๋ก ์  ๋ฐฐ๊ฒฝ์ด ์ค‘์š”ํ•œ ๊ธฐ๋ฐ˜์ด ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๋กฑ์ปจํ…์ŠคํŠธ LLM์˜ ํ•œ๊ณ„์™€ ํ‰๊ฐ€ ๋ฒค์น˜๋งˆํฌ๋ฅผ ํญ๋„“๊ฒŒ ๋‹ค๋ฃจ์–ด, ๊ฒ€์ƒ‰ ๋ฌธ๋งฅ ๊ธธ์ด ์ตœ์ ํ™” ์—ฐ๊ตฌ์˜ ์ด๋ก  ๋ฐฐ๊ฒฝ์„ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๊ธด ์ปจํ…์ŠคํŠธ ์–ธ์–ด๋ชจ๋ธ ์—ฐ๊ตฌ์™€ ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ์˜ ์—ฐ๊ณ„๋Š” ํ™”ํ•™ ๋ถ„์•ผ์—์„œ LLM ์„ฑ๋Šฅ ํ•œ๊ณ„๋ฅผ ์ง„๋‹จยทํ•ด์„ํ•˜๋Š”๋ฐ ๊ธฐ์ดˆ ์ž๋ฃŒ๊ฐ€ ๋œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
005 ๋…ผ๋ฌธ์€ ์žฅ๋ฌธ ๋งฅ๋ฝ ๋ชจ๋ธ๋ง ์„œ๋ฒ ์ด๋กœ, 354 ๋…ผ๋ฌธ์ด ๋ถ„์„ํ•œ GPU ๋ณ‘๋ ฌํ™” ๋“ฑ์ด ๋Œ€๊ทœ๋ชจ ์žฅ๋ฌธ ์ฒ˜๋ฆฌ๋ฅผ ์œ„ํ•œ ํ•ต์‹ฌ ๊ธฐ์ˆ ์ž„์„ ์ด๋ก ์ ์œผ๋กœ ๋’ท๋ฐ›์นจํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์žฅ๋ฌธ๋งฅ ์ฒ˜๋ฆฌ๋ฅผ ์œ„ํ•œ ์–ธ์–ด๋ชจ๋ธ ์ ‘๊ทผ๋ฒ•์„ ๋‹ค๋ฃจ๋Š” ์œ ์‚ฌํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
821 'Towards a client-centered assessment of llm therapists' ๋…ผ๋ฌธ์€ ์žฅ๋ฌธ๋งฅ ๋Œ€ํ™”/ํ‰๊ฐ€ ํ™˜๊ฒฝ์—์„œ ์‹ค์ œ ์ธ๊ฐ„-์—์ด์ „ํŠธ ์ƒํ˜ธ์ž‘์šฉ ๊ธฐ๋ฐ˜ ํ‰๊ฐ€์˜ ํ•œ๊ณ„๋ฅผ ๋‹ค๋ฃจ์–ด, 005์˜ ์žฅ๋ฌธ๋งฅ ํ‰๊ฐ€ ํŒจ๋Ÿฌ๋‹ค์ž„๊ณผ ์‹ค์ œ ์ ์šฉ์˜ ๊ดด๋ฆฌ๋ฅผ ์งš์–ด์ค๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์‹ค์šฉ์  ๊ทœ๋ชจ์˜ ์˜คํ”ˆ ์–ธ์–ด๋ชจ๋ธ ๊ฐœ๋ฐœ์„ ๋‹ค๋ฃจ๋Š” ์œ ์‚ฌํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์žฅ๋ฌธ๋งฅ ์–ธ์–ด๋ชจ๋ธ๋ง์˜ ํŠน์ • ์ธก๋ฉด์„ ๋‹ค๋ฃจ๋Š” ๊ด€๋ จ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
005๋Š” ์žฅ๋ฌธ ์ปจํ…์ŠคํŠธ ์–ธ์–ด๋ชจ๋ธ์„ ๊ด‘๋ฒ”์œ„ํ•˜๊ฒŒ ์„œ๋ฒ ์ดํ•˜๋ฉฐ, 036๊ณผ ์ฃผ์ œ๊ฐ€ ์œ ์‚ฌํ•˜๋‚˜ ๋ถ„๋ฅ˜ ๋ฐ ๊ฐ•์กฐ์ ์ด ๋‹ค๋ฅด๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
005์—์„œ ์ •๋ฆฌํ•œ ๋กฑ์ปจํ…์ŠคํŠธ LLM์€ 625์—์„œ LLM์˜ ๊ณ„ํš์ˆ˜ํ–‰ ๋Šฅ๋ ฅ(PlanGen)์„ ์—ฐ๊ตฌํ•  ๋•Œ ๊ธฐ์ˆ ์  ๊ธฐ๋ฐ˜์ด ๋ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
018์ด ๋‹ค๋ฃฌ Retrieval-Augmented Generation์„ ํ†ตํ•œ ๋ฌธ์„œ๊ฐ„ ์ถ”๋ก ์€ 005์˜ long-context LLM์„ ํ™œ์šฉํ•œ ๊ณผํ•™ QA ์ตœ์‹  ์„ฑ๋Šฅ ๋ถ„์„๊ณผ ์—ฐ๊ฒฐ๋ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
ํšจ๊ณผ์ ์ธ ์žฅ๋ฌธ๋งฅ ๋ชจ๋ธ ์„ค๊ณ„์‹œ ๊ณ ๋ คํ•ด์•ผ ํ•˜๋Š” ํ•ต์‹ฌ ์š”์†Œ๋ฅผ ๊ฒฝํ—˜์ ์œผ๋กœ ๋ถ„์„ํ•˜์—ฌ ์‹ค์ œ LCLM ๊ตฌ์ถ• ํ˜„์žฅ์—์„œ ์‹œ์‚ฌ์ ์„ ์ œ๊ณตํ•จ.
์‘์šฉ ์‚ฌ๋ก€
005์˜ ์žฅ๋ฌธ๋งฅ LLM ๊ตฌ์ถ• ๋ฐ ํ‰๊ฐ€ ์„œ๋ฒ ์ด๋Š” 366์—์„œ ๋ฏธ๋ž˜ ์—ฐ๊ตฌ ์ž๋™์ƒ์„ฑ์— ๋กฑ์ปจํ…์ŠคํŠธ LLM ํ™œ์šฉ ์‚ฌ๋ก€๋กœ ์ ์šฉ๋ฉ๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •