L-citeeval: Do longcontext models truly leverage context for responding? arXiv preprint arXiv:2410.02115, 2024.

์ €์ž: Zecheng Tang, Keyan Zhou, Juntao Li, Baibei Ji, Jianye Hou, Min Zhang | ๋‚ ์งœ: 2024 | DOI: ์ œ๊ณต ์•ˆํ•จ 📄 PDF


Essence

Figure 2

L-CiteEval ๋ฒค์น˜๋งˆํฌ์˜ ์ž‘์—… ํ˜•์‹ ๋ฐ ํŒŒ์ดํ”„๋ผ์ธ: ์žฅ๋ฌธ ๋งฅ๋ฝ์ด ์ฃผ์–ด์กŒ์„ ๋•Œ ๋ชจ๋ธ์ด ๋‹ต๋ณ€๊ณผ ํ•จ๊ป˜ ์ธ์šฉ(citation)์„ ์ƒ์„ฑํ•˜๋„๋ก ์š”๊ตฌ

์žฅ๋ฌธ๋งฅ ์–ธ์–ด๋ชจ๋ธ(Long-Context Models, LCMs)์ด ์‹ค์ œ๋กœ ์ฃผ์–ด์ง„ ๋งฅ๋ฝ์„ ํ™œ์šฉํ•˜์—ฌ ์‘๋‹ตํ•˜๋Š”์ง€ ํ‰๊ฐ€ํ•˜๋Š” ์ข…ํ•ฉ ๋ฒค์น˜๋งˆํฌ L-CiteEval์„ ์ œ์‹œํ•˜๋ฉฐ, ์ž๋™ํ™”๋œ ํ‰๊ฐ€๋ฅผ ํ†ตํ•ด ๋ชจ๋ธ์˜ ์ƒ์„ฑ ํ’ˆ์งˆ๋ฟ ์•„๋‹ˆ๋ผ ์ธ์šฉ ์ •ํ™•๋„(citation accuracy)๋ฅผ ๋™์‹œ์— ์ธก์ •ํ•œ๋‹ค.

Motivation

Achievement

Figure 1

๊ธฐ์กด ์žฅ๋ฌธ๋งฅ ๋ฒค์น˜๋งˆํฌ(LongBench, Ruler, LongCite)์™€ L-CiteEval์˜ ๋น„๊ต: ๋ฐ์ดํ„ฐ ๊ทœ๋ชจ, ํ‰๊ฐ€ ๋ฐฉ์‹, ์ž‘์—… ๋ถ„ํฌ

  1. ํฌ๊ด„์  ๋ฒค์น˜๋งˆํฌ ๊ตฌ์„ฑ: 11๊ฐœ ์ž‘์—…(๋‹จ์ผ/๋‹ค์ค‘ ๋ฌธ์„œ QA, ์š”์•ฝ, ๋Œ€ํ™” ์ดํ•ด, ํ•ฉ์„ฑ ์ž‘์—…), 10,000+ ํ…Œ์ŠคํŠธ ์ƒ˜ํ”Œ, 8K~48K ๊ธธ์ด์˜ ๋งฅ๋ฝ ํฌํ•จ. ๊ธฐ์กด LongCite(์ตœ๋Œ€ 32K, 5.88%)๋ณด๋‹ค ํ›จ์”ฌ ๊ด‘๋ฒ”์œ„ํ•œ ์žฅ๋ฌธ๋งฅ ์ปค๋ฒ„๋ฆฌ์ง€ ์ œ๊ณต
  2. ๊ฐœํํ˜• ๋ชจ๋ธ ๊ฐ„ ์ฐจ์ด ๊ทœ๋ช…: ํ์‡„ํ˜• ๋ชจ๋ธ(GPT-4, Claude ๋“ฑ)๊ณผ ๊ฐœ๋ฐฉํ˜• ๋ชจ๋ธ(LLaMA, Qwen ๋“ฑ) ๊ฐ„ ์ƒ์„ฑ ํ’ˆ์งˆ์€ ๋ฏธ๋ฏธํ•œ ์ฐจ์ด๋ฅผ ๋ณด์ด๋‚˜, ์ธ์šฉ ์ •ํ™•๋„(citation precision)์™€ ์žฌํ˜„์œจ(recall)์—์„œ ๊ฐœ๋ฐฉํ˜• ๋ชจ๋ธ์ด ํ˜„์ €ํžˆ ๋’ค๋–จ์–ด์ง. ์ด๋Š” ๊ฐœ๋ฐฉํ˜• ๋ชจ๋ธ์ด ๋งฅ๋ฝ๋ณด๋‹ค ๋‚ด์žฌ ์ง€์‹(inherent knowledge)์— ์˜์กดํ•˜๋Š” ๊ฒฝํ–ฅ์„ ์˜๋ฏธํ•จ
  3. ์ž๋™ํ™”๋œ ํ‰๊ฐ€ ๊ฐ€๋Šฅ: ์™ธ๋ถ€ ํ‰๊ฐ€์ž(GPT-4 ๋“ฑ) ์—†์ด ์ •๋ฐ€๋„(precision), ์žฌํ˜„์œจ(recall), ROUGE-L ๋“ฑ ์ž๋™ ๋ฉ”ํŠธ๋ฆญ์œผ๋กœ ์žฌํ˜„ ๊ฐ€๋Šฅํ•œ ํ‰๊ฐ€ ์ œ๊ณต. ํ‰๊ฐ€ ๋น„์šฉ ๋Œ€ํญ ์ ˆ๊ฐ
  4. RAG ํšจ๊ณผ ์ž…์ฆ: Retrieval-Augmented Generation(RAG) ์ ์šฉ ์‹œ ๊ฐœ๋ฐฉํ˜• ๋ชจ๋ธ์˜ ์ธ์šฉ ํ’ˆ์งˆ์ด ํฐ ํญ์œผ๋กœ ๊ฐœ์„ ๋˜๋‚˜ ์ƒ์„ฑ ํ’ˆ์งˆ์€ ์†Œํญ ๊ฐ์†Œํ•˜๋Š” ํŠธ๋ ˆ์ด๋“œ์˜คํ”„ ํ™•์ธ
  5. ์ฃผ์˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜๊ณผ์˜ ์ƒ๊ด€์„ฑ ๋ฐœ๊ฒฌ: ๋ชจ๋ธ์˜ ์ธ์šฉ ์ƒ์„ฑ ๊ณผ์ •๊ณผ ์ฃผ์˜(attention) ๋ฉ”์ปค๋‹ˆ์ฆ˜(ํŠนํžˆ retrieval head) ๊ฐ„ ์ƒ๊ด€๊ด€๊ณ„ ์กด์žฌ ํ™•์ธ. ๋ฒค์น˜๋งˆํฌ์˜ ํƒ€๋‹น์„ฑ๊ณผ ์ถ”ํ›„ LCM ๊ฐœ๋ฐœ ๋ฐฉํ–ฅ์„ฑ ์ œ์‹œ

How

Figure 2

์‘๋‹ต ํ˜•์‹: [statementโ‚][citationโ‚] [statementโ‚‚][citationโ‚‚] ํ˜•ํƒœ๋กœ ๊ฐ ๋ฌธ์žฅ ๋’ค์— ์ธ์šฉ ์ฒญํฌ ์ธ๋ฑ์Šค ๋ถ™์ž„

Originality

Limitation & Further Study

Evaluation

Novelty: 4.5/5 Technical Soundness: 4/5 Significance: 4.5/5 Clarity: 4/5 Overall: 4.2/5

์ดํ‰: L-CiteEval์€ LCM์˜ ๋งฅ๋ฝ ํ™œ์šฉ๋„๋ฅผ ์ž๋™ํ™”๋œ ๋ฐฉ์‹์œผ๋กœ ํ‰๊ฐ€ํ•˜๋Š” ์ฒซ ๋Œ€๊ทœ๋ชจ ๋ฒค์น˜๋งˆํฌ๋กœ์„œ, ๊ฐœํํ˜• ๋ชจ๋ธ ๊ฐ„์˜ ํ˜„์ €ํ•œ ์ฐจ์ด๋ฅผ ์ •๋Ÿ‰์ ์œผ๋กœ ์ž…์ฆํ–ˆ๋‹ค๋Š” ์ ์—์„œ ์ค‘์š”ํ•œ ๊ธฐ์—ฌ๋ฅผ ํ•œ๋‹ค. ๋‹ค๋งŒ ์ธ์šฉ ์ฒญํฌ ํฌ๊ธฐ ์„ค์ •, ์ธ๊ฐ„ ํ‰๊ฐ€ ๊ฒ€์ฆ, ์ž‘์—… ๋‹ค์–‘์„ฑ ํ™•๋Œ€ ์ธก๋ฉด์—์„œ ๊ฐœ์„ ์˜ ์—ฌ์ง€๊ฐ€ ์žˆ์œผ๋ฉฐ, ์ž๋™ ๋ฉ”ํŠธ๋ฆญ์˜ ์‹ ๋ขฐ์„ฑ ๊ฐ•ํ™”์™€ ๋ชจ๋ธ ๊ฐœ์„  ๊ธฐ๋ฒ• ๊ฐœ๋ฐœ์ด ํ–ฅํ›„ ๊ณผ์ œ์ด๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
PaperRobot ๋…ผ๋ฌธ์€ L-CiteEval์˜ ์ธ์šฉ ์ •ํ™•๋„ ๋ฐ ์ž๋™ ํ‰๊ฐ€ ๋ฒค์น˜๋งˆํฌ ์„ค๊ณ„์— ์ด๋ก ์  ๊ทผ๊ฐ„์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
ํ…์ŠคํŠธ ๊ธฐ๋ฐ˜ ๊ณผํ•™ ์ธ์šฉ ์ƒ์„ฑ ์›Œํฌํ”Œ๋กœ์šฐ์—์„œ LCM ๋ฌธ๋งฅ ํ™œ์šฉ ์„ฑ๋Šฅ ํ‰๊ฐ€์˜ ๊ธฐ๋ฐ˜์ด ๋˜๋Š” ๋ฐฉ๋ฒ•์  ๋…ผ์˜๊ฐ€ ๋‹ด๊ฒจ ์žˆ์Šต๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ธ์ปจํ…์ŠคํŠธ ํ•™์Šต ๋ฐ ์žฅ๋ฌธ๋งฅ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ ํ‰๊ฐ€์— ์‹ฌ์ธต์ ์œผ๋กœ ๋‹ค๋ฃจ์–ด, L-CiteEval ๋ฒค์น˜๋งˆํฌ์˜ ๋…ผ๋ฆฌ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
452์˜ ์žฅ๋ฌธ๋งฅ๋ชจ๋ธ ๋ฒค์น˜๋งˆํฌ(L-CiteEval)๋Š” 005์˜ long context language modeling์— ๋Œ€ํ•œ ํฌ๊ด„์  ์ด๋ก  ๋ฐ ๋™ํ–ฅ์กฐ์‚ฌ๋ฅผ ์ด๋ก ์  ๊ธฐ๋ฐ˜์œผ๋กœ ์‚ผ๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
์–ธ์–ด๋ชจ๋ธ ๊ธฐ๋ฐ˜ AI ์—์ด์ „ํŠธ๊ฐ€ ์•ฝ๋ฌผ ๊ฐœ๋ฐœ ์ „์ฃผ๊ธฐ์—์„œ ์–ด๋–ป๊ฒŒ Fact/Claim ๊ฒ€์ฆ ์„ฑ๋Šฅ์„ ๋†’์ด๋Š”์ง€ ๊ธฐ์ดˆ์  ๊ทผ๊ฑฐ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
452(L-CiteEval)๋Š” ๋…ผ๋ฌธ ์ •๋ณด ๊ฐ€๊ณต์—์„œ ์‹œ๊ฐ์  ๋ฐ ์ธ์šฉ์ •๋ณด์˜ ์ž๋™ ํ‰๊ฐ€ ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ๊ณตํ•˜์—ฌ, 599 ๋…ผ๋ฌธ์˜ ํฌ์Šคํ„ฐ ์ž๋™ํ™” ํŒŒ์ดํ”„๋ผ์ธ ์„ค๊ณ„์— ๊ทผ๊ฐ„์ด ๋ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
MLAgentBench(542)๋Š” L-CiteEval๊ณผ ๊ฐ™์ด ์—์ด์ „ํŠธ์˜ ์ž‘์—…์ˆ˜ํ–‰๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ์•ˆํ•˜์ง€๋งŒ, ๋จธ์‹ ๋Ÿฌ๋‹ ์‹คํ—˜ ์ค‘์‹ฌ ์ ‘๊ทผ์œผ๋กœ ๋™๋“ฑ ๋น„๊ต๊ฐ€ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ธ์šฉ ์ •ํ™•๋„๋ฅผ ํ‰๊ฐ€ํ•˜๋Š” LLM ๋ฒค์น˜๋งˆํฌ๋กœ, ์žฅ๋ฌธ๋งฅ ํ™œ์šฉ ํ‰๊ฐ€์™€ ์ธ์šฉ ์˜ค๋ฅ˜ ๊ฒ€์ถœ ๊ฐ„ ์‹œ๋„ˆ์ง€๋ฅผ ํ™•์ธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Scideator ๋…ผ๋ฌธ์€ ์ธ์šฉ ๊ทผ๊ฑฐ ๊ธฐ๋ฐ˜ ๊ณผํ•™ ์•„์ด๋””์–ด ์ƒ์„ฑ ์ ˆ์ฐจ๋ฅผ ๋‹ค๋ค„ ์žฅ๋ฌธ๋งฅ LLM์˜ ๋งฅ๋ฝ ํ™œ์šฉ์„ฑ ํ‰๊ฐ€์™€ ์‹ค์งˆ์  ์—ฐ๊ฒฐ ์ง€์ ์„ ๊ฐ€์ง‘๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
L-citeeval(452)์€ LLM์˜ ์‹ ๋ขฐ๋„ ํ‰๊ฐ€ยท์„ค๋ช… ๊ฐ€๋Šฅ์„ฑ์„ ๊ฐ•์กฐํ•˜๋ฏ€๋กœ, 620์˜ ์„ค๋ช… ๊ฐ€๋Šฅํ•œ ์—์ด์ „ํŠธ ์‹œ์Šคํ…œ๊ณผ ์œ ์‚ฌํ•œ ๊ด€์ ์„ ์ œ์‹œํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์˜๋ฃŒ LLM ์žฅ๋ฌธ๋งฅ ์‘๋‹ต ๋ฒค์น˜๋งˆํฌ์™€ ๋น„๊ตํ•˜์—ฌ L-CiteEval์˜ ํ‰๊ฐ€ ๋ฐฉ์‹์„ ํƒ€ ๋ถ„์•ผ์— ์ ์šฉํ•˜๋Š” ์‹œ๊ฐ์„ ์–ป์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
599(Paper2poster)๋Š” ๋…ผ๋ฌธ ์ž๋™ํ™” ๊ณผ์ •์—์„œ ์‹œ๊ฐยท์–ธ์–ด ํ”ผ๋“œ๋ฐฑ ๋ฒค์น˜๋งˆํ‚น ๋ฐ ํ‰๊ฐ€์ฒด๊ณ„๋ฅผ ๊ตฌ์ถ•ํ•˜์—ฌ L-CiteEval์˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ํ‰๊ฐ€ ๊ฐœ๋…์„ ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
452๋Š” ์‹ฌ์ธต ์ปจํ…์ŠคํŠธ ํ™œ์šฉ ๋…ผ์˜๋กœ, 2222์— ๋“ฑ์žฅํ•˜๋Š” ๊ณ ์ „-ํ˜„๋Œ€ ์ด๋ก  ์œตํ•ฉ์  ์ ‘๊ทผ์˜ ์‹ค์ œ ์‘์šฉ ํ‰๊ฐ€ ์—ฐ๊ตฌ๋ผ๋Š” ๊ฐ€์น˜๋ฅผ ์ œ๊ณตํ•œ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
452๋Š” ์‹ค์ œ ๋…ผ๋ฌธ ์š”์•ฝ ๋“ฑ์—์„œ ์žฅ๋ฌธ ์ปจํ…์ŠคํŠธ ๋ชจ๋ธ์ด ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•˜๋Š”๊ฐ€์— ๋Œ€ํ•œ ํ‰๊ฐ€๋ฅผ ์ œ์‹œํ•ด, 036์˜ ๊ธฐ์ˆ ์  ์„œ๋ฒ ์ด๋ฅผ ํ˜„์‹ค์„ฑ๊ณผ ์—ฐ๊ฒฐํ•ด์ค€๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •