Towards uncovering how large language model works: An explainability perspective

์ €์ž: Haiyan Zhao, Fan Yang, Bo Shen, Himabindu Lakkaraju, Mengnan Du | ๋‚ ์งœ: 2024 | DOI: arXiv:2402.10688 📄 PDF


Essence

Figure 1

๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ์˜ ์ž‘๋™ ๋ฉ”์ปค๋‹ˆ์ฆ˜: (a) ๋ชจ๋ธ ์ปดํฌ๋„ŒํŠธ ๋‚ด ์ง€์‹์˜ ์•„ํ‚คํ…์ฒ˜ ๊ตฌ์„ฑ, (b) ์ค‘๊ฐ„ ํ‘œํ˜„์— ์ธ์ฝ”๋”ฉ๋œ ์ง€์‹, (c) ํ›ˆ๋ จ ๊ณผ์ •์—์„œ์˜ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ ๋ฐœ๋‹ฌ

์ด ๋…ผ๋ฌธ์€ ์„ค๋ช…๊ฐ€๋Šฅ์„ฑ(explainability) ๊ด€์ ์—์„œ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ(LLM)์˜ ๋‚ด๋ถ€ ์ž‘๋™ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ์ฒด๊ณ„์ ์œผ๋กœ ๊ฒ€ํ† ํ•œ ์ข…ํ•ฉ ๋ฆฌ๋ทฐ ๋…ผ๋ฌธ์ด๋‹ค. ๊ธฐ๊ณ„์  ํ•ด์„๊ฐ€๋Šฅ์„ฑ(mechanistic interpretability), ํ‘œํ˜„ ๊ณตํ•™(representation engineering), ํ›ˆ๋ จ ์—ญํ•™ ๋ถ„์„์„ ํ†ตํ•ด LLM์˜ ์ง€์‹ ๊ตฌ์„ฑ, ๋ถ€ํ˜ธํ™”, ํ•™์Šต ๊ณผ์ •์„ ๋ฐํžˆ๊ณ , ์ด๋Ÿฌํ•œ ์ธ์‚ฌ์ดํŠธ๊ฐ€ ๋ชจ๋ธ ํŽธ์ง‘, ํ”„๋ฃจ๋‹, ์ธ๊ฐ„ ์ •๋ ฌ์— ์–ด๋–ป๊ฒŒ ํ™œ์šฉ๋  ์ˆ˜ ์žˆ๋Š”์ง€ ๋ณด์—ฌ์ค€๋‹ค.

Motivation

Achievement

  1. ์‹ ๊ฒฝ์›(Neuron) ์ˆ˜์ค€ ๋ถ„์„: ๋‹ค์˜์„ฑ(polysemanticity)์˜ ๋ฐœ์ƒ ์›์ธ์„ ๊ทœ๋ช…ํ•˜๊ณ , ์ค‘์ฒฉ(superposition)๊ณผ ๋‹จ์ผ์˜๋ฏธ์„ฑ(monosemanticity) ๊ฐœ๋…์„ ํ†ตํ•ด ์‹ ๊ฒฝ์›์˜ ํŠน์„ฑ์„ ์„ค๋ช…. ํฌ์†Œ ์ž๋™์ธ์ฝ”๋”(sparse autoencoder)๋ฅผ ํ†ตํ•ด ํŠน์ง• ๋ถ„ํ•ด(feature disentanglement)์˜ ๊ฐ€๋Šฅ์„ฑ ์ œ์‹œ
  2. ํšŒ๋กœ(Circuit) ์ˆ˜์ค€ ๋ถ„์„: ํŠธ๋žœ์Šคํฌ๋จธ ํšŒ๋กœ์— ๋Œ€ํ•œ ์ˆ˜ํ•™์  ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์‹œํ•˜๊ณ , Query-Key ํšŒ๋กœ์™€ Output-Value ํšŒ๋กœ์˜ ์—ญํ•  ๊ตฌ๋ถ„. ๊ท€๋‚ฉ ํ—ค๋“œ(induction head)๊ฐ€ ๋งฅ๋ฝ ๋‚ด ํ•™์Šต(in-context learning) ๋Šฅ๋ ฅ์— ๊ธฐ์—ฌํ•จ์„ ๋ฐํž˜
  3. ์ฃผ์˜ ํ—ค๋“œ(Attention Head) ๋ถ„์„: ๊ท€๋‚ฉ ํ—ค๋“œ๊ฐ€ ํŒจํ„ด ์ ‘๋‘์‚ฌ ๋งค์นญ(prefix matching)๊ณผ ์‹œํ€€์Šค ๋ณต์‚ฌ๋ฅผ ํ†ตํ•ด ๋งฅ๋ฝ ๋‚ด ํ•™์Šต์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•จ์„ ์‹ค์ฆ์ ์œผ๋กœ ์ž…์ฆ
  4. ํ›ˆ๋ จ ์—ญํ•™ ๋ถ„์„: ๊ทธ๋กœํ‚น(grokking) ๋ฐ ๊ธฐ์–ตํ™”(memorization) ํ˜„์ƒ์„ ๊ธฐ๊ณ„์  ๊ด€์ ์—์„œ ์„ค๋ช…ํ•˜์—ฌ, ๋ชจ๋ธ์˜ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ ๋ฐœ๋‹ฌ ๊ณผ์ •์„ ๊ทœ๋ช…
  5. ์‹ค์šฉ์  ์‘์šฉ: ์ด๋Ÿฌํ•œ ์ธ์‚ฌ์ดํŠธ๋ฅผ ๋ชจ๋ธ ํŽธ์ง‘(model editing), ํ”„๋ฃจ๋‹(pruning), ์ธ๊ฐ„ ๊ฐ€์น˜ ์ •๋ ฌ(human alignment)์— ํ™œ์šฉํ•˜๋Š” ๋ฐฉ๋ฒ•๋ก  ์ œ์‹œ

How

Originality

Limitation & Further Study

Evaluation

์ดํ‰: ์ด ๋…ผ๋ฌธ์€ LLM์˜ ๋‚ด๋ถ€ ์ž‘๋™ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ์„ค๋ช…๊ฐ€๋Šฅ์„ฑ ๊ด€์ ์—์„œ ์ฒด๊ณ„์ ์œผ๋กœ ์ •๋ฆฌํ•œ ์šฐ์ˆ˜ํ•œ ๋ฆฌ๋ทฐ ๋…ผ๋ฌธ์œผ๋กœ, ์‹ ๊ฒฝ์›ยทํšŒ๋กœยทํ—ค๋“œยทํ›ˆ๋ จ ์—ญํ•™์˜ ๊ณ„์ธต์  ๋ถ„์„์„ ํ†ตํ•ด LLM์˜ ํˆฌ๋ช…์„ฑ์„ ๋†’์ธ๋‹ค. ๋‹ค๋งŒ ์žฅ๋‚œ๊ฐ ๋ชจ๋ธ ๊ธฐ๋ฐ˜ ๊ฒฐ๊ณผ์˜ ํ˜„์‹ค์  ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ๊ณผ ๋Œ€๊ทœ๋ชจ ๋ชจ๋ธ์œผ๋กœ์˜ ํ™•์žฅ์„ฑ์€ ์—ฌ์ „ํžˆ ๊ณผ์ œ๋กœ ๋‚จ์•„ ์žˆ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
527์€ LLM์˜ ์„ค๋ช…๊ฐ€๋Šฅ์„ฑ, ์ธํ„ฐํ”„๋ฆฌํ„ฐ๋นŒ๋ฆฌํ‹ฐ ์ตœ์‹  ์ด๋ก ๊ณผ ๊ธฐ์ˆ ์  ์•ˆ์ „์„ฑ์„ ์ข…ํ•ฉ ๋ฆฌ๋ทฐํ•ด 836์˜ LLM ๋ฉ”์ปค๋‹ˆ์ฆ˜ ๋ถ„์„ ํ† ๋Œ€๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
355๋Š” ์ธ๊ฐ„๊ณผ AI ๋ฉ”๋ชจ๋ฆฌ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ๋น„๊ตยท๋ถ„์„ํ•˜๊ธฐ ๋•Œ๋ฌธ์—, 836์˜ ์„ค๋ช… ๊ฐ€๋Šฅ์„ฑ ๋ฆฌ๋ทฐ์™€ ํ†ตํ•ฉ์  ํ†ต์ฐฐ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
836์€ LLM ๋‚ด์žฌ ์ž‘๋™์›๋ฆฌ ํ•ด์„ค์— ์ง‘์ค‘ํ•ด, 2246์˜ ํ•ด์„ ๊ฐ€๋Šฅ์„ฑ๊ณผ ๊ฒ€์ฆ ๊ฐ€๋Šฅ์„ฑ ๋…ผ์ง€์— ์ด๋ก ์  ๊ฑฐ๋ฒ„๋„Œ์Šค๋ฅผ ์ œ๊ณตํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
836๋ฒˆ ๋…ผ๋ฌธ์€ ๋Œ€ํ˜• ์–ธ์–ด๋ชจ๋ธ์˜ ์ž‘๋™ ์›๋ฆฌ๋ฅผ ์„ค๋ช…๋ ฅ ๊ด€์ ์—์„œ ์กฐ๋ช…ํ•˜์—ฌ, 582๋ฒˆ์˜ ๋ธ”๋ž™๋ฐ•์Šค ๊ธฐ๋ฐ˜ ๊ทธ๋ž˜๋””์–ธํŠธ ์„ค๋ช… ์—ฐ๊ตฌ์™€ ๋Œ€์กฐ๋œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM์˜ ๋ฉ”ํƒ€๋Ÿฌ๋‹ ๋ฐ ํ™˜๊ฒฝ ์ ์‘ ๋Šฅ๋ ฅ์„ ๋Œ€ํ™”ํ˜• ์„ค์ •์—์„œ ํ‰๊ฐ€ํ•˜๋Š” ๊ด€๋ จ ๋…ผ๋ฌธ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
836๋Š” LLM์˜ ๋‚ด๋ถ€ ์ž‘๋™ ๋ฐ ์„ค๋ช…๊ฐ€๋Šฅ์„ฑ ์ž์ฒด์— ์ดˆ์ ์„ ๋งž์ถ”์–ด 021์ด ์ง€์ ํ•œ ์‹ ๋ขฐ์„ฑยทํ• ๋ฃจ์‹œ๋„ค์ด์…˜ ์ด์Šˆ์— ๋Œ€ํ•œ ๋‹ค๋ฅธ ์‹œ๊ฐ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
The hidden dimensions of llm alignment ๋…ผ๋ฌธ์€ LLM์˜ ์ •๋ ฌ(alignment) ๋ฌธ์ œ์˜ ๋‹ค์ฐจ์›์„ฑ์— ์ดˆ์ ์„ ๋งž์ถ”์–ด, ๋‚ด๋ถ€ ๋™์ž‘ ํ•ด์„๊ณผ ๋น„๊ตํ•ด ์ฝ๊ธฐ์— ์ ํ•ฉํ•˜๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM ์‹ ๋ขฐ๋„์™€ ๋ถˆํ™•์‹ค์„ฑ, ํ•ด์„๊ฐ€๋Šฅ์„ฑ์˜ ํƒ๊ตฌ์—์„œ ์„œ๋กœ ๋‹ค๋ฅธ ์„ค๋ช…๋ฐฉ๋ฒ•๊ณผ ํ‰๊ฐ€ ํ‹€์„ ๋น„๊ตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
๋Œ€๊ทœ๋ชจ ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ์˜ ๊ตฌ์กฐ์™€ ํ•ด์„๊ฐ€๋Šฅ์„ฑ์— ์ดˆ์ ์„ ๋งž์ถ”์–ด ๋…ผ์˜ํ•˜๋ฏ€๋กœ, LLM ๋‚ด๋ถ€ ๋ฉ”์ปค๋‹ˆ์ฆ˜ ์„ค๋ช… ๋ฆฌ๋ทฐ์™€ ์—ฐ๊ณ„ํ•ด ๋ณด๊ธฐ๊ฐ€ ์ข‹์Šต๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
346์€ ์‹ค์ œ ๊ณผํ•™ ๋ฌธ์ œ์—์„œ foundation model์˜ ๋‚ด๋ถ€ ํ•ด์„ ๊ฐ€๋Šฅ์„ฑ ๋ฐ ๋ฐ์ดํ„ฐ ํšจ์œจ์„ฑ ์ธก์ •์„ ํ†ตํ•ด 836์˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜ ๋ฆฌ๋ทฐ ๊ฒฐ๊ณผ๋ฅผ ์‘์šฉํ•ฉ๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •