Essence
Figure 3: Beginnerโs roadmap to MI, designed to help newcomers quickly pick up the field. The MI study is
ํธ๋์คํฌ๋จธ ๊ธฐ๋ฐ ์ธ์ด๋ชจ๋ธ์ ๋ด๋ถ ๊ณ์ฐ์ ์ญ๊ณตํํ์ฌ ์ดํดํ๋ ๊ธฐ๊ณ์ ํด์๊ฐ๋ฅ์ฑ(Mechanistic Interpretability, MI)์ ๋ํ ์ข
ํฉ ๋ฆฌ๋ทฐ๋ก, ์ด๋ณด์๋ฅผ ์ํ ์ค๋ฌด ๊ฐ์ด๋๋ฅผ ์ ์ํ๋ค.
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ์ด ๋
ผ๋ฌธ์ ๋น ๋ฅด๊ฒ ์ฑ์ฅํ๋ MI ๋ถ์ผ์์ ์ด๋ณด์๋ถํฐ ๊ฒฝํ์๊น์ง ๋ชจ๋๋ฅผ ์ํ ์ค์ฉ์ ์ด๊ณ ํฌ๊ด์ ์ธ ๊ฐ์ด๋๋ฅผ ์ ๊ณตํ๋ฉฐ, ์์
์ค์ฌ์ ๋ถ๋ฅ์ฒด๊ณ์ ๊ตฌ์ฒด์ ์ํฌํ๋ก์ฐ๋ฅผ ํตํด ํด์๊ฐ๋ฅ์ฑ ์ฐ๊ตฌ์ ์๋ก์ด ํ์ค์ ์ ์ํ๋ค. ํ์ฅ ์ ์ฉ์ ์ํ ์ค์ ๊ณ ๋ ค์ฌํญ๊ณผ ๋ฏธ๋ ๋ฐฉํฅ์ ํจ๊ป ์ ์ํ ์ ์์ ๋์ ๊ฐ์น๋ฅผ ์ง๋๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
Matthew effect์ ์ด๋ก ์ ยท์ค์ฆ์ ๊ธฐ๋ฐ์ ์ ๊ณตํ๋ ์ ํ ์ฐ๊ตฌ์ด๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
ํธ๋์คํฌ๋จธ ๊ธฐ๋ฐ ์ธ์ด๋ชจ๋ธ์ ๊ธฐ๊ณ์ ํด์๊ฐ๋ฅ์ฑ์ ์ํ ์ด๋ก ์ ๊ธฐ์ด๋ฅผ ์ ๊ณตํ๋ ์ฐ๊ตฌ์ด๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
ํฌ๋ก์ค ๋๋ฉ์ธ ์ ์ฑ
์ ์ด๋ฅผ ์ํ ๊ธฐ๊ณ์ ํด์๊ฐ๋ฅ์ฑ ๊ธฐ๋ฐ ๋ฐฉ๋ฒ๋ก ์ ์ ๊ณตํ๋ ๊ธฐ์ด ์ฐ๊ตฌ์ด๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
ํธ๋์คํฌ๋จธ ๊ณ์ด์ ๋ฉ์ปค๋์ฆ ํด์ ๊ฐ๋ฅ์ฑ์ ๋ํ ๋ฆฌ๋ทฐ๋ก, 3232์ ๋คํธ์ํฌ-๋ ์ ๊ฒฝ ๋น๊ต ์ ๊ทผ์ ์ด๋ก ์ ๋ฐฐ๊ฒฝ์ด ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
017์ ํธ๋์คํฌ๋จธ ๋ฉ์ปค๋์ฆ ํด์์ ์ต์ ํ๋ฆ์ ์ ๋ฆฌํ์ฌ 3281์ ํ์ด๋ฐ์ด์
๋ชจ๋ธ ๋ด๋ถ ํํ ํด์ ๋ฐฉ๋ฒ๋ก ์ ์ง์ ์ ์ธ ์ด๋ก ์ ๊ทผ๊ฐ์ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
017์ ํธ๋์คํฌ๋จธ ๊ธฐ๋ฐ ๋ชจ๋ธ ํด์์ฑ๊ณผ ๋ฉ์ปค๋์ฆ ํ๊ตฌ์ ๊ดํ ์๋ฒ ์ด๋ก, 3263์ ํ์
์์คํ
ยท์ปดํ์ผ๋ฌ ์กฐํฉ ๋ฐฉ์ ์ค๊ณ์ ๋ด๋ถ ํด์ ๊ฐ๋ฅ์ฑ ๋
ผ์์ ์ด๋ก ์ ๋ฐฐ๊ฒฝ์ด ๋ฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
ํธ๋์คํฌ๋จธ ๋ชจ๋ธ์ ๋ด๋ถ ๋ฉ์ปค๋์ฆ์ ํด์ํ๋ ์ ์ฌํ ์ ๊ทผ๋ฒ์ ๋ค๋ฃจ๋ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
AI safety ์ธก๋ฉด์์ ํด์๊ฐ๋ฅ์ฑ ๋๊ตฌ์ ๋ฐฉ๋ฒ๋ก ์ ์ข
ํฉ ๋ถ์ํ์ฌ, ํธ๋์คํฌ๋จธ ํด์ ํ๋ ์์ํฌ์ ๋ค์ํ ๊ด์ ์ ๋น๊ตํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
์ ๊ฒฝ๋ง ๋ชจ๋ธ์ ํด์๊ฐ๋ฅ์ฑ ๋ฐ ์ค๋ช
๊ฐ๋ฅํ AI๋ฅผ ๋ค๋ฃจ๋ ๊ด๋ จ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋๊ท๋ชจ ์ธ์ด๋ชจ๋ธ์ ๋ด๋ถ ์๋ ์๋ฆฌ๋ฅผ ๋ถ์ํ๋ ์ ์ฌํ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM ๋ด๋ถ ํํ ๋ถ์์ ๋ค์ฐจ์ ์์ ์ ๋ ฌ ๊ด์ ์์ ๋ค๋ฃจ์ด, MI ๋ฆฌ๋ทฐ์ ์ค์ ์ ์ฉ๊ณผ ์ฐจ์ด์ ์ ๋
ผ์ํ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
ํ๋ฆฌํธ๋ ์ธ ํธ๋์คํฌ๋จธ ํด์ ๊ฐ๋ฅ์ฑ์ ๋ํ ๋ฆฌ๋ทฐ๋ก, PLM-NLM ๊ตฌ์กฐ ์ฐจ์ด ํด์์ ๋ํ ๋ณด์์ ์๊ฐ์ ์ ์ํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
ํธ๋์คํฌ๋จธ ํด์ ํ๋ ์์ํฌ์์ bias, ๋ฐ์ดํฐ ํธํฅ, model reliability์ ๋ํ ์ฌ์ธต์ ๋ถ์์ผ๋ก, 3248์ ํฉํ์ด๋ ์ค๊ณ ํธํฅ ๋ฌธ์ ์ค๋ช
์ ๋์กฐ์ ํด์์ ์ ๊ณตํ๋ค.
ํ์ ์ฐ๊ตฌ
A practical review of mechanistic interpretability for transformers ๋
ผ๋ฌธ์ ํธ๋์คํฌ๋จธ ๊ณ์ด์์์ ๊ธฐ๊ณ๋ก ์ ํด์ ๊ฐ๋ฅ์ฑ ๋ฐฉ๋ฒ์ ์์ธํ ๋
ผ์ํ์ฌ 527์ ์ด๋ก ์ ๋ฆฌ๋ทฐ๋ฅผ ์ค๋ฌด์ ์ ์ฉํ ์ ์๋๋ก ๋ณด์ํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
LLM์ ๋ถํ์ค์ฑ ๋ฐ ์ ๋ขฐ์ฑ ํ๊ฐ ์ ํด์๊ฐ๋ฅ์ฑ์ด ์ธ์ ยท์ด๋ป๊ฒ ํจ๊ณผ๋ฅผ ๋ฐํํ๋์ง ๋ถ์ํด ์ค๋ฌด ๊ฐ์ด๋ ๋ฒ์๋ฅผ ํ์ฅํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
AI ๋ฉ๋ชจ๋ฆฌ ๋ฐ ๋ด๋ถ ๊ตฌ์กฐ์ ํด์ ํจ๋ฌ๋ค์์ ์๋ฒ ์ดํด, ํธ๋์คํฌ๋จธ MI ๋
ผ์์ ์ต๊ทผ์ ๋ฉ๋ชจ๋ฆฌ ๊ธฐ๋ฐ ๋ํฅ์ ์ฐ๊ณํ์ฌ ํด์ํ ์ ์์.
ํ์ ์ฐ๊ตฌ
ํธ๋์คํฌ๋จธ ๋ชจ๋ธ์ ๋ฉ์ปค๋์ฆ ํด์ ๋ฐฉ๋ฒ๋ก ๋ฆฌ๋ทฐ๋ก, ProtoMech์์ ์ ์ํ๋ CLT ์ ๊ทผ๊ณผ์ ๊ต์ฐจ ๊ฒํ ๊ฐ ๊ฐ๋ฅํ๋ค.