Essence
ํด์๊ฐ๋ฅ์ฑ ํจ๋ฌ๋ค์: ํ๋์ (Behavioral), ๊ท์์ (Attributional), ๊ฐ๋
๊ธฐ๋ฐ(Concept-based), ๊ธฐ๊ณ๋ก ์ (Mechanistic) ์ ๊ทผ์ ๋น๊ต
๋ณธ ๋
ผ๋ฌธ์ ์ ๊ฒฝ๋ง์ ๋ด๋ถ ์๋ ๋ฉ์ปค๋์ฆ์ ์ธ๊ฐ์ด ์ดํดํ ์ ์๋ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ์ญ๊ณตํ(reverse engineering)ํ๋ ๊ธฐ๊ณ๋ก ์ ํด์๊ฐ๋ฅ์ฑ(mechanistic interpretability)์ ์ข
ํฉ์ ๋ฆฌ๋ทฐ๋ฅผ ์ ๊ณตํ๋ค. AI ์์ ์ฑ ํ๋ณด๋ฅผ ์ํด ์ ๊ฒฝ๋ง์ ์ธ๋ฐํ ์ธ๊ณผ๊ด๊ณ ์ดํด๊ฐ ํ์์ ์์ ๊ฐ์กฐํ๋ค.
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 5/5 Clarity: 4/5 Overall: 4.25/5
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ ๊ธฐ๊ณ๋ก ์ ํด์๊ฐ๋ฅ์ฑ์ ์ฒ์์ผ๋ก ํฌ๊ด์ ์ผ๋ก ์ ๋ฆฌํ ๊ฐ์น ์๋ ๋ฆฌ๋ทฐ์ด๋ฉฐ, AI ์์ ์ฑ๊ณผ์ ๊ฐํ ์ฐ๊ณ๋ฅผ ํตํด ๋ถ์ผ์ ์ค์์ฑ์ ๋ถ๊ฐํ์์ผ๋, ๊ฐ๋
์ ํ์์ ์ ์ ๊ฐํ์ ๋ ๊ธ์ง์ ์ธ ํ์ ๋ฐฉํฅ ์ ์๊ฐ ์๋ค๋ฉด ๋์ฑ ์ํฉํธ ์๋ ๊ธฐ์ฌ๊ฐ ๋ ์ ์์ ๊ฒ์ผ๋ก ํ๋จ๋๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
๋ฉ์ปค๋์ฆ ํด์ ๊ฐ๋ฅ์ฑ ํ๊ฐ์ ๋ํ ์ข
ํฉ ๋ฆฌ๋ทฐ๋ก, ๋ธ๋๋ฐ์ค ๋ชจ๋ธ ํํด๋ฒ ์ฐ๊ตฌ์ ์ด๋ก ์ ๊ธฐ๋ฐ์ด ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
527์ LLM์ ์ค๋ช
๊ฐ๋ฅ์ฑ, ์ธํฐํ๋ฆฌํฐ๋น๋ฆฌํฐ ์ต์ ์ด๋ก ๊ณผ ๊ธฐ์ ์ ์์ ์ฑ์ ์ข
ํฉ ๋ฆฌ๋ทฐํด 836์ LLM ๋ฉ์ปค๋์ฆ ๋ถ์ ํ ๋๊ฐ ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
AI ๊ธฐ์ต ๋ฉ์ปค๋์ฆ ์ ๋ฐ์ ์ ๋ฆฌํ ์ค๋ฌธ์ผ๋ก, ์ ๊ฒฝ๋ง ๋ด๋ถ ๊ตฌ์กฐ ํด์์ ์ฌํํ๋ ๋ฐ ๋์์ด ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
์ ๊ฒฝ๋ง์ ๋ด์ฌ์ ์ธ๊ณผ์ถ๋ก ํธํฅ๊ณผ ๋ฉ์ปค๋์ฆ ๋ถ์์ ๋
ผ์ํ๋ฉฐ, LLM์ ์ธ์ง ํธํฅ ์ฐ๊ตฌ ๋ฐฉ๋ฒ๋ก ์ ์ ๊ณตํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Mechanistic interpretability for ai safetyโa review ๋
ผ๋ฌธ์ LLM ์ ๋ ฌ์ ๋ด๋ถ ํํ ๋ณํ์ ์์ ์ฑ ์ด์ ๋ถ์์ ์ด๋ก ์ ๊ธฐ๋ฐ์ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Mechanistic interpretability for ai safety ๋
ผ๋ฌธ์ LLM ์๋ํ ์ถ๋ก ๊ณผ์ ์ ๋ถํ์ค์ฑ ๋ฐ ์ ๋ขฐ ์ ๋ํ์ ํ์์ ์ธ ์ด๋ก ์ ์ ๊ทผ๋ฒ์ ์ ์ํ๋ฉฐ PCFG/๋ถํ์ค์ฑ ๋ถ์์ ์ด๋ก ํ ๋๋ฅผ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
AI ์์ ์ฑ ๋ฐ ์๊ธฐ๊ฒ์ฆ ๋ฅ๋ ฅ ํ๊ณ์ ๋ํ ์ฌ์ธต์ ํด์์ ์์ฑ-๊ฒ์ฆ ๊ฐญ(GV-gap) ๋
ผ์์ ์ด๋ก ์ ๊ธฐ๋ฐ์ ์ ๊ณตํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
AI ๋ชจ๋ธ์ ๋ฉ์ปค๋์ฆ ์์ค ํด์๊ฐ๋ฅ์ฑ์ ๋ํ ์ข
ํฉ ๋ฆฌ๋ทฐ๋ ๊ธฐ์ ๋ชจ๋ธ ํด์ ๋๊ตฌ์ ์ด๋ก ์ ๋ฐฐ๊ฒฝ์ ๊ฐํํด์ค๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
527์ AI ์์ ์ฑ์ ๊ด์ ์์ ๋ฉ์ปค๋์ฆ ํด์ ๊ธฐ๋ฒ์ ์ฌ์ธต์ ์ผ๋ก ๋ค๋ฃจ๋ฉฐ, 3275์ PLM ์๋ฒ ๋ฉ๊ณผ ๋ฐ๋ณต ์คํ ์ค๊ณ ํด์์ ์ด๋ก ์ ๊ทผ๊ฑฐ๋ฅผ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
ํ์ด๋ฐ์ด์
๋ชจ๋ธ์ ๋ฉ์ปค๋์ฆ ํด์, ๋ด๋ถ ๊ตฌ์กฐ ๋ถ์์ ๊ดํ ์ต์ ๋ฆฌ๋ทฐ๋ก AlphaFold3 ๋ด๋ถ ํํ ํด์๊ณผ ์ฐ๊ฒฐ๋ฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
AI safety ์ธก๋ฉด์์ ํด์๊ฐ๋ฅ์ฑ ๋๊ตฌ์ ๋ฐฉ๋ฒ๋ก ์ ์ข
ํฉ ๋ถ์ํ์ฌ, ํธ๋์คํฌ๋จธ ํด์ ํ๋ ์์ํฌ์ ๋ค์ํ ๊ด์ ์ ๋น๊ตํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
ํ์ด๋ฐ์ด์
๋ชจ๋ธ์ ์ธํฐ๋ํฐ๋ธ ํ๊ฒฝ์์์ ํ์ต ๋ฐ ์ ์ ๋ฅ๋ ฅ์ ํ๊ฐํ๋ ๊ด๋ จ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
527๋ฒ ๋
ผ๋ฌธ์ AI ์์คํ
์์ ๊ด์ ์์ ๊ธฐ๊ณ ๋ด์ฌ์ ๋ฉ์ปค๋์ฆ ํด์ ์๋ฒ ์ด๋ฅผ ๋ค๋ฃจ์ด, 1085์ ํ๋ก ๊ธฐ๋ฐ ์ค๋ช
ํ๊ณ์ ์ฐ์์ ์ ๋๋นํด๋ณผ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
InternAgent ๋
ผ๋ฌธ์ ํด๋ก์ฆ๋๋ฃจํ ๊ณผํ ์์ด์ ํธ์ ์คํ์ ์งํฅํ๋ฉฐ, 527๋ฒ์ ๋ฉ์ปค๋์ฆ ํด์๊ฐ๋ฅ์ฑ ์ด์๊ฐ ์ค์ ์ฐ๊ตฌ ์๋ํ์์ ์ด๋ป๊ฒ ์๋ํ๋์ง ๋ค๋ฅธ ์ธก๋ฉด์ ๋ณด์ฌ์ค๋ค.
๋ค๋ฅธ ์ ๊ทผ
MechInterp for AI Safety ๋
ผ๋ฌธ์ ๋ชจ๋ธ ํด์๊ณผ ์๋ฌผํ์ ์ ํฉ์ฑ ํ๊ฐ ๋ฐฉ์์ ์ฐจ์ด์ ์ ๊ตฌ์ฒด์ ์ผ๋ก ๋ณด์ฌ์ค๋ค.
๋ค๋ฅธ ์ ๊ทผ
machine interpretability ์์ ์ฑ ๊ด์ ์ ์ข
ํฉ ๋ฆฌ๋ทฐ ๋
ผ๋ฌธ์ผ๋ก, ํ๊ฐ์ ๋ฌผ๋ฆฌ์ /ํด์์ ํ๊ณ๋ฅผ ๋
ผ์ํ๋ ๋ฐ ๊ด์ ํ์ฅ์ ๋์์ด ๋ฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
527๋ฒ ๋
ผ๋ฌธ์ AI ์์ ์ฑ๊ณผ ์ธ๊ณผ ์ถ๋ก ์ ๊ธฐ๊ณ์ ํด์ ๊ฐ๋ฅ์ฑ์ ์ด์ ์ ๋์ด, 191๋ฒ ๋
ผ๋ฌธ์ socially responsible AI ๋
ผ์๋ฅผ ์ค์ LLM ์์ ์ฑ/ํฌ๋ช
์ฑ ์ฐ๊ตฌ์ ์ฐ๊ฒฐํด์ค๋ค.
ํ์ ์ฐ๊ตฌ
๊ธฐ๊ณ์ ํด์ ๊ฐ๋ฅํ(Interpretable) AI ์์ ์ฑ ์๋ฒ ์ด๋ก, ์๋ํ ์ํ ์ฆ๋ช
์์คํ
์ ์ ๋ขฐ์ฑ ํ๊ฐ์ ์ง์ ์ ์ธ ํต์ฐฐ์ ๋ํ๋ค.
ํ์ ์ฐ๊ตฌ
A practical review of mechanistic interpretability for transformers ๋
ผ๋ฌธ์ ํธ๋์คํฌ๋จธ ๊ณ์ด์์์ ๊ธฐ๊ณ๋ก ์ ํด์ ๊ฐ๋ฅ์ฑ ๋ฐฉ๋ฒ์ ์์ธํ ๋
ผ์ํ์ฌ 527์ ์ด๋ก ์ ๋ฆฌ๋ทฐ๋ฅผ ์ค๋ฌด์ ์ ์ฉํ ์ ์๋๋ก ๋ณด์ํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
527์ AI ์์ ์ฑ๊ณผ ํด์๊ฐ๋ฅ์ฑ ๋
ผ์๋ 457์์ LLM ํ๊ฐ ๋ฐฉ์ง ๋ฐ ์ ๋ขฐ์ฑ ํ๋ณด ์์ด์ ํธ ๊ฐ๋ฐ์ ํต์ฌ ์ด์๋ฅผ ๋์ฑ ์ฌ์ธต์ ์ผ๋ก ๊ณ ์ฐฐํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
Mechanistic interpretability for ai safetyโa review ๋
ผ๋ฌธ์ LLM์ ๋ด๋ถ memory ๋ฐ ํด์์ฑ ๋ฉ์ปค๋์ฆ์ ์์ ์ฑ๊ณผ ๋น๊ตํด 355 ๋
ผ๋ฌธ์ ์ธ๊ฐ-๊ธฐ๊ณ ๊ธฐ์ต ๋น๊ต๋ฅผ ์ค์ ์ํ ์ฌ๋ก๋ก ํ์ฅํ๋ค.
์์ฉ ์ฌ๋ก
LLM์ ๋ด์ฌ ์ง์๊ณผ ์ค์ ํ์ฉ ์ง์ ๊ฐ ๊ฒฉ์ฐจ๋ฅผ ์ง๋จํ๋ 438๋ฒ ๋
ผ๋ฌธ์ ํ๋ ์์ํฌ์ ๋ฉ์ปค๋์ฆ ํด์ ๊ธฐ๋ฐ ์ธ๊ณผ ๋ถ์์ ์ ์ฉํ ์ ์๋ค.
์์ฉ ์ฌ๋ก
Language agents mirrorโฆ๋ LLM ์ธ๊ณผ์ถ๋ก ํธํฅ ๋ถ์์ ๊ตฌ์ฒด์ ์ฌ๋ก๋ก ์ ์ํ์ฌ ๋ฉ์ปค๋์ฆ ํด์ ๊ฐ๋ฅ์ฑ์ ์ค์ ์ ์ฉ์ ๋ณด์ฌ์ค๋ค.
์์ฉ ์ฌ๋ก
LLM์ ์๊ธฐ๊ฐ์ ๋ฐ ๊ฒ์ฆ ๋ฅ๋ ฅ ๋ถ์์ ํตํด ํด์๊ฐ๋ฅ์ฑ๊ณผ ์์ ์ฑ ๋
ผ์๊ฐ ์ค์ LLM ํ์ฉ์์ ์ด๋ค ์๋ฏธ๋ฅผ ๊ฐ๋์ง ๋ณด์ฌ์ค๋ค.
์์ฉ ์ฌ๋ก
Mechanistic Interpretability Tool for AI Weather Models ๋
ผ๋ฌธ์ ํด์๊ฐ๋ฅ์ฑ ๋๊ตฌ๋ฅผ ์ค์ ๊ณผํ AI ๋ชจ๋ธ(๊ธฐ์)์ ์ ์ฉํ์ฌ, 527 ๋
ผ๋ฌธ์ ๊ฐ๋
์ ํน์ ์ํฉ์ ์ค์ง์ ์ผ๋ก ์ ์ฉํ ์์๋ฅผ ์ ๊ณตํฉ๋๋ค.