Essence
๋๊ท๋ชจ ์ธ์ด๋ชจ๋ธ์ ์๋ ๋ฉ์ปค๋์ฆ: (a) ๋ชจ๋ธ ์ปดํฌ๋ํธ ๋ด ์ง์์ ์ํคํ
์ฒ ๊ตฌ์ฑ, (b) ์ค๊ฐ ํํ์ ์ธ์ฝ๋ฉ๋ ์ง์, (c) ํ๋ จ ๊ณผ์ ์์์ ์ผ๋ฐํ ๋ฅ๋ ฅ ๋ฐ๋ฌ
์ด ๋
ผ๋ฌธ์ ์ค๋ช
๊ฐ๋ฅ์ฑ(explainability) ๊ด์ ์์ ๋๊ท๋ชจ ์ธ์ด๋ชจ๋ธ(LLM)์ ๋ด๋ถ ์๋ ๋ฉ์ปค๋์ฆ์ ์ฒด๊ณ์ ์ผ๋ก ๊ฒํ ํ ์ข
ํฉ ๋ฆฌ๋ทฐ ๋
ผ๋ฌธ์ด๋ค. ๊ธฐ๊ณ์ ํด์๊ฐ๋ฅ์ฑ(mechanistic interpretability), ํํ ๊ณตํ(representation engineering), ํ๋ จ ์ญํ ๋ถ์์ ํตํด LLM์ ์ง์ ๊ตฌ์ฑ, ๋ถํธํ, ํ์ต ๊ณผ์ ์ ๋ฐํ๊ณ , ์ด๋ฌํ ์ธ์ฌ์ดํธ๊ฐ ๋ชจ๋ธ ํธ์ง, ํ๋ฃจ๋, ์ธ๊ฐ ์ ๋ ฌ์ ์ด๋ป๊ฒ ํ์ฉ๋ ์ ์๋์ง ๋ณด์ฌ์ค๋ค.
Evaluation
์ดํ: ์ด ๋
ผ๋ฌธ์ LLM์ ๋ด๋ถ ์๋ ๋ฉ์ปค๋์ฆ์ ์ค๋ช
๊ฐ๋ฅ์ฑ ๊ด์ ์์ ์ฒด๊ณ์ ์ผ๋ก ์ ๋ฆฌํ ์ฐ์ํ ๋ฆฌ๋ทฐ ๋
ผ๋ฌธ์ผ๋ก, ์ ๊ฒฝ์ยทํ๋กยทํค๋ยทํ๋ จ ์ญํ์ ๊ณ์ธต์ ๋ถ์์ ํตํด LLM์ ํฌ๋ช
์ฑ์ ๋์ธ๋ค. ๋ค๋ง ์ฅ๋๊ฐ ๋ชจ๋ธ ๊ธฐ๋ฐ ๊ฒฐ๊ณผ์ ํ์ค์ ์ ์ฉ ๊ฐ๋ฅ์ฑ๊ณผ ๋๊ท๋ชจ ๋ชจ๋ธ์ผ๋ก์ ํ์ฅ์ฑ์ ์ฌ์ ํ ๊ณผ์ ๋ก ๋จ์ ์๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
527์ LLM์ ์ค๋ช
๊ฐ๋ฅ์ฑ, ์ธํฐํ๋ฆฌํฐ๋น๋ฆฌํฐ ์ต์ ์ด๋ก ๊ณผ ๊ธฐ์ ์ ์์ ์ฑ์ ์ข
ํฉ ๋ฆฌ๋ทฐํด 836์ LLM ๋ฉ์ปค๋์ฆ ๋ถ์ ํ ๋๊ฐ ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
355๋ ์ธ๊ฐ๊ณผ AI ๋ฉ๋ชจ๋ฆฌ ๋ฉ์ปค๋์ฆ์ ๋น๊ตยท๋ถ์ํ๊ธฐ ๋๋ฌธ์, 836์ ์ค๋ช
๊ฐ๋ฅ์ฑ ๋ฆฌ๋ทฐ์ ํตํฉ์ ํต์ฐฐ์ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
836์ LLM ๋ด์ฌ ์๋์๋ฆฌ ํด์ค์ ์ง์คํด, 2246์ ํด์ ๊ฐ๋ฅ์ฑ๊ณผ ๊ฒ์ฆ ๊ฐ๋ฅ์ฑ ๋
ผ์ง์ ์ด๋ก ์ ๊ฑฐ๋ฒ๋์ค๋ฅผ ์ ๊ณตํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
836๋ฒ ๋
ผ๋ฌธ์ ๋ํ ์ธ์ด๋ชจ๋ธ์ ์๋ ์๋ฆฌ๋ฅผ ์ค๋ช
๋ ฅ ๊ด์ ์์ ์กฐ๋ช
ํ์ฌ, 582๋ฒ์ ๋ธ๋๋ฐ์ค ๊ธฐ๋ฐ ๊ทธ๋๋์ธํธ ์ค๋ช
์ฐ๊ตฌ์ ๋์กฐ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM์ ๋ฉํ๋ฌ๋ ๋ฐ ํ๊ฒฝ ์ ์ ๋ฅ๋ ฅ์ ๋ํํ ์ค์ ์์ ํ๊ฐํ๋ ๊ด๋ จ ๋
ผ๋ฌธ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
836๋ LLM์ ๋ด๋ถ ์๋ ๋ฐ ์ค๋ช
๊ฐ๋ฅ์ฑ ์์ฒด์ ์ด์ ์ ๋ง์ถ์ด 021์ด ์ง์ ํ ์ ๋ขฐ์ฑยทํ ๋ฃจ์๋ค์ด์
์ด์์ ๋ํ ๋ค๋ฅธ ์๊ฐ์ ์ ๊ณตํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
The hidden dimensions of llm alignment ๋
ผ๋ฌธ์ LLM์ ์ ๋ ฌ(alignment) ๋ฌธ์ ์ ๋ค์ฐจ์์ฑ์ ์ด์ ์ ๋ง์ถ์ด, ๋ด๋ถ ๋์ ํด์๊ณผ ๋น๊ตํด ์ฝ๊ธฐ์ ์ ํฉํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM ์ ๋ขฐ๋์ ๋ถํ์ค์ฑ, ํด์๊ฐ๋ฅ์ฑ์ ํ๊ตฌ์์ ์๋ก ๋ค๋ฅธ ์ค๋ช
๋ฐฉ๋ฒ๊ณผ ํ๊ฐ ํ์ ๋น๊ตํ ์ ์์ต๋๋ค.
ํ์ ์ฐ๊ตฌ
๋๊ท๋ชจ ๊ธฐ๋ฐ ์์ด์ ํธ์ ๊ตฌ์กฐ์ ํด์๊ฐ๋ฅ์ฑ์ ์ด์ ์ ๋ง์ถ์ด ๋
ผ์ํ๋ฏ๋ก, LLM ๋ด๋ถ ๋ฉ์ปค๋์ฆ ์ค๋ช
๋ฆฌ๋ทฐ์ ์ฐ๊ณํด ๋ณด๊ธฐ๊ฐ ์ข์ต๋๋ค.
์์ฉ ์ฌ๋ก
346์ ์ค์ ๊ณผํ ๋ฌธ์ ์์ foundation model์ ๋ด๋ถ ํด์ ๊ฐ๋ฅ์ฑ ๋ฐ ๋ฐ์ดํฐ ํจ์จ์ฑ ์ธก์ ์ ํตํด 836์ ๋ฉ์ปค๋์ฆ ๋ฆฌ๋ทฐ ๊ฒฐ๊ณผ๋ฅผ ์์ฉํฉ๋๋ค.