์ ์: Wenbo Pan, Zhichao Liu, Qiguang Chen, Xiangyang Zhou, Haining Yu, Xiaohua Jia | ๋ ์ง: 2025 | DOI: N/A 📄 PDF
Essence
์์ ์์ฐจ ๊ณต๊ฐ(Safety Residual Space) ๊ฐ๋
๋. ์์ ๋ฏธ์ธ์กฐ์ (safety fine-tuning) ์ค ํํ ๋ณํ์ ์ ํ ๊ฒฐํฉ์ผ๋ก ์ ์๋๋ฉฐ, ์ง๋ฐฐ์ ๋ฐฉํฅ๊ณผ ๋น์ง๋ฐฐ์ ๋ฐฉํฅ์ ์ํธ์์ฉ์ ๋ณด์ฌ์ค
๋๊ท๋ชจ์ธ์ด๋ชจ๋ธ(LLM)์ ์์ ์ ๋ ฌ ํ๋์ ๋จ์ผ ์ ํ ๋ฐฉํฅ์ด ์๋ ํ์ฑํ ๊ณต๊ฐ์ ๋ค์ฐจ์ ์ง๊ต ๋ฐฉํฅ๋ค์ ์ํธ์์ฉ์ผ๋ก ์ ์ด๋๋ค. ๋ณธ ์ฐ๊ตฌ๋ ์์ ๋ฏธ์ธ์กฐ์ ๊ณผ์ ์์ ๋ฐ์ํ๋ ํํ ๋ณํ๋ฅผ ๋ถ์ํ์ฌ ๊ฑฐ๋ถ ํ๋์ ์ง๋ฐฐํ๋ ์ฃผ๋์ ๋ฐฉํฅ๊ณผ ๊ฐ์ค์ ๋ด๋ฌํฐ๋ธ, ์ญํ ๊ทน ๊ฐ์ ์๋ก ๋ค๋ฅธ ํน์ง์ ๋ํ๋ด๋ ๋ถ์ฐจ์ ๋ฐฉํฅ๋ค์ ๋ฐ๊ฒฌํ๋ค.
Evaluation
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ LLM ์์ ์ ๋ ฌ์ ๋ํ ๋ค์ฐจ์์ ํด์์ ์ ๊ณตํ๋ ์ฐฝ์์ ์ด๊ณ ์ค์ง์ ์ธ ์ฐ๊ตฌ์ด๋ค. ์์ ์์ฐจ ๊ณต๊ฐ์ ๊ฐ๋
๊ณผ ์ง๊ต ๋ฐฉํฅ ๋ถ์์ ํตํด ๊ธฐ์กด ๋จ์ผ ๋ฐฉํฅ ํ๋ก๋ธ์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ณ , ๋ถ์ฐจ์ ํน์ง์ ์ญํ ์ ๋ฐํ์ผ๋ก์จ ์์ ๋ฉ์ปค๋์ฆ์ ์ดํด๋ฅผ ์ฌํ์์ผฐ๋ค. ํนํ ํธ๋ฆฌ๊ฑฐ ํ ํฐ ๋ถ์์ ํตํ ์ทจ์ฝ์ฑ ๋ฐ๊ฒฌ์ ํฅํ ์์ ๋ฐฉ์ด ๊ฐํ์ ์ค์ํ ํต์ฐฐ์ ์ ๊ณตํ๋ค. ๊ทธ๋ฌ๋ ์ ํ์ฑ ๊ฐ์ , ๋จ์ผ ๋ชจ๋ธ ํ๊ฐ, ์ ํ๋ ๋ฐ์ดํฐ์
๊ท๋ชจ ๋ฑ์ ํ๊ณ๋ ๋
ผ๋ฌธ์ ์ํฅ๋ ฅ๊ณผ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ์ ๋ค์ ์ ์ฝํ๋ค. ๊ธฐ๊ณ์ ํด์ ๊ฐ๋ฅ์ฑ(mechanistic interpretability) ๋ถ์ผ์์ ์๋ฏธ ์๋ ๊ธฐ์ฌ์ด๋, ์ค๋ฌด์ ์์ ๊ฐํ๋ก์ ์ฐ๊ฒฐ์ ์ถ๊ฐ ์ฐ๊ตฌ๋ฅผ ์ํ๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
Mechanistic interpretability for ai safetyโa review ๋
ผ๋ฌธ์ LLM ์ ๋ ฌ์ ๋ด๋ถ ํํ ๋ณํ์ ์์ ์ฑ ์ด์ ๋ถ์์ ์ด๋ก ์ ๊ธฐ๋ฐ์ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
LLM alignment์ ๋ค์ํ ์ฐจ์์ ๋
ผ์ํ์ฌ, 421๊ณผ ๊ฐ์ ๋ฌธ๋งฅ ์์ ์ ์ ยท์กฐํฉ์์ ๋ํ๋๋ ์ธ๊ณต์ง๋ฅ ํ์ต/์ ์์ ๋ณต์ก์ฑ์ ์ด๋ก ์ ์ผ๋ก ๋ท๋ฐ์นจํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
RBF++ ๋
ผ๋ฌธ์ LLM์ ์ถ๋ก ๊ฒฝ๊ณ์ ์์ ์ ๋ ฌ์ ์๋์ ๋ถ์์ ๊ฐ๋ฅํ๊ฒ ํ์ฌ ๋ณธ ์ฐ๊ตฌ์ ์ด๋ก ์ ๊ธฐ๋ฐ์ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
764 ๋
ผ๋ฌธ์ ๋ค์ค์์ด์ ํธ ์์คํ
์ alignment์ ํ๋ ๋ฌธ์ ๋ 800 ๋
ผ๋ฌธ์ด ๋ค๋ฃจ๋ LLM alignment์ ์จ์ ์ฐจ์๊ณผ ๋ฐ์ ํ ์ฐ๊ด๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
800๋ฒ ๋
ผ๋ฌธ์ LLM ์ ๋ ฌ(Alignment)๊ณผ ์ธ๊ฐ๊ณผ LLM ๊ตฌ๋ณ ์ญ์น ๋ฌธ์ (ํ๋งํ
์คํธ์ ํ๊ณ ํฌํจ)๋ฅผ ๋ค์ฐจ์ ์๊ฐ์์ ๋ค๋ฃจ๋ฉฐ, 477๋ฒ์ ์ค์ฆ ๊ฒฐ๊ณผ ํด์์ ๊ธฐ๋ฐ์ ํต์ฐฐ์ ์ ๊ณตํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
LLM ์์ด์ ํธ์ ๋ฉํฐ-์์ด์ ํธ ์กฐ์จ๊ณผ alignment์ ์ด๋ก ์ ์ธก๋ฉด์ ๋ถ์ํ์ฌ, ๋ฉํฐ์์ด์ ํธ ๊ธฐ๋ฐ ์์จ ๊ณผํ์ ์์คํ
์ ์ ๋ขฐ์ฑ ์ฐ๊ตฌ์ ์ฐ๊ด๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
800 ๋
ผ๋ฌธ์ LLM ์์ด์ ํธ alignmentยท๋ฉ๋ชจ๋ฆฌ ๋ฑ ๊ณ ์ฐจ์์ ์์ด์ ํธ ์ค๊ณ ์ฐ๊ตฌ๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ๋ค๋ฃจ์ด, EAA ์์คํ
์ ๊ทผ๋ณธ์ ์ ๋ขฐ์ฑ ๋
ผ์์ ์ฐ๊ฒฐ๋ฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋๊ท๋ชจ ์ธ์ด๋ชจ๋ธ์ ์์ ์ฑ๊ณผ ์ ๋ ฌ(Alignment) ์ ๋ขฐ์ฑ ํ๊ฐ ํ์ด ๋ค์ฐจ์ ์์ ์ฑ ๋ถ์๊ณผ ์ง์ ์ฐ๊ฒฐ๋จ.
๋ค๋ฅธ ์ ๊ทผ
ํธ๋์คํฌ๋จธ ๊ธฐ๊ณ์ ํด์๊ฐ๋ฅ์ฑ ๋ฆฌ๋ทฐ ๋
ผ๋ฌธ์ผ๋ก, LLM์ ๋ด๋ถ ํ์ฑํ ๋ฐ ํํ ๋ณํ ๋ถ์์์ ๋์ถ๋๋ ํต์ฐฐ๊ณผ ๋น๊ตํ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
The hidden dimensions of llm alignment ๋
ผ๋ฌธ์ LLM์ ์ ๋ ฌ(alignment) ๋ฌธ์ ์ ๋ค์ฐจ์์ฑ์ ์ด์ ์ ๋ง์ถ์ด, ๋ด๋ถ ๋์ ํด์๊ณผ ๋น๊ตํด ์ฝ๊ธฐ์ ์ ํฉํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM ๋ด ํํ ๋ค์ฐจ์ ์์ ์ฑ ๋ถ์๊ณผ ๋ฉํฐ๋ชจ๋ฌ ์ถ๋ก ์์์ ์๊ฐ์ ์ฌ๊ณ ๋ฉ์ปค๋์ฆ์ ๋น๊ตํด ๋ชจ๋ธ ๋ด๋ถ ๋์ ํน์ฑ์ ์ดํดํ๋ ๋ฐ ์ฐธ๊ณ ๋ฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
141์์ ์ฌ์ฉ๋ ์ ๊ฒฝ๋ง ๊ธฐ๋ฐ ์คํ ์คํจ ๊ฐ์ง ๊ธฐ๋ฅ์ 800 ๋
ผ๋ฌธ์ ์์ด์ ํธ alignment ๋ฌธ์ ํ๊ตฌ์ ์ฐ๊ฒฐ๋๋ค.
ํ์ ์ฐ๊ตฌ
LLM ์ ๋ ฌ์ ๋ค์ฐจ์์ ๊ตฌ์กฐยท์์ ์ฑ ํ๊ฐ๊ฐ RBF++์ ์ถ๋ก ๊ฒฝ๊ณ ์ต์ ํ ๋ถ์๊ณผ ์ง์ ์ฐ๊ฒฐ๋ฉ๋๋ค.
์์ฉ ์ฌ๋ก
The hidden dimensions of llm alignment ๋
ผ๋ฌธ์ ์ค์ LLM ์ ๋ ฌ ๋ฌธ์ ์ ์ฑ๋ฅ ํ๊ฐ์์ Gemma 2 ๊ฐ์ ๊ฒฝ๋ ๋ชจ๋ธ์ ์ฅ๋จ์ ๋ฐ ํ์ฉ ์ฌ๋ก๋ฅผ ๋ค๋ฃน๋๋ค.
์์ฉ ์ฌ๋ก
LLM์ ์์ ์ฑ๊ณผ ์ ๋ ฌ ๋ฌธ์ ๋ฅผ ์ค์ ๋ฌผ๋ฆฌ ์ถ๋ก ๋ฒค์น๋งํฌ์ ์ด๋ป๊ฒ ๋ฐ์ํ ์ง ํ๊ตฌํ ๋ ์ฐธ๊ณ ๊ฐ ๋ฉ๋๋ค.
๋ฐ๋ก /๋นํ
800 ๋
ผ๋ฌธ์ LLM ์ ๋ขฐ์ฑ๊ณผ ์ ๋ ฌ ๋ฌธ์ ์ ํน์ฑ์ ๋ค์ํ ๊ด์ ์์ ๋ค๋ฃจ๋ฉฐ, 846์ ํ๋ ์์ํฌ์ ๋ณด์์ ์ด๋ฉฐ ๋๋ก๋ ๋๋น๋๋ ๋
ผ์๋ฅผ ์ ๊ฐํฉ๋๋ค.
๋ฐ๋ก /๋นํ
493์์ RAG์ LLM ํ์ฉ ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ๊ฐ์กฐํ๋๋ฐ, 800๋ฒ ๋
ผ๋ฌธ์ LLM ์ ๋ ฌ ๊ณผ์ ์์ ๋ฐ์ํ๋ ์จ๊ฒจ์ง ํธํฅ ๋ฌธ์ ๋ฅผ ๋นํ์ ์ผ๋ก ์ง์ ํ์ฌ ์ํธ์ฐธ์กฐ๊ฐ ํ์ํฉ๋๋ค.
๋ฐ๋ก /๋นํ
AI ์์ด์ ํธ ์ํ๊ณ์ ์ ๋ขฐ์ alignment ์ด์๊ฐ agent๊ฐ co-evolution๊ณผ ์ํธ์์ฉ์ ๊ด์ ์์ ์ถ๊ฐ์ ์ผ๋ก ๋ค๋ฃธ.
๋ฐ๋ก /๋นํ
800๋ฒ ๋
ผ๋ฌธ์ LLM ์์ด์ ํธ์ ์กฐ์จ ๋ฐ ์ ๋ ฌ ๋ฌธ์ ์ ๋ด์ฌ๋ ๋ค์ฐจ์์ ํน์ฑ์ ๋ถ์ํ๋ฏ๋ก, 1098์ ๋ฉํฐ๋ชจ๋ฌ ์ด์์ฒด์ ๊ฐ๋ฐ์ ์ ์ฌ์ ์ทจ์ฝ์ ๋ฐ ํ์ฅ ์ ๋ต ๋
ผ์์ ์ ์ฉํฉ๋๋ค.