The hidden dimensions of llm alignment: A multi-dimensional safety analysis

์ €์ž: Wenbo Pan, Zhichao Liu, Qiguang Chen, Xiangyang Zhou, Haining Yu, Xiaohua Jia | ๋‚ ์งœ: 2025 | DOI: N/A 📄 PDF


Essence

Figure 1

์•ˆ์ „ ์ž”์ฐจ ๊ณต๊ฐ„(Safety Residual Space) ๊ฐœ๋…๋„. ์•ˆ์ „ ๋ฏธ์„ธ์กฐ์ •(safety fine-tuning) ์ค‘ ํ‘œํ˜„ ๋ณ€ํ™”์˜ ์„ ํ˜• ๊ฒฐํ•ฉ์œผ๋กœ ์ •์˜๋˜๋ฉฐ, ์ง€๋ฐฐ์  ๋ฐฉํ–ฅ๊ณผ ๋น„์ง€๋ฐฐ์  ๋ฐฉํ–ฅ์˜ ์ƒํ˜ธ์ž‘์šฉ์„ ๋ณด์—ฌ์คŒ

๋Œ€๊ทœ๋ชจ์–ธ์–ด๋ชจ๋ธ(LLM)์˜ ์•ˆ์ „ ์ •๋ ฌ ํ–‰๋™์€ ๋‹จ์ผ ์„ ํ˜• ๋ฐฉํ–ฅ์ด ์•„๋‹Œ ํ™œ์„ฑํ™” ๊ณต๊ฐ„์˜ ๋‹ค์ฐจ์› ์ง๊ต ๋ฐฉํ–ฅ๋“ค์˜ ์ƒํ˜ธ์ž‘์šฉ์œผ๋กœ ์ œ์–ด๋œ๋‹ค. ๋ณธ ์—ฐ๊ตฌ๋Š” ์•ˆ์ „ ๋ฏธ์„ธ์กฐ์ • ๊ณผ์ •์—์„œ ๋ฐœ์ƒํ•˜๋Š” ํ‘œํ˜„ ๋ณ€ํ™”๋ฅผ ๋ถ„์„ํ•˜์—ฌ ๊ฑฐ๋ถ€ ํ–‰๋™์„ ์ง€๋ฐฐํ•˜๋Š” ์ฃผ๋„์  ๋ฐฉํ–ฅ๊ณผ ๊ฐ€์„ค์  ๋‚ด๋Ÿฌํ‹ฐ๋ธŒ, ์—ญํ• ๊ทน ๊ฐ™์€ ์„œ๋กœ ๋‹ค๋ฅธ ํŠน์ง•์„ ๋‚˜ํƒ€๋‚ด๋Š” ๋ถ€์ฐจ์  ๋ฐฉํ–ฅ๋“ค์„ ๋ฐœ๊ฒฌํ•œ๋‹ค.

Motivation

Achievement

Figure 2

๊ณ„์ธต๋ณ„ ์ž”์ฐจ ๊ณต๊ฐ„์˜ ์œ ํšจ ์ˆœ์œ„(Effective Rank). SSFT์™€ DPO ๋ชจ๋‘์—์„œ ์ผ๊ด€๋œ ํŒจํ„ด์„ ๋ณด์ด๋ฉฐ, ์•ˆ์ „ ํŠน์ง•์ด ๋‹ค์ฐจ์›์œผ๋กœ ๋ถ„ํฌํ•จ์„ ์‹œ์‚ฌ

  1. ์•ˆ์ „ ์ž”์ฐจ ๊ณต๊ฐ„ ํ”„๋ ˆ์ž„์›Œํฌ ์ œ์•ˆ: ์•ˆ์ „ ๋ฏธ์„ธ์กฐ์ • ์ค‘ ํ‘œํ˜„ ๋ณ€ํ™”๋ฅผ ์„ ํ˜• ๋ณ€ํ™˜์œผ๋กœ ๋ชจ๋ธ๋งํ•˜๋Š” ์ƒˆ๋กœ์šด ๊ฐœ๋…์„ ๋„์ž…ํ–ˆ๋‹ค. ์ด๋Š” ๊ธฐ์กด์˜ ๋‹จ์ผ ํ”„๋กœ๋ธŒ ๋ฒกํ„ฐ ๋ฐฉ์‹๊ณผ ๋‹ฌ๋ฆฌ ์—ฌ๋Ÿฌ ์ง๊ต ๋ฐฉํ–ฅ์„ ์ž๋™์œผ๋กœ ๋ฐœ๊ฒฌํ•  ์ˆ˜ ์žˆ๋‹ค.
  2. ํ•ด์„ ๊ฐ€๋Šฅํ•œ ๋‹ค์ฐจ์› ํŠน์ง• ๋ฐœ๊ฒฌ: Llama 3 8B์„ ๋Œ€์ƒ์œผ๋กœ ํ•œ ์‹คํ—˜์—์„œ, ์ง€๋ฐฐ์  ๋ฐฉํ–ฅ(dominant component)์ด ๊ฑฐ๋ถ€ ํ–‰๋™์„ ์ฃผ๋กœ ์ œ์–ดํ•˜๋ฉฐ, ์—ฌ๋Ÿฌ ๋ถ€์ฐจ์  ๋ฐฉํ–ฅ๋“ค์ด ๊ฐ€์„ค์  ๋‚ด๋Ÿฌํ‹ฐ๋ธŒ(hypothetical narrative), ์—ญํ• ๊ทน(role-playing) ๋“ฑ์˜ ๊ตฌ๋ถ„ ๊ฐ€๋Šฅํ•œ ํŠน์ง•์„ ๋‚˜ํƒ€๋ƒ„์„ ํ™•์ธํ–ˆ๋‹ค.
  3. ์•ˆ์ „ ์ •๋ ฌ ์ทจ์•ฝ์„ฑ์˜ ์ƒˆ๋กœ์šด ํ†ต์ฐฐ: ๋ถ€์ฐจ์  ๋ฐฉํ–ฅ๋“ค์ด ์ง€๋ฐฐ์  ๋ฐฉํ–ฅ์„ ์ด‰์ง„ํ•˜๊ฑฐ๋‚˜ ์–ต์ œํ•˜๋Š” ์—ญํ• ์„ ์ˆ˜ํ–‰ํ•จ์„ ๋ฐํ˜”์œผ๋ฉฐ, ํ•ด๋กœ์šด ์ฟผ๋ฆฌ์—์„œ ํŠน์ • ํŠธ๋ฆฌ๊ฑฐ ํ† ํฐ์„ ์ œ๊ฑฐํ•˜๋ฉด ์ด๋“ค ๋ฐฉํ–ฅ์„ ์™„ํ™”์‹œ์ผœ ์•ˆ์ „ ๊ธฐ๋Šฅ์„ ์šฐํšŒํ•  ์ˆ˜ ์žˆ์Œ์„ ์‹œ์—ฐํ–ˆ๋‹ค.

How

Figure 3

๊ณ„์ธต๋ณ„ ๋ชจ๋ธ ์ถœ๋ ฅ ์˜ˆ์ธก ์ •ํ™•๋„. ์ง€๋ฐฐ์  ๋ฐฉํ–ฅ์ด ์•ˆ์ „ ํ–‰๋™ ์˜ˆ์ธก์— ๋ฏธ์น˜๋Š” ์˜ํ–ฅ์„ ๋ณด์—ฌ์คŒ

๋ฐฉ๋ฒ•๋ก ์  ๊ธฐ์—ฌ:

Originality

Limitation & Further Study

Evaluation

์ดํ‰: ๋ณธ ๋…ผ๋ฌธ์€ LLM ์•ˆ์ „ ์ •๋ ฌ์— ๋Œ€ํ•œ ๋‹ค์ฐจ์›์  ํ•ด์„์„ ์ œ๊ณตํ•˜๋Š” ์ฐฝ์˜์ ์ด๊ณ  ์‹ค์งˆ์ ์ธ ์—ฐ๊ตฌ์ด๋‹ค. ์•ˆ์ „ ์ž”์ฐจ ๊ณต๊ฐ„์˜ ๊ฐœ๋…๊ณผ ์ง๊ต ๋ฐฉํ–ฅ ๋ถ„์„์„ ํ†ตํ•ด ๊ธฐ์กด ๋‹จ์ผ ๋ฐฉํ–ฅ ํ”„๋กœ๋ธŒ์˜ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๊ณ , ๋ถ€์ฐจ์  ํŠน์ง•์˜ ์—ญํ• ์„ ๋ฐํž˜์œผ๋กœ์จ ์•ˆ์ „ ๋ฉ”์ปค๋‹ˆ์ฆ˜์˜ ์ดํ•ด๋ฅผ ์‹ฌํ™”์‹œ์ผฐ๋‹ค. ํŠนํžˆ ํŠธ๋ฆฌ๊ฑฐ ํ† ํฐ ๋ถ„์„์„ ํ†ตํ•œ ์ทจ์•ฝ์„ฑ ๋ฐœ๊ฒฌ์€ ํ–ฅํ›„ ์•ˆ์ „ ๋ฐฉ์–ด ๊ฐ•ํ™”์— ์ค‘์š”ํ•œ ํ†ต์ฐฐ์„ ์ œ๊ณตํ•œ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์„ ํ˜•์„ฑ ๊ฐ€์ •, ๋‹จ์ผ ๋ชจ๋ธ ํ‰๊ฐ€, ์ œํ•œ๋œ ๋ฐ์ดํ„ฐ์…‹ ๊ทœ๋ชจ ๋“ฑ์˜ ํ•œ๊ณ„๋Š” ๋…ผ๋ฌธ์˜ ์˜ํ–ฅ๋ ฅ๊ณผ ์ผ๋ฐ˜ํ™” ๊ฐ€๋Šฅ์„ฑ์„ ๋‹ค์†Œ ์ œ์•ฝํ•œ๋‹ค. ๊ธฐ๊ณ„์  ํ•ด์„ ๊ฐ€๋Šฅ์„ฑ(mechanistic interpretability) ๋ถ„์•ผ์—์„œ ์˜๋ฏธ ์žˆ๋Š” ๊ธฐ์—ฌ์ด๋‚˜, ์‹ค๋ฌด์  ์•ˆ์ „ ๊ฐ•ํ™”๋กœ์˜ ์—ฐ๊ฒฐ์€ ์ถ”๊ฐ€ ์—ฐ๊ตฌ๋ฅผ ์š”ํ•œ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Mechanistic interpretability for ai safetyโ€“a review ๋…ผ๋ฌธ์€ LLM ์ •๋ ฌ์˜ ๋‚ด๋ถ€ ํ‘œํ˜„ ๋ณ€ํ™”์™€ ์•ˆ์ „์„ฑ ์ด์Šˆ ๋ถ„์„์˜ ์ด๋ก ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
LLM alignment์˜ ๋‹ค์–‘ํ•œ ์ฐจ์›์„ ๋…ผ์˜ํ•˜์—ฌ, 421๊ณผ ๊ฐ™์€ ๋ฌธ๋งฅ ์˜ˆ์‹œ ์„ ์ •ยท์กฐํ•ฉ์—์„œ ๋‚˜ํƒ€๋‚˜๋Š” ์ธ๊ณต์ง€๋Šฅ ํ•™์Šต/์ ์‘์˜ ๋ณต์žก์„ฑ์„ ์ด๋ก ์ ์œผ๋กœ ๋’ท๋ฐ›์นจํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
RBF++ ๋…ผ๋ฌธ์€ LLM์˜ ์ถ”๋ก  ๊ฒฝ๊ณ„์™€ ์•ˆ์ „ ์ •๋ ฌ์˜ ์ˆ˜๋Ÿ‰์  ๋ถ„์„์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜์—ฌ ๋ณธ ์—ฐ๊ตฌ์˜ ์ด๋ก ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
764 ๋…ผ๋ฌธ์˜ ๋‹ค์ค‘์—์ด์ „ํŠธ ์‹œ์Šคํ…œ์˜ alignment์™€ ํ˜‘๋™ ๋ฌธ์ œ๋Š” 800 ๋…ผ๋ฌธ์ด ๋‹ค๋ฃจ๋Š” LLM alignment์˜ ์ˆจ์€ ์ฐจ์›๊ณผ ๋ฐ€์ ‘ํžˆ ์—ฐ๊ด€๋œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
800๋ฒˆ ๋…ผ๋ฌธ์€ LLM ์ •๋ ฌ(Alignment)๊ณผ ์ธ๊ฐ„๊ณผ LLM ๊ตฌ๋ณ„ ์—ญ์น˜ ๋ฌธ์ œ(ํŠœ๋งํ…Œ์ŠคํŠธ์˜ ํ•œ๊ณ„ ํฌํ•จ)๋ฅผ ๋‹ค์ฐจ์› ์‹œ๊ฐ์—์„œ ๋‹ค๋ฃจ๋ฉฐ, 477๋ฒˆ์˜ ์‹ค์ฆ ๊ฒฐ๊ณผ ํ•ด์„์— ๊ธฐ๋ฐ˜์  ํ†ต์ฐฐ์„ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
LLM ์—์ด์ „ํŠธ์˜ ๋ฉ€ํ‹ฐ-์—์ด์ „ํŠธ ์กฐ์œจ๊ณผ alignment์˜ ์ด๋ก ์  ์ธก๋ฉด์„ ๋ถ„์„ํ•˜์—ฌ, ๋ฉ€ํ‹ฐ์—์ด์ „ํŠธ ๊ธฐ๋ฐ˜ ์ž์œจ ๊ณผํ•™์ž ์‹œ์Šคํ…œ์˜ ์‹ ๋ขฐ์„ฑ ์—ฐ๊ตฌ์™€ ์—ฐ๊ด€๋œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
800 ๋…ผ๋ฌธ์€ LLM ์—์ด์ „ํŠธ alignmentยท๋ฉ”๋ชจ๋ฆฌ ๋“ฑ ๊ณ ์ฐจ์›์  ์—์ด์ „ํŠธ ์„ค๊ณ„ ์—ฐ๊ตฌ๋ฅผ ์ฒด๊ณ„์ ์œผ๋กœ ๋‹ค๋ฃจ์–ด, EAA ์‹œ์Šคํ…œ์˜ ๊ทผ๋ณธ์  ์‹ ๋ขฐ์„ฑ ๋…ผ์˜์™€ ์—ฐ๊ฒฐ๋ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ์˜ ์•ˆ์ „์„ฑ๊ณผ ์ •๋ ฌ(Alignment) ์‹ ๋ขฐ์„ฑ ํ‰๊ฐ€ ํ‹€์ด ๋‹ค์ฐจ์› ์•ˆ์ „์„ฑ ๋ถ„์„๊ณผ ์ง์ ‘ ์—ฐ๊ฒฐ๋จ.
๋‹ค๋ฅธ ์ ‘๊ทผ
ํŠธ๋žœ์Šคํฌ๋จธ ๊ธฐ๊ณ„์  ํ•ด์„๊ฐ€๋Šฅ์„ฑ ๋ฆฌ๋ทฐ ๋…ผ๋ฌธ์œผ๋กœ, LLM์˜ ๋‚ด๋ถ€ ํ™œ์„ฑํ™” ๋ฐ ํ‘œํ˜„ ๋ณ€ํ™” ๋ถ„์„์—์„œ ๋„์ถœ๋˜๋Š” ํ†ต์ฐฐ๊ณผ ๋น„๊ตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
The hidden dimensions of llm alignment ๋…ผ๋ฌธ์€ LLM์˜ ์ •๋ ฌ(alignment) ๋ฌธ์ œ์˜ ๋‹ค์ฐจ์›์„ฑ์— ์ดˆ์ ์„ ๋งž์ถ”์–ด, ๋‚ด๋ถ€ ๋™์ž‘ ํ•ด์„๊ณผ ๋น„๊ตํ•ด ์ฝ๊ธฐ์— ์ ํ•ฉํ•˜๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM ๋‚ด ํ‘œํ˜„ ๋‹ค์ฐจ์› ์•ˆ์ „์„ฑ ๋ถ„์„๊ณผ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ถ”๋ก ์—์„œ์˜ ์‹œ๊ฐ์  ์‚ฌ๊ณ  ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ๋น„๊ตํ•ด ๋ชจ๋ธ ๋‚ด๋ถ€ ๋™์ž‘ ํŠน์„ฑ์„ ์ดํ•ดํ•˜๋Š” ๋ฐ ์ฐธ๊ณ ๋ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
141์—์„œ ์‚ฌ์šฉ๋œ ์‹ ๊ฒฝ๋ง ๊ธฐ๋ฐ˜ ์‹คํ—˜ ์‹คํŒจ ๊ฐ์ง€ ๊ธฐ๋Šฅ์€ 800 ๋…ผ๋ฌธ์˜ ์—์ด์ „ํŠธ alignment ๋ฌธ์ œ ํƒ๊ตฌ์™€ ์—ฐ๊ฒฐ๋œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
LLM ์ •๋ ฌ์˜ ๋‹ค์ฐจ์›์  ๊ตฌ์กฐยท์•ˆ์ „์„ฑ ํ‰๊ฐ€๊ฐ€ RBF++์˜ ์ถ”๋ก  ๊ฒฝ๊ณ„ ์ตœ์ ํ™” ๋ถ„์„๊ณผ ์ง์ ‘ ์—ฐ๊ฒฐ๋ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
The hidden dimensions of llm alignment ๋…ผ๋ฌธ์€ ์‹ค์ œ LLM ์ •๋ ฌ ๋ฌธ์ œ์™€ ์„ฑ๋Šฅ ํ‰๊ฐ€์—์„œ Gemma 2 ๊ฐ™์€ ๊ฒฝ๋Ÿ‰ ๋ชจ๋ธ์˜ ์žฅ๋‹จ์  ๋ฐ ํ™œ์šฉ ์‚ฌ๋ก€๋ฅผ ๋‹ค๋ฃน๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
LLM์˜ ์•ˆ์ „์„ฑ๊ณผ ์ •๋ ฌ ๋ฌธ์ œ๋ฅผ ์‹ค์ œ ๋ฌผ๋ฆฌ ์ถ”๋ก  ๋ฒค์น˜๋งˆํฌ์— ์–ด๋–ป๊ฒŒ ๋ฐ˜์˜ํ• ์ง€ ํƒ๊ตฌํ•  ๋•Œ ์ฐธ๊ณ ๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.
๋ฐ˜๋ก /๋น„ํŒ
800 ๋…ผ๋ฌธ์€ LLM ์‹ ๋ขฐ์„ฑ๊ณผ ์ •๋ ฌ ๋ฌธ์ œ์˜ ํŠน์„ฑ์„ ๋‹ค์–‘ํ•œ ๊ด€์ ์—์„œ ๋‹ค๋ฃจ๋ฉฐ, 846์˜ ํ”„๋ ˆ์ž„์›Œํฌ์™€ ๋ณด์™„์ ์ด๋ฉฐ ๋•Œ๋กœ๋Š” ๋Œ€๋น„๋˜๋Š” ๋…ผ์˜๋ฅผ ์ „๊ฐœํ•ฉ๋‹ˆ๋‹ค.
๋ฐ˜๋ก /๋น„ํŒ
493์—์„œ RAG์™€ LLM ํ™œ์šฉ ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ๊ฐ•์กฐํ•˜๋Š”๋ฐ, 800๋ฒˆ ๋…ผ๋ฌธ์€ LLM ์ •๋ ฌ ๊ณผ์ •์—์„œ ๋ฐœ์ƒํ•˜๋Š” ์ˆจ๊ฒจ์ง„ ํŽธํ–ฅ ๋ฌธ์ œ๋ฅผ ๋น„ํŒ์ ์œผ๋กœ ์ง€์ ํ•˜์—ฌ ์ƒํ˜ธ์ฐธ์กฐ๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.
๋ฐ˜๋ก /๋น„ํŒ
AI ์—์ด์ „ํŠธ ์ƒํƒœ๊ณ„์˜ ์‹ ๋ขฐ์™€ alignment ์ด์Šˆ๊ฐ€ agent๊ฐ„ co-evolution๊ณผ ์ƒํ˜ธ์ž‘์šฉ์  ๊ด€์ ์—์„œ ์ถ”๊ฐ€์ ์œผ๋กœ ๋‹ค๋ฃธ.
๋ฐ˜๋ก /๋น„ํŒ
800๋ฒˆ ๋…ผ๋ฌธ์€ LLM ์—์ด์ „ํŠธ์˜ ์กฐ์œจ ๋ฐ ์ •๋ ฌ ๋ฌธ์ œ์— ๋‚ด์žฌ๋œ ๋‹ค์ฐจ์›์  ํŠน์„ฑ์„ ๋ถ„์„ํ•˜๋ฏ€๋กœ, 1098์˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์šด์˜์ฒด์ œ ๊ฐœ๋ฐœ์‹œ ์ž ์žฌ์  ์ทจ์•ฝ์  ๋ฐ ํ™•์žฅ ์ „๋žต ๋…ผ์˜์— ์œ ์šฉํ•ฉ๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •