Essence
์์คํ
์ํคํ
์ฒ: ํธํฅ ๋ฐฉํฅ ์๋ณ โ ๋ถ์พํ ํน์ฑ ์๋ณ โ ์พ์ ํ ํด๊ฒฐ์ฑ
์ ์ โ ์๋ก์ด ํ๋กฌํํธ ์์ฑ
AXOLOTL์ ๋๊ท๋ชจ์ธ์ด๋ชจ๋ธ(LLM)์ ์ถ๋ ฅ๋ฌผ์์ ํธํฅ์ ์๋ณํ๊ณ ์์ฒด ์์ ํ๋๋ก ์ ๋ํ๋ ํฌ์คํธํ๋ก์ธ์ฑ ํ๋ ์์ํฌ๋ก, ๋ชจ๋ธ ๋ด๋ถ ํ๋ผ๋ฏธํฐ์ ์ ๊ทผํ์ง ์๊ณ ๊ณต๊ฐ API๋ง์ ์ด์ฉํ์ฌ ๊ณ์ฐ ๋น์ฉ์ ์ต์ํํ๋ฉด์ ํธํฅ ์ํ๋ฅผ ์คํํ๋ค.
How
๋จ๊ณ 1: ํธํฅ ๋ฐฉํฅ ์๋ณ (Bias Orientation Detection)
- ๋ชจ๋ธ ์ถ๋ ฅ r์ ์๋ฒ ๋ฉ ๋ฒกํฐ vโแตฃ๊ณผ ๊ฐ ๋ฏผ๊ฐ ๊ทธ๋ฃน gโโ ๊ฐ ์ฝ์ฌ์ธ ์ ์ฌ๋ ๊ณ์ฐ
- ์ ์ฌ๋ > ฮต ์ด๋ฉด ํน์ ๊ทธ๋ฃน์ ๋ํ ๋ฐฉํฅ์ฑ ํธํฅ์ผ๋ก ํ์
- ์์: k = arg max ฮฒ_r(gโแตข), orientation(r) = gโ if ฮฒ_r(gโโ) โฅ ฮต
๋จ๊ณ 2: ๋ถ์พํ ํน์ฑ ์๋ณ (Unpleasant Characteristic Detection)
- May et al. (2019)์ ๊ทธ๋ฃน๋ณ ๋ถ์พ-์พ์ ๋จ์ด ์งํฉ(Tโป, Tโบ) ํ์ฉ
- ์ถ๋ ฅ r๊ณผ ๋ถ์พ ๋จ์ด wโป ๊ฐ ์ต๋ ์ ์ฌ๋ > ฮต ์ด๋ฉด ํด๋น ํน์ฑ์ด ํธํฅ ์์ธ์ผ๋ก ์๋ณ
- ์์: wโป = arg max cos(vโแตฃ, tโ) for tโ โ Tโปโ
๋จ๊ณ 3: ์พ์ ํ ํด๊ฒฐ์ฑ
์ ์ (Pleasant Resolution)
- ์์ ๋ฒกํฐ uโ๋ฅผ ๊ณ์ฐํ์ฌ vโแตฃ + uโ๊ฐ wโโป๊ณผ ์ง๊ตํ๋๋ก ์ค์
- ๋ฒกํฐ ๊ฑฐ๋ถ ๊ณต์(vector rejection formula) ์ฌ์ฉ: uโ* = (uโโ/||uโโ|| - vโโ)
- ๊ฐ์ฅ ๊ฐ๊น์ด ์พ์ ๋จ์ด wโบ ์ ํ: arg max cos(wโ, uโ*)
๋จ๊ณ 4: ์์ฒด-ํธํฅ์ ๊ฑฐ ์ ๋ (Self-Debiasing)
- ์๋ณ๋ ํธํฅ ๋ฐฉํฅ, ๋ถ์พ ํน์ฑ, ์พ์ ๋์์ ํฌํจํ ์ฌ์์ฑ ์ง์๋ฌธ ์์ฑ
- LLM์ด ์๋ ์ถ๋ ฅ์ ์ฌ์์ฑํ๋ ์พ์ ํ ํํ์ผ๋ก ๋์ฒดํ๋๋ก ์ ๋
Evaluation
Novelty: 4/5 Technical Soundness: 3.5/5 Significance: 4/5 Clarity: 4/5 Overall: 3.9/5
์ดํ: AXOLOTL์ ๋ธ๋๋ฐ์ค LLM์ ๋ํ ์ค์ฉ์ ์ด๊ณ ๋น์ฉ ํจ์จ์ ์ธ ํธํฅ ์ํ ๊ธฐ๋ฒ์ ์ ์ํ ํ์ ์ ์์
์ด๋, ์ฌ์ ์ ์๋ ๋จ์ด ์งํฉ์ ํ๊ณ์ ์๋ฒ ๋ฉ ๋ชจ๋ธ ์์กด์ฑ์ด ์ฅ๊ธฐ ์ ์ฉ์ฑ์ ์ ์ฝํ๋ค. ๊ณต๊ฐ API ๊ธฐ๋ฐ ์ ๊ทผ์ ์ฐ์
์ ๊ฐ์น๊ฐ ๋์ผ๋, ๊ธฐ์ ์ ๊ฒฌ๊ณ ์ฑ๊ณผ ํ๊ฐ ๋ฒ์ ํ๋๊ฐ ํ์ํ๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
148์ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ์ ํ๋ จ ๋ฐ ์ํคํ
์ฒ ์ค๊ณ์ ๋ํ ์ด๋ก ์ ยท๋ฐฉ๋ฒ๋ก ์ ๊ธฐ๋ฐ์ ์ ๊ณตํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
ํ๋ผ๋ฏธํฐ ์ ๊ทผ ์์ด LLM ํธํฅ์ ์ํํ๋ ์ ์ฌํ ์ ๊ทผ ๋ฐฉ์์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ์ ๊ณต์ ์ฑ ๋ฐ ํธํฅ ๋ฌธ์ ๋ฅผ ๋ค๋ฃจ๋ ๊ด๋ จ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM ์ถ๋ ฅ์ ํธํฅ ์์ฒด ์์ ๋ฉ์ปค๋์ฆ์ ์ ์ฌํ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM์ ์ฌํ์ ํธํฅ ํ๊ฐ ๋ฐ ์ํ๋ฅผ ์ํ ๊ด๋ จ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM์ ํธํฅ ๊ฐ์ง ๋ฐ ์ํ๋ฅผ ์ํ ์ ์ฌํ ํฌ์คํธํ๋ก์ธ์ฑ ์ ๊ทผ ๋ฐฉ์์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
BiasFilter(158)๋ ์ถ๋ก ๋จ๊ณ(debiasing at inference time)์์ ํธํฅ์ ์ํํ๋ ๋ ๋ค๋ฅธ ๋ฐฉ๋ฒ์ ์ ์ํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
Axolotl ๋
ผ๋ฌธ์ LLM์ ์๋ ๋๋ฐ์ด์ด์ฑ ๋ฐ ๊ณต์ ์ฑ ํฅ์ ์ธก๋ฉด์ ๋ค๋ฃจ์ด, 281์ ๊ฒฌ๊ณ ์ฑยท๊ณต์ ์ฑ ์ฃผ์ ์ ๋ค๋ฅธ ์คํ์ ๋ฐฉ์์ผ๋ก ๋น๊ตํ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
Axolotl ๋
ผ๋ฌธ์ LLM์ ํธํฅ ๋ณด์ ๊ณผ ๊ณต์ ์ฑ์ ์ด์ ์ ๋ง์ถ ๋์์ ์ ๊ทผ๋ฒ์ ์ ์ํ๋ฏ๋ก ๋น๊ต๊ฐ ์ ์๋ฏธํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
์ปจํ
์คํธ ์์ถ์ด๋ ํจ์จ์ ์ฃผ์ ๋ฉ์ปค๋์ฆ์ ํตํด ์ฅ๋ฌธ ์ฒ๋ฆฌ๋ฅผ ํ์ฅํ ์ฐ๊ตฌ์ด๋ค.
์์ฉ ์ฌ๋ก
284๋ LLM์ด ์์ฑํ๋ ํ
์คํธ์ ๋ค์์ฑ๊ณผ ํธํฅ ์ธก์ ์ ์ด์ ์ ๋ง์ถฐ, AXOLOTL์ ํธํฅ์ ๊ฑฐ ์ฑ๋ฅ ํ๊ฐ์ ๋ฐ๋ก ์ ์ฉ ๊ฐ๋ฅํฉ๋๋ค.
์์ฉ ์ฌ๋ก
846๋ฒ ๋
ผ๋ฌธ์ LLM์ ์ ๋ขฐ์ฑ๊ณผ ๊ณต์ ์ฑ ๋ฑ ๋ค์ฐจ์ ํ๊ฐ๋ฅผ ์๋ํ์ฌ, 148๋ฒ ๋๋ฐ์ด์ด์ฑ์ ํจ๊ณผ์ ํ๊ณ๋ฅผ ๊ฒ์ฆํ ํ๋ ์์ํฌ๋ฅผ ์ ๊ณตํ๋ค.
์์ฉ ์ฌ๋ก
198์ ์ฐจํธ ์ถ๋ก ์์ ์๊ฐ์ instruction-tuning์ ์๋ํ์ฌ, 148์ ํธํฅ ์ํ๊ฐ ์ค์ ๋ฉํฐ๋ชจ๋ฌ ์์ฉ์์ ํจ๊ณผ์ ์ผ๋ก ์ ์ฉ๋ ์ ์์์ ๋ณด์ฌ์ค๋๋ค.
์์ฉ ์ฌ๋ก
LLM์ ํธํฅ๊ณผ ๊ณต์ ์ฑ ๋ฌธ์ ๋ฅผ self-debiasing ๋ฐฉ์์ผ๋ก ์ฒ๋ฆฌํ๋ ๋ฐฉ๋ฒ์ ๋ค๋ฃจ์ด, ์๋ฌต์ ๊ท๋ฒ ํ์์ ์ค์ง์ ๋ฐฉ๋ฒ๋ก ์ ์ ์ํจ.