Axolotl: fairness through assisted self-debiasing of large language model outputs

์ €์ž: Sana Ebrahimi, Kaiwen Chen, Abolfazl Asudeh, Gautam Das, Nick Koudas | ๋‚ ์งœ: 2024 | DOI: N/A 📄 PDF


Essence

Figure 1

์‹œ์Šคํ…œ ์•„ํ‚คํ…์ฒ˜: ํŽธํ–ฅ ๋ฐฉํ–ฅ ์‹๋ณ„ โ†’ ๋ถˆ์พŒํ•œ ํŠน์„ฑ ์‹๋ณ„ โ†’ ์พŒ์ ํ•œ ํ•ด๊ฒฐ์ฑ… ์ œ์‹œ โ†’ ์ƒˆ๋กœ์šด ํ”„๋กฌํ”„ํŠธ ์ƒ์„ฑ

AXOLOTL์€ ๋Œ€๊ทœ๋ชจ์–ธ์–ด๋ชจ๋ธ(LLM)์˜ ์ถœ๋ ฅ๋ฌผ์—์„œ ํŽธํ–ฅ์„ ์‹๋ณ„ํ•˜๊ณ  ์ž์ฒด ์ˆ˜์ •ํ•˜๋„๋ก ์œ ๋„ํ•˜๋Š” ํฌ์ŠคํŠธํ”„๋กœ์„ธ์‹ฑ ํ”„๋ ˆ์ž„์›Œํฌ๋กœ, ๋ชจ๋ธ ๋‚ด๋ถ€ ํŒŒ๋ผ๋ฏธํ„ฐ์— ์ ‘๊ทผํ•˜์ง€ ์•Š๊ณ  ๊ณต๊ฐœ API๋งŒ์„ ์ด์šฉํ•˜์—ฌ ๊ณ„์‚ฐ ๋น„์šฉ์„ ์ตœ์†Œํ™”ํ•˜๋ฉด์„œ ํŽธํ–ฅ ์™„ํ™”๋ฅผ ์‹คํ˜„ํ•œ๋‹ค.

Motivation

Achievement

  1. ๋ชจ๋ธ-๋ฌด์ข…์†์„ฑ(Model-agnostic) ๋‹ฌ์„ฑ: OpenAI, Llama 2 ๋“ฑ ๋‹ค์–‘ํ•œ LLM์— ์ ์šฉ ๊ฐ€๋Šฅํ•˜๋ฉฐ ์‚ฌ์ „ํ•™์Šต/๋ฏธ์„ธ์กฐ์ • ๋ถˆํ•„์š”
  2. ๋‹ค์ค‘ ๋ฏผ๊ฐ ์†์„ฑ ์ง€์›: ์„ฑ๋ณ„(binary/non-binary), ์ธ์ข…, ์ง์—… ๋“ฑ ์—ฌ๋Ÿฌ ๋ฏผ๊ฐ ์†์„ฑ๊ณผ ๋ฏผ๊ฐ ๊ทธ๋ฃน์„ ๋™์‹œ์— ์ฒ˜๋ฆฌ ๊ฐ€๋Šฅ
  3. ๊ณต๊ฐœ API ๊ธฐ๋ฐ˜ ์šด์˜: ๋ชจ๋ธ ๋‚ด๋ถ€ ํŒŒ๋ผ๋ฏธํ„ฐ ์ ‘๊ทผ ์—†์ด API ํ˜ธ์ถœ๋งŒ์œผ๋กœ ๋™์ž‘ํ•˜์—ฌ ๊ณ„์‚ฐ ๋น„์šฉ ๊ทน์†Œํ™”
  4. ์„ธ ๋‹จ๊ณ„ ์ œ๋กœ์ƒท ํ”„๋กœ์„ธ์Šค: (1)ํŽธํ–ฅ ๋ฐฉํ–ฅ ์‹๋ณ„ โ†’ (2)๋ถˆ์พŒํ•œ ํŠน์„ฑ ๊ฐ์ง€ โ†’ (3)์พŒ์ ํ•œ ๋Œ€์•ˆ ์ œ์‹œ๋ฅผ ํ†ตํ•ด ์ฒด๊ณ„์  ํŽธํ–ฅ ์™„ํ™”

How

Figure 1

๋‹จ๊ณ„ 1: ํŽธํ–ฅ ๋ฐฉํ–ฅ ์‹๋ณ„ (Bias Orientation Detection)

๋‹จ๊ณ„ 2: ๋ถˆ์พŒํ•œ ํŠน์„ฑ ์‹๋ณ„ (Unpleasant Characteristic Detection)

๋‹จ๊ณ„ 3: ์พŒ์ ํ•œ ํ•ด๊ฒฐ์ฑ… ์ œ์‹œ (Pleasant Resolution)

๋‹จ๊ณ„ 4: ์ž์ฒด-ํŽธํ–ฅ์ œ๊ฑฐ ์œ ๋„ (Self-Debiasing)

Originality

Limitation & Further Study

ํ›„์† ์—ฐ๊ตฌ ๋ฐฉํ–ฅ:

Evaluation

Novelty: 4/5 Technical Soundness: 3.5/5 Significance: 4/5 Clarity: 4/5 Overall: 3.9/5

์ดํ‰: AXOLOTL์€ ๋ธ”๋ž™๋ฐ•์Šค LLM์— ๋Œ€ํ•œ ์‹ค์šฉ์ ์ด๊ณ  ๋น„์šฉ ํšจ์œจ์ ์ธ ํŽธํ–ฅ ์™„ํ™” ๊ธฐ๋ฒ•์„ ์ œ์‹œํ•œ ํ˜์‹ ์  ์ž‘์—…์ด๋‚˜, ์‚ฌ์ „ ์ •์˜๋œ ๋‹จ์–ด ์ง‘ํ•ฉ์˜ ํ•œ๊ณ„์™€ ์ž„๋ฒ ๋”ฉ ๋ชจ๋ธ ์˜์กด์„ฑ์ด ์žฅ๊ธฐ ์ ์šฉ์„ฑ์„ ์ œ์•ฝํ•œ๋‹ค. ๊ณต๊ฐœ API ๊ธฐ๋ฐ˜ ์ ‘๊ทผ์€ ์‚ฐ์—…์  ๊ฐ€์น˜๊ฐ€ ๋†’์œผ๋‚˜, ๊ธฐ์ˆ ์  ๊ฒฌ๊ณ ์„ฑ๊ณผ ํ‰๊ฐ€ ๋ฒ”์œ„ ํ™•๋Œ€๊ฐ€ ํ•„์š”ํ•˜๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
148์€ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ์˜ ํ›ˆ๋ จ ๋ฐ ์•„ํ‚คํ…์ฒ˜ ์„ค๊ณ„์— ๋Œ€ํ•œ ์ด๋ก ์ ยท๋ฐฉ๋ฒ•๋ก ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
ํŒŒ๋ผ๋ฏธํ„ฐ ์ ‘๊ทผ ์—†์ด LLM ํŽธํ–ฅ์„ ์™„ํ™”ํ•˜๋Š” ์œ ์‚ฌํ•œ ์ ‘๊ทผ ๋ฐฉ์‹์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ์˜ ๊ณต์ •์„ฑ ๋ฐ ํŽธํ–ฅ ๋ฌธ์ œ๋ฅผ ๋‹ค๋ฃจ๋Š” ๊ด€๋ จ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM ์ถœ๋ ฅ์˜ ํŽธํ–ฅ ์ž์ฒด ์ˆ˜์ • ๋ฉ”์ปค๋‹ˆ์ฆ˜์˜ ์œ ์‚ฌํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM์˜ ์‚ฌํšŒ์  ํŽธํ–ฅ ํ‰๊ฐ€ ๋ฐ ์™„ํ™”๋ฅผ ์œ„ํ•œ ๊ด€๋ จ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM์˜ ํŽธํ–ฅ ๊ฐ์ง€ ๋ฐ ์™„ํ™”๋ฅผ ์œ„ํ•œ ์œ ์‚ฌํ•œ ํฌ์ŠคํŠธํ”„๋กœ์„ธ์‹ฑ ์ ‘๊ทผ ๋ฐฉ์‹์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
BiasFilter(158)๋Š” ์ถ”๋ก ๋‹จ๊ณ„(debiasing at inference time)์—์„œ ํŽธํ–ฅ์„ ์™„ํ™”ํ•˜๋Š” ๋˜ ๋‹ค๋ฅธ ๋ฐฉ๋ฒ•์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Axolotl ๋…ผ๋ฌธ์€ LLM์˜ ์ž๋™ ๋””๋ฐ”์ด์–ด์‹ฑ ๋ฐ ๊ณต์ •์„ฑ ํ–ฅ์ƒ ์ธก๋ฉด์„ ๋‹ค๋ฃจ์–ด, 281์˜ ๊ฒฌ๊ณ ์„ฑยท๊ณต์ •์„ฑ ์ฃผ์ œ์™€ ๋‹ค๋ฅธ ์‹คํ—˜์  ๋ฐฉ์‹์œผ๋กœ ๋น„๊ตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Axolotl ๋…ผ๋ฌธ์€ LLM์˜ ํŽธํ–ฅ ๋ณด์ •๊ณผ ๊ณต์ •์„ฑ์— ์ดˆ์ ์„ ๋งž์ถ˜ ๋Œ€์•ˆ์  ์ ‘๊ทผ๋ฒ•์„ ์ œ์‹œํ•˜๋ฏ€๋กœ ๋น„๊ต๊ฐ€ ์œ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
์ปจํ…์ŠคํŠธ ์••์ถ•์ด๋‚˜ ํšจ์œจ์  ์ฃผ์˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ํ†ตํ•ด ์žฅ๋ฌธ ์ฒ˜๋ฆฌ๋ฅผ ํ™•์žฅํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
284๋Š” LLM์ด ์ƒ์„ฑํ•˜๋Š” ํ…์ŠคํŠธ์˜ ๋‹ค์–‘์„ฑ๊ณผ ํŽธํ–ฅ ์ธก์ •์— ์ดˆ์ ์„ ๋งž์ถฐ, AXOLOTL์˜ ํŽธํ–ฅ์ œ๊ฑฐ ์„ฑ๋Šฅ ํ‰๊ฐ€์— ๋ฐ”๋กœ ์ ์šฉ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
846๋ฒˆ ๋…ผ๋ฌธ์€ LLM์˜ ์‹ ๋ขฐ์„ฑ๊ณผ ๊ณต์ •์„ฑ ๋“ฑ ๋‹ค์ฐจ์› ํ‰๊ฐ€๋ฅผ ์‹œ๋„ํ•˜์—ฌ, 148๋ฒˆ ๋””๋ฐ”์ด์–ด์‹ฑ์˜ ํšจ๊ณผ์™€ ํ•œ๊ณ„๋ฅผ ๊ฒ€์ฆํ•  ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ๊ณตํ•œ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
198์€ ์ฐจํŠธ ์ถ”๋ก ์—์„œ ์‹œ๊ฐ์  instruction-tuning์„ ์‹œ๋„ํ•˜์—ฌ, 148์˜ ํŽธํ–ฅ ์™„ํ™”๊ฐ€ ์‹ค์ œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์‘์šฉ์—์„œ ํšจ๊ณผ์ ์œผ๋กœ ์ ์šฉ๋  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
LLM์˜ ํŽธํ–ฅ๊ณผ ๊ณต์ •์„ฑ ๋ฌธ์ œ๋ฅผ self-debiasing ๋ฐฉ์‹์œผ๋กœ ์ฒ˜๋ฆฌํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ๋‹ค๋ฃจ์–ด, ์•”๋ฌต์  ๊ทœ๋ฒ” ํƒ์ƒ‰์˜ ์‹ค์งˆ์  ๋ฐฉ๋ฒ•๋ก ์„ ์ œ์‹œํ•จ.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •