์ ์: Ruibo Liu, Ruixin Yang, Chenyan Jia, Ge Zhang, Denny Zhou, Andrew M. Dai, Diyi Yang, Soroush Vosoughi | ๋ ์ง: 2023 | DOI: arXiv:2305.16960 📄 PDF
Essence
๊ธฐ์กด์ RLHF์ ๋ฌ๋ฆฌ Stable Alignment์ ์๋ฎฌ๋ ์ด์
๋ ์ฌํ์ ์ํธ์์ฉ์ ํตํด ์ง์ ์ธ์ด๋ชจ๋ธ์ ์ ๋ ฌํ๋ค
๋ณธ ๋
ผ๋ฌธ์ ์๋ฎฌ๋ ์ด์
๋ ์ฌํ์ ์ํธ์์ฉ์ ํตํด ์ธ์ด๋ชจ๋ธ์ ์ฌํ์ ์ผ๋ก ์ ๋ ฌ(socially aligned)์ํค๋ ์๋ก์ด ํ์ต ํจ๋ฌ๋ค์์ ์ ์ํ๋ค. ๊ธฐ์กด ๊ฐ๋
ํ์ต์ด๋ ๋ณด์ ๋ชจ๋ธ๋ง์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํด ๋ค์ค ์์ด์ ํธ ์๋ฎฌ๋ ์ด์
ํ๊ฒฝ(SANDBOX)์์ ์์ฑ๋ ์ํธ์์ฉ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ์ฌ ๋ณด๋ค ๊ฒฌ๊ณ ํ๊ณ ํ์ฅ ๊ฐ๋ฅํ ์ ๋ ฌ ๋ฐฉ๋ฒ์ ์ ์ํ๋ค.
How
SANDBOX์ Back-Scatter ๋ฉ์ปค๋์ฆ: ์ค์ ์์ด์ ํธ๊ฐ ์ด๊ธฐ ์๋ต์ ์์ฑํ ํ, ์ฃผ๋ณ ์์ด์ ํธ๋ค์ ํ๊ฐ์ ํผ๋๋ฐฑ์ ๋ฐ์ ๋ฐ๋ณต์ ์ผ๋ก ๊ฐ์
SANDBOX ์๋ฎฌ๋ ์ด์
:
- 100๊ฐ์ ์ธ์ด๋ชจ๋ธ ๊ธฐ๋ฐ ์ฌํ ์์ด์ ํธ ๊ตฌ์ฑ
- ์ฌํ์ ๊ท๋ฒ ํ์ฑ์ ์ํด ๋
ผ์์ ์ฃผ์ ๋ ์ํ ๊ด๋ จ ์ง๋ฌธ์ ๋ํ ํ ๋ก ์ ๋
- ์์ฌ(latent rule)๋ฅผ ์ธ์ผํฐ๋ธ๋ก ์ค์ ํ์ฌ ์์ด์ ํธ๋ค์ ์์ฒด ๊ฐ์ ์ด์ง
- ์๋ฒ ๋ฉ ๊ธฐ๋ฐ ์๋ฏธ ๊ฒ์์ ํตํด ๊ณผ๊ฑฐ ์๋ต ์ผ๊ด์ฑ ์ ์ง
Back-Scatter ๋ฉ์ปค๋์ฆ:
- ์ค์ ์์ด์ ํธ: ์ง๋ฌธ์ ๋ํ ์ด๊ธฐ ์๋ต ์์ฑ
- ํผ๋๋ฐฑ ์์ง: ๊ทผ์ฒ ์์ด์ ํธ๋ค์ด ํ๊ฐ(7์ ๋ฆฌ์ปคํธ ์ฒ๋)์ ์์ธ ์ค๋ช
์ ๊ณต
- ๋ฐ๋ณต์ ๊ฐ์ : ์ค์ ์์ด์ ํธ๊ฐ ํผ๋๋ฐฑ์ ๋ฐ์ํ์ฌ ์๋ต ๊ฐ์
- ์ต์ ๋ฒ ์์ด์ ํธ: ๋ฉ๋ชจ๋ฆฌ ์์ด ์ ๋ ฌ์ฑ๊ณผ ์ฐธ์ฌ๋ ํ๊ฐ
Stable Alignment 3๋จ๊ณ ํ์ต:
- ๋ชจ๋ฐฉ(Imitation) ๋จ๊ณ: ์ ๋ ฌ๋ ์๋ต ๋ฐ๋ชจ ํ์ต์ ํตํ ๊ธฐ๋ณธ ์ ๋ ฌ ๋ฅ๋ ฅ ์ต๋
- ์๊ธฐ๋นํ(Self-Critic) ๋จ๊ณ: ์์ธํ ํผ๋๋ฐฑ ํ์ต์ ํตํด ๋ถ์ ์ ์๋ต ํ๋ณ ๋ฅ๋ ฅ ๊ฐ๋ฐ
- ์ฌ์ ๋ ฌ(Realignment) ๋จ๊ณ: ๋ฐ๋ณต ์์ ๋ ์๋ต ํ์ต์ ํตํ ์ต์ข
๊ฐ์
ํ๋ ํ ์ต์ ์ฑ ๊ธฐ์ค: ์ ๋ ฌ(alignment)๊ณผ ์ฐธ์ฌ๋(engagement) ํ๊ฐ์ ๊ณฑ์ด ๋ ์ด์ ์ฆ๊ฐํ์ง ์์ ๋ ์๋ฎฌ๋ ์ด์
์ข
๋ฃ
Evaluation
Novelty: 4.5/5 Technical Soundness: 4/5 Significance: 4.5/5 Clarity: 4/5 Overall: 4.2/5
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ ๊ธฐ์กด์ ๊ฐ๋
ํ์ต๊ณผ ๋ณด์ ๋ชจ๋ธ๋ง์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํด ์๋ฎฌ๋ ์ด์
๋ ์ฌํ์ ์ํธ์์ฉ์ ํ์ฉํ๋ ํ์ ์ ์ด๊ณ ์ค์ฉ์ ์ธ ์ ๊ทผ์ ์ ์ํ๋ฉฐ, ๋ฒค์น๋งํฌ์ ์ ๋์ ๊ณต๊ฒฉ์ ๋ํ ๊ฒฌ๊ณ ์ฑ์์ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค. ๋ค๋ง ์๋ฎฌ๋ ์ด์
-ํ์ค ๊ฐ๊ทน, ๋ช
์์ ๊ท์น ์ ์, ๋ค๋ฌธํ์ ์ผ๋ฐํ ์ธก๋ฉด์์ ๊ฐ์ ์ ์ฌ์ง๊ฐ ์๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
From individual to society ๋
ผ๋ฌธ์ ์ฌํ์ ์๋ฎฌ๋ ์ด์
๊ธฐ๋ฐ ์์ด์ ํธ ํ๋ จ์ ๋ฉ์ปค๋์ฆ์ ์ค๋ช
ํ๋ฉฐ, ์ฌํ์ ์ ๋ ฌ LLM์ ๊ทผ๊ฐ์ด ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
LLM์ ์ฌํ์ ์ ๋ ฌ๊ณผ ํ๋ ์์ ์ฑ ๊ด๋ จ ๊ธฐ์ ๊ณผ ์ค์ ์ค๊ณ ์ ๊ณ ๋ คํ ์ด์๋ฅผ ๋ฐฉ๋ฒ๋ก ์ ์ผ๋ก ๋ค๋ฃน๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
์ธ๊ฐ-AI ํ์
์์ emergent cognition๊ณผ ์ฌํ์ ์ํธ์์ฉ ๊ธฐ๋ฐ AI ์ ๋ ฌ ์ด๋ก ๋
ผ์๊ฐ ์ํธ์์ฉํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
838์ LLM ์ฌํ์ ํ์ต ์ค๊ณ๋ 041์์ ํ๊ตฌํ๋ ์ฐ๊ตฌ ๋ณด์กฐ AI์ ์ ์ฌ์ฑ๊ณผ ํ๊ณ์ ๋ํ ์ ์ฑ์ ๋
ผ์์ ๋ฐํ์ ๋ก๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
์ฌํ์ ๊ณํ ๋ฐ ์๋ฎฌ๋ ์ด์
๋ด LLM ํ์ต ์ ๋ต์์์ ์ฌํ ๊ท๋ฒ์ ์ ๋ ฌ ์ฐ๊ตฌ๊ฐ ๊ธฐ์ด๊ฐ ๋ฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋๊ท๋ชจ ์ธ์ด๋ชจ๋ธ์ ๋ฅ๋ ฅ๊ณผ ํ๊ณ๋ฅผ ๋ถ์ํ๋ ์ ์ฌํ ์กฐ์ฌ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
Cultural evolution in populations of large language models ๋
ผ๋ฌธ์ ๋ค์ค ์์ด์ ํธ ์ํธ์์ฉ์ ํตํ LLM ๋ฌธํ ๋ฐ ํ๋ ์งํ ์ฐ๊ตฌ๋ฅผ ๋ณด์ฌ์ค๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
Training socially aligned language models in simulated human society ๋
ผ๋ฌธ์ LLM๊ณผ ์์ด์ ํธ์ ์ฌํ์ ์๋ฎฌ๋ ์ด์
, ๋ค์ธต์ ์ํธ์์ฉ์ ์คํ์ ์ผ๋ก ๊ตฌํํ ์ฌ๋ก๋ฅผ ์ ์ํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋ค์ค ์์ด์ ํธ ์ํธ์์ฉ๋ฟ ์๋๋ผ ์ธ๊ฐ-์ฌํ์ ๋งฅ๋ฝ์ AI ์ธ์ด๋ชจ๋ธ์ ์๋ฎฌ๋ ์ด์
ํ๋ ์ ๊ทผ๋ฒ์ ๋ค๋ฃน๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
413์ ์ธ๊ฐ-AI ํ๋ ํ๋ ์์ํฌ ์ค์ฌ์ด๊ณ 838์ LLM์ ์ฌํ์ ์ํธ์์ฉ ๋ฐ ์ ๋ ฌ(fl alignment) ํ์ต์ ์ด์ ์ ๋ก๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
Training socially aligned language models๋ ์๋ฎฌ๋ ์ด์
๊ธฐ๋ฐ ์ฌํ์ ์ ๋ ฌ(alignement)์ ์ด์ ์ ๋ง์ถฐ BiasFilter์ ๋ณด์์ ์๊ฐ์ ์ ์ํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM ๊ธฐ๋ฐ ๊ณผํ ๋ฐ๊ฒฌ ์๋ํ ๋ถ์ผ์์ ์ ์ฌํ ์ฃผ์ ๋ฅผ ๋ค๋ฃจ๋ ๋์์ ์ฐ๊ตฌ์ด๋ค.
ํ์ ์ฐ๊ตฌ
Training socially aligned language models ๋
ผ๋ฌธ์ ์ฌํ์ ํ๋ ฅ ๋ฐ alignment๋ฅผ agent๊ฐ ํ์ต์ ํต์ฌ์ผ๋ก ๋ค๋ฃจ์ด, ์ฌํ์ฌ๋ฆฌ ๊ธฐ๋ฐ ํ๋ ฅ ๋ฉ์ปค๋์ฆ ์ฐ๊ตฌ์ ๋ฐ์ ๋ฐฉํฅ์ ๋ณด์ฌ์ค๋ค.
ํ์ ์ฐ๊ตฌ
838์ ์ฌํ์ ์ ๋ ฌ LLM ํ์ต ํจ๋ฌ๋ค์์ 413์์ ์ ์ํ๋ ์ธ๊ฐ-AI ํ๋ ํ๋ ์์ํฌ(BCI ์ฐ๊ตฌ ๋ฑ)์ ์ตํฉ๋์ด AI ๋๊ตฌ์ ์ฌํ์ ์ ๋ขฐ์ฑ ํฅ์ ๋ฐฉ์์ผ๋ก ๋ฐ์ ํ ์ ์์ต๋๋ค.
ํ์ ์ฐ๊ตฌ
์ค์ ์คํ workflow ๋ด์์ ์ธ๊ณผ์ reasoning ๋ฐ ๋ฐ์ดํฐ ๋ถ์ ํ๊ฐ๊น์ง ํฌํจํ ํ์ฅ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์ฃผ๋ ๋
ผ๋ฌธ์ด๋ค.