Essence
Figure 1: GPT-4o, o1, o1-preview, o1-mini์ jailbreak ํ๊ฐ ์ฑ๋ฅ ๋น๊ต
OpenAI o1 ๋ชจ๋ธ์ ๋๊ท๋ชจ ๊ฐํํ์ต(reinforcement learning)์ผ๋ก ํ๋ จ๋ chain-of-thought ์ถ๋ก ๋ฅ๋ ฅ์ ๊ฐ์ถ ๋ชจ๋ธ๋ก, ๊ธฐ์กด GPT-4o ๋๋น ์์ ์ฑ๊ณผ ๊ฐ๊ฑด์ฑ์ด ํฌ๊ฒ ํฅ์๋์์ผ๋ฉฐ ํนํ jailbreak ๊ณต๊ฒฉ์ ๋ํ ์ ํญ์ฑ์ด ํ๊ธฐ์ ์ผ๋ก ๊ฐ์ ๋์๋ค.
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 5/5 Clarity: 4/5 Overall: 4/5
์ดํ: ๋ณธ ๋ณด๊ณ ์๋ ๋๊ท๋ชจ ์ธ์ด๋ชจ๋ธ์ ์์ ์ฑ ํ๊ฐ์ ์์ด chain-of-thought ์ถ๋ก ๋ฅ๋ ฅ์ด defensive alignment์ ์๋ก์ด ์ฐจ์์ ์ ์ํจ์ ์ค์ฆ์ ์ผ๋ก ์
์ฆํ์ผ๋ฉฐ, ๋ค์ธต์ ์ด๊ณ ์ฒด๊ณ์ ์ธ ํ๊ฐ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ ์ ์์ ํ๊ณ์ ์ฐ์
๋ชจ๋์ ์ค์ํ ๊ธฐ์ฌ๋ฅผ ํ๋ค. ๋ค๋ง chain-of-thought ์์ฒด๊ฐ ์ผ๊ธฐํ ์ ์๋ deception ์ํ๊ณผ ๋๋ฉ์ธ ํนํ ํ๊ฐ์ ๋ถ์กฑ์ ํฅํ ์ฐ๊ตฌ์ ์ค์ํ ๊ณผ์ ๋ก ๋จ์์๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
GPT-4 ๊ธฐ์ ๋ณด๊ณ ์๊ฐ OpenAI ์ฐจ์ธ๋ LLM(o1) ์ฑ๋ฅ๊ณผ ์์ ์ฑ ๊ฐ์ ์ ๊ธฐ์ ์ ยท์ฒ ํ์ ๊ธฐ์ด๋ฅผ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
GPT-4o System Card๋ OpenAI o1 ๋ชจ๋ธ์ ์ฃผ์ ์ ์ ๋ชจ๋ธ๋ก ์์ ์ฑ ๊ฐํ์ ๊ธฐ์ด๊ฐ ๋๋ ์๋ฆฌ์ ๋ฐ์ ๊ฒฝ๋ก๋ฅผ ๋ณด์ฌ์ค๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋ฅ๋ฌ๋์ ๋ถํ์ค์ฑ ์ ๋ํ์ ๋ค๋ฅธ ๋ถ๋ฅ ์ฒด๊ณ๋ ๋ฐฉ๋ฒ๋ก ์ ์ ์ฉํ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
585(Openai o1 system card)๋ o1-preview ๋ชจ๋ธ์ ๊ธฐ์ ์ ์ธ๋ถ ์ฑ๊ณผ์ ์ํ์ฑ์ ๋ค๋ฃจ๋ฉฐ, 322์ ๋น๊ต ํ๊ฐ์ ์ ํฉํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
630๋ฒ์ LLM์ ํ์ฉํด AI ์ฐ๊ตฌ ๊ฒฐ๊ณผ๋ฅผ ์์ธกํ๋ ๋ฐ ์ด์ ์ ๋์ด, 585๋ฒ์ ์ต์ ์์คํ
์นด๋์ ์๋์ ์ผ๋ก AI ์ฑ๋ฅยท์์ ์ฑ ํ๊ฐ์ ๋ค๋ฅธ ๊ด์ ์ ์ ์ํ๋ค.
ํ์ ์ฐ๊ตฌ
TrustLLM์์๋ LLM์ ์ ๋ขฐ์ฑ์ ํ๊ฐํ๊ณ ๊ฐํํ๋ ํ๋ ์์ํฌ๋ฅผ ๋
ผ์ํ๋ฉฐ, OpenAI o1์ ์์ ์ฑ ํ๊ฐ ๋งฅ๋ฝ์์ ๋ง์ ์์ฌ์ ์ ์ค๋ค.
ํ์ ์ฐ๊ตฌ
Openai o1 system card ๋
ผ๋ฌธ์ GPT-4o์ ์ ์ฌํ ์์คํ
์ ์์ ์ฑยท์ํ ํ๊ฐ ์ฒด๊ณ๋ฅผ ์์ธํ ์ค๋ช
ํ์ฌ, ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ์ ์์ ์ฑ ํ๊ฐ ํธ๋ ๋๋ฅผ ํ์
ํ ์ ์์ต๋๋ค.
์์ฉ ์ฌ๋ก
592๋ฒ ๋
ผ๋ฌธ์ Peer review ๋ถ์ผ์์ specialized LLM(์: GPT-4o ๋ฑ๊ณผ ๋น๊ต)์ ํ์ฉํด, 585๋ฒ์ด ๊ฐ์กฐํ ์์ ์ฑยท๊ฐ๊ฑด์ฑ ๋ฌธ์ ์ ๋ํ ์ค์ ์ ์ฉ ์ฌ๋ก๋ฅผ ์ ๊ณตํ๋ค.
์์ฉ ์ฌ๋ก
OpenAI o1 ๋ชจ๋ธ์ AGI ์์ด์ ํธ ์์ ์ฑ ๋ฐ ํ๊ฐ ๊ฒฐ๊ณผ๋ฅผ ๋ถ์ํจ์ผ๋ก์จ, ๋ฒค์น๋งํฌ ์ ์์ ์ฑ๊ณผ ๊ฐ๊ฑด์ฑ ํฅ์ ํจ๊ณผ๋ฅผ ์ค์ฆํ ์ ์์ต๋๋ค.