GPT-4 Technical Report

์ €์ž: OpenAI | ๋‚ ์งœ: 2023 | DOI: N/A 📄 PDF


Essence

GPT-4๋Š” ์ด๋ฏธ์ง€์™€ ํ…์ŠคํŠธ๋ฅผ ์ž…๋ ฅ๋ฐ›์•„ ํ…์ŠคํŠธ๋ฅผ ์ถœ๋ ฅํ•˜๋Š” ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ๋กœ, ๋ฒ•ํ•™์‹œํ—˜(Bar Exam) ์ƒ์œ„ 10% ์ˆ˜์ค€์˜ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•˜๋ฉฐ ์ธ๊ฐ„ ์ˆ˜์ค€์˜ ์ „๋ฌธ๊ฐ€ ๋ฐ ํ•™์—… ๋ฒค์น˜๋งˆํฌ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ค€๋‹ค. ํŠนํžˆ ํ›ˆ๋ จ ๊ทœ๋ชจ ํ™•์žฅ ์‹œ ์„ฑ๋Šฅ ๋ณ€ํ™”๋ฅผ ์ •ํ™•ํžˆ ์˜ˆ์ธกํ•  ์ˆ˜ ์žˆ๋Š” ์ธํ”„๋ผ ๊ตฌ์ถ•์„ ํ•ต์‹ฌ์œผ๋กœ ํ•œ๋‹ค.

Motivation

Achievement

Figure 1

๊ทธ๋ฆผ 1: GPT-4 ๋ฐ ์†Œ๊ทœ๋ชจ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ. ๋‚ด๋ถ€ ์ฝ”๋“œ๋ฒ ์ด์Šค ๋ฐ์ดํ„ฐ์…‹์—์„œ์˜ ์ตœ์ข… ์†์‹ค๊ฐ’(bits per word). ์†Œ๊ทœ๋ชจ ๋ชจ๋ธ๋กœ๋ถ€ํ„ฐ์˜ ์ „๋ ฅ ๋ฒ•์น™ ์ ํ•ฉ์ด GPT-4์˜ ์ตœ์ข… ์†์‹ค์„ ์ •ํ™•ํžˆ ์˜ˆ์ธก.

Figure 2

๊ทธ๋ฆผ 2: HumanEval ๋ถ€๋ถ„์ง‘ํ•ฉ์—์„œ์˜ ํ‰๊ท  ๋กœ๊ทธ ํ†ต๊ณผ์œจ. ์ „๋ ฅ ๋ฒ•์น™ ์ ํ•ฉ์ด GPT-4 ์„ฑ๋Šฅ์„ ๋งค์šฐ ์ •ํ™•ํžˆ ์˜ˆ์ธก.

  1. ํ™•์žฅ ๋ฒ•์น™์˜ ์ •ํ™•ํ•œ ์˜ˆ์ธก: ์†์‹ค๊ฐ’(loss) ์˜ˆ์ธก์—์„œ L(C) = aC^b + c ํ˜•ํƒœ์˜ ์ „๋ ฅ ๋ฒ•์น™์„ ์‚ฌ์šฉํ•˜์—ฌ GPT-4์˜ ์ตœ์ข… ์†์‹ค์„ ๋†’์€ ์ •ํ™•๋„๋กœ ์‚ฌ์ „ ์˜ˆ์ธก. ์ฝ”๋”ฉ ๋Šฅ๋ ฅ(HumanEval)๋„ โˆ’E_P[log(pass_rate(C))] = ฮฑยทC^โˆ’k ๊ด€๊ณ„๋กœ 1,000๋ฐฐ ์ด์ƒ ์ž‘์€ ๋ชจ๋ธ๋กœ๋ถ€ํ„ฐ ์ •ํ™•ํžˆ ์˜ˆ์ธก.
  2. ์ธ๊ฐ„ ์ˆ˜์ค€์˜ ์‹œํ—˜ ์„ฑ์ : ๋ฒ•ํ•™์‹œํ—˜(Bar Exam) ์ƒ์œ„ 10%, LSAT ์ƒ์œ„ 12%, SAT ์ˆ˜ํ•™ ์ƒ์œ„ 11%, GRE ์–ธ์–ด ์ƒ์œ„ 1% ์ˆ˜์ค€์˜ ์„ฑ๋Šฅ ๋‹ฌ์„ฑ. ๊ธฐ์กด GPT-3.5๋Š” ๋ฒ•ํ•™์‹œํ—˜์—์„œ ํ•˜์œ„ 10%์˜€์Œ.
  3. ๋‹ค์–ธ์–ด ์šฐ์ˆ˜์„ฑ: MMLU ๋ฒค์น˜๋งˆํฌ 26๊ฐœ ์–ธ์–ด ์ค‘ 24๊ฐœ์—์„œ ์˜์–ด ์ตœ๊ณ  ์„ฑ๋Šฅ(SOTA) ์ดˆ๊ณผ.
  4. ์—ญํ™•์žฅ ํ˜„์ƒ ํ•ด๊ฒฐ: Inverse Scaling Prize์˜ Hindsight Neglect ๊ณผ์ œ์—์„œ ๊ธฐ์กด ๋ชจ๋ธ์€ ๊ทœ๋ชจ๊ฐ€ ํด์ˆ˜๋ก ์„ฑ๋Šฅ ์ €ํ•˜๋ฅผ ๋ณด์˜€์œผ๋‚˜, GPT-4๋Š” ์ด ์ถ”์„ธ๋ฅผ ๋ฐ˜์ „์‹œํ‚ด.
  5. ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋Šฅ๋ ฅ: ์ด๋ฏธ์ง€์™€ ํ…์ŠคํŠธ๋ฅผ ๋™์‹œ์— ์ฒ˜๋ฆฌ ๊ฐ€๋Šฅํ•˜๋ฉฐ, ๋น„์ „ ๊ธฐ๋Šฅ ์ œ๊ฑฐ ํ›„์—๋„ ๋Œ€๋ถ€๋ถ„์˜ ์‹œํ—˜์—์„œ ๋™์ผํ•˜๊ฑฐ๋‚˜ ์œ ์‚ฌํ•œ ์„ฑ๋Šฅ ์œ ์ง€.

How

Originality

Limitation & Further Study

Evaluation

์ดํ‰

GPT-4๋Š” Transformer ๊ธฐ๋ฐ˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ชจ๋ธ๋กœ์„œ ์ธ๊ฐ„ ์ˆ˜์ค€์˜ ์‹œํ—˜ ์„ฑ์  ๋‹ฌ์„ฑ, ์ •ํ™•ํ•œ ํ™•์žฅ ์˜ˆ์ธก ๋Šฅ๋ ฅ, ๋‹ค์–ธ์–ด ์šฐ์ˆ˜์„ฑ์„ ํ†ตํ•ด ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ ๊ฐœ๋ฐœ์˜ ์ƒˆ๋กœ์šด ๊ฒฝ์ง€๋ฅผ ๋ณด์—ฌ์ค€๋‹ค. ํŠนํžˆ ์†Œ๊ทœ๋ชจ ๋ชจ๋ธ๋กœ๋ถ€ํ„ฐ ๊ฑฐ๋Œ€ ๋ชจ๋ธ ์„ฑ๋Šฅ์„ ์‚ฌ์ „ ์˜ˆ์ธกํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ๋ฐœ๊ฒฌ์€ ๊ณผํ•™์  ์ดํ•ด๋„์™€ ๋ฐฐํฌ ์•ˆ์ „์„ฑ์„ ๋™์‹œ์— ํ–ฅ์ƒ์‹œํ‚ค๋Š” ๊ธฐ์—ฌ์ด๋‹ค. ๋‹ค๋งŒ ์•„ํ‚คํ…์ฒ˜ ๋ฐ ํ›ˆ๋ จ ์„ธ๋ถ€์‚ฌํ•ญ ๋ฏธ๊ณต๊ฐœ, ํ™˜๊ฐยท์‹ ๋ขฐ์„ฑ ๋ถ€์กฑ, ์ œํ•œ๋œ ๋ฌธ๋งฅ ๊ธธ์ด ๋“ฑ ํ•œ๊ณ„๊ฐ€ ์กด์žฌํ•˜๋ฉฐ, ๋…๋ฆฝ์  ๊ฒ€์ฆ๊ณผ ์ถ”๊ฐ€ ํˆฌ๋ช…์„ฑ์ด ํ•„์š”ํ•˜๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
A survey of large language models ๋…ผ๋ฌธ์€ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ์˜ ์ „๋ฐ˜์  ์ด๋ก ๊ณผ ๊ธฐ์ˆ  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
GPT-4 Technical Report๋Š” ์ด์ „ ์„ธ๋Œ€ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ, ํ‰๊ฐ€, ์•ˆ์ „ ์ฒด๊ณ„ ์„ค๋ช…์„ ํ†ตํ•ด GPT-4o System Card์˜ ๋งฅ๋ฝ๊ณผ ๊ฐœ์„ ์ ์„ ์ดํ•ดํ•˜๋Š” ๋ฐ ๋„์›€์ด ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
GPT-4 Technical Report๋Š” ๋Œ€ํ˜•๋ชจ๋ธ ํ‰๊ฐ€ ์ฒด๊ณ„์™€ ๊ธฐ์ˆ ์  ํŠน์„ฑ์„ ๋‹ค๋ฃจ๋ฉฐ, o1-preview ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ์˜ ๊ธฐ๋ฐ˜์ด ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
GPT-4 ๊ธฐ์ˆ  ๋ณด๊ณ ์„œ๊ฐ€ OpenAI ์ฐจ์„ธ๋Œ€ LLM(o1) ์„ฑ๋Šฅ๊ณผ ์•ˆ์ „์„ฑ ๊ฐœ์„ ์˜ ๊ธฐ์ˆ ์ ยท์ฒ ํ•™์  ๊ธฐ์ดˆ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
GPT-4(387)๋Š” Gemma 2์™€ ์ง์ ‘ ๋น„๊ตยทํ‰๊ฐ€๋˜๋Š” ์˜คํ”ˆ/ํด๋กœ์ฆˆ๋“œ LLM ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ ์ฐธ์กฐ์ ์ด ๋œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
617์˜ Phi-4 ๊ธฐ์ˆ  ๋ณด๊ณ ์„œ๋Š” 387(GPT-4) ๊ธฐ์ˆ  ๋ฆฌํฌํŠธ์™€ ๊ต์‚ฌ๋ชจ๋ธ/์„ฑ๋Šฅ๋น„๊ต ๋“ฑ์—์„œ ๋ฐ€์ ‘ํ•˜๊ฒŒ ์—ฐ๊ฒฐ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Llama 3์™€ ๋น„๊ต ๊ฐ€๋Šฅํ•œ GPT-4 ๋ชจ๋ธ์˜ ๊ธฐ์ˆ  ์„ธ๋ถ€์‚ฌํ•ญ๊ณผ ์„ฑ๋Šฅ ํ‰๊ฐ€๋ฅผ ์ œ๊ณตํ•˜์—ฌ, ์„ฑ๋Šฅ ๋น„๊ต ๋ฐ ์ฐจ๋ณ„์„ฑ ๋…ผ์˜์— ๊ธฐ์ดˆ๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
387 ๋…ผ๋ฌธ์€ GPT-4 ๊ธฐ์ˆ  ๋ฆฌํฌํŠธ๋กœ, 368 ๋…ผ๋ฌธ์˜ Gemini 1.5์™€ ์ฃผ์š” ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ LLM์˜ ๊ตฌ์กฐ ๋ฐ ์„ฑ๋Šฅ์„ ๋น„๊ตยท๋ถ„์„ํ•  ๋•Œ ๊ธฐ์ดˆ ์ž๋ฃŒ๋กœ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
GPT-4 Technical Report๋Š” ๋ฆฌ๋”๋ณด๋“œ ๋“ฑ LLM ์„ฑ๋Šฅ ์ธก์ • ๋ฐ ์ž๋™ํ™”์— ํ•„์ˆ˜์ ์ธ ์„ฑ๋Šฅ ๋ฒค์น˜๋งˆํฌ๋กœ์„œ LAG์˜ ๊ธฐ๋ฐ˜ ๋ชจ๋ธ ๋ฐ ํ‰๊ฐ€์ž๋ฃŒ๋กœ ์ง๊ด€์  ์—ฐ๊ด€์ด ์žˆ์Šต๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
GPT-4์˜ ๊ธฐ์ˆ  ๋ฆฌํฌํŠธ๋กœ, ์ตœ์‹  LLM์˜ ์ธ๊ฐ„ ์ˆ˜์ค€ ์–ธ์–ด/์ถ”๋ก  ์„ฑ๋Šฅ์˜ ๋ณธ์งˆ์„ ์ดํ•ดํ•˜๋Š” ๊ธฐ๋ฐ˜์ด ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
์ตœ์  ์ˆ˜์†ก ์ด๋ก ์„ ํ†ต๊ณ„ ํ•™์Šต์— ์ ์šฉํ•˜๋Š” ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•๋ก ์„ ์ œ๊ณตํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Augmented Language Models ๋…ผ๋ฌธ์€ LLM์„ ์™ธ๋ถ€ ๋„๊ตฌ์™€ ๊ฒฐํ•ฉํ•œ ํ™•์žฅ๋œ ํ™œ์šฉ ๋ฐฉ์‹์œผ๋กœ GPT-4์˜ ๊ธฐ์ €์  ๊ฐœ๋…์— ๋Œ€์•ˆ์  ์‹œ๊ฐ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋‹ค์–‘ํ•œ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š” ๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ์˜ ๋‹ค๋ฅธ ๊ตฌํ˜„์„ ๋‹ค๋ฃฌ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM ํ”„๋กฌํ”„ํŠธ ์ตœ์ ํ™”์—์„œ ๋ฐ˜์‚ฌ ๋˜๋Š” ํ”ผ๋“œ๋ฐฑ ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•์˜ ๋Œ€์•ˆ์  ์ ‘๊ทผ๋ฒ•์„ ํƒ๊ตฌํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
GPT-4 Technical Report๋Š” ๋Œ€์šฉ๋Ÿ‰ ๋ฐ์ดํ„ฐ์™€ ๋ณต์žกํ•œ ์ถ”๋ก  ๋ฌธ์ œ์—์„œ LLM ์„ฑ๋Šฅ์„ ๋‹ค๋ฃจ๋ฉฐ, ์‹ฌ์šฐ์ฃผ ์‹ ํ˜ธ ํƒ์ง€์™€ AI ์ ์šฉ์˜ ๋ฒ”์šฉ์  ์ด์Šˆ(์˜ˆ: ์žก์Œ-์‹ ํ˜ธ ๋ถ„๋ฆฌ ๋“ฑ)๋ฅผ ๋Œ€๋น„ํ•ด๋ณผ ์ˆ˜ ์žˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Gemini ๋Œ€๊ทœ๋ชจ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ชจ๋ธ์€ GPT-4์˜ ๊ธฐ์ˆ ์  ํ•œ๊ณ„๋ฅผ ๋„˜์–ด์„  ์‚ฌ๋ก€๋กœ ์„ฑ๋Šฅ ๋น„๊ต์™€ ํ™•์žฅ์„ฑ์„ ๊ฒ€ํ† ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
GPT-4์˜ ๊ตฌ์กฐ์™€ ์„ฑ๋Šฅ์— ์ง‘์ค‘ํ•˜์—ฌ 467์˜ ๊ธฐ์ดˆ์  LLM ๊ฐ•์˜๋…ธํŠธ ๋‚ด์šฉ์„ ์ตœ์‹  ์—ฐ๊ตฌ๋กœ ํ™•์žฅ์‹œํ‚จ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
801๋ฒˆ ๋…ผ๋ฌธ์€ Llama 3 ๋“ฑ ์ƒˆ๋กœ์šด LLM ํŒจ๋ฐ€๋ฆฌ์˜ ๊ธฐ์ˆ  ์‚ฌ์–‘๊ณผ ์„ฑ๋Šฅ, GPT-4์™€์˜ ๋น„๊ต๊นŒ์ง€ ์ƒ์„ธํžˆ ๋‹ค๋ฃจ๋ฉฐ, 387๋ฒˆ์˜ ๋ชจ๋ธ ์„ฑ๋Šฅ ํ‰๊ฐ€๋ฅผ ๋ฏธ๋ž˜ํ˜• LLM์œผ๋กœ ํ™•์žฅํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
388๋ฒˆ ๋…ผ๋ฌธ์€ GPT-4o์˜ ์‹œ์Šคํ…œ ์นด๋“œ๋กœ์„œ 387๋ฒˆ GPT-4์™€ ์—ฐ๊ณ„๋œ ์ตœ์‹  ์„ฑ๋Šฅ/๋ณด์•ˆ/์ฑ…์ž„์„ฑ ๊ฐœ์„  ํŠธ๋ Œ๋“œ๋ฅผ ์ œ์‹œํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
GPT-4์˜ ์ธ๊ฐ„ ์ˆ˜์ค€ ๋Šฅ๋ ฅ์„ ํŠœ๋ง ํ…Œ์ŠคํŠธ ๊ธฐ๋ฐ˜์œผ๋กœ ํ™•์žฅ ์ ์šฉํ•œ ์—ฐ๊ตฌ๋กœ, ํ‰๊ฐ€ ํŒจ๋Ÿฌ๋‹ค์ž„์„ ์ž‡๋Š”๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
387(GPT-4 Technical Report)๋Š” ์ตœ์‹  ๋Œ€ํ˜• LLM์˜ ์‹ค์ œ ๊ตฌ์กฐ์™€ ํ•œ๊ณ„๋ฅผ ์„ค๋ช…ํ•˜์—ฌ, 301์—์„œ ๋…ผํ•˜๋Š” ์ƒ์„ฑํ˜• AI ํŽธํ–ฅ์˜ ์›์ธ๊ณผ ๊ฐœ์„  ๋ฐฉํ–ฅ์„ ๊ตฌ์ฒด์ ์œผ๋กœ ์—ฐ๊ฒฐํ•ด ๊ณ ์ฐฐํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •