Phi-4 technical report

์ €์ž: Marah Abdin, Jyoti Aneja, Harkirat Behl, Sรฉbastien Bubeck, Ronen Eldan, Suriya Gunasekar, Michael R. Harrison, Russell J. Hewett, Mojan Javaheripi, Piero Kauffmann, James R. Lee, Yin Tat Lee, Yuanzhi Li, Weishung Liu, Caio Cรฉsar Teodorio Mendes, Anh Nguyen, Eric Price, Gustavo de Rosa, Olli Saarikivi, Adil Salim | ๋‚ ์งœ: 2024 | DOI: arXiv:2412.08905 📄 PDF


Essence

Figure 1

Figure 1: 2024๋…„ 11์›” AMC-10/12 ์‹œํ—˜์—์„œ ๋‹ค์–‘ํ•œ ๋ชจ๋ธ์˜ ํ‰๊ท  ์„ฑ๋Šฅ ๋น„๊ต

Phi-4๋Š” 140์–ต ๊ฐœ ํŒŒ๋ผ๋ฏธํ„ฐ์˜ ์–ธ์–ด ๋ชจ๋ธ๋กœ, ๊ณ ํ’ˆ์งˆ ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ ์ค‘์‹ฌ์˜ ํ•™์Šต ๋ ˆ์‹œํ”ผ๋ฅผ ํ†ตํ•ด ๊ฐœ๋ฐœ๋˜์—ˆ์œผ๋ฉฐ, ๊ต์‚ฌ ๋ชจ๋ธ์ธ GPT-4o๋ฅผ STEM ๊ธฐ๋ฐ˜ ์งˆ์˜์‘๋‹ต ๋ฒค์น˜๋งˆํฌ์—์„œ ๋Šฅ๊ฐ€ํ•˜๋Š” ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ๋‹ค. ํŠนํžˆ ์ถ”๋ก  ๊ด€๋ จ ์ž‘์—…์—์„œ ํ›จ์”ฌ ํฐ ๋ชจ๋ธ๋“ค๊ณผ ๋น„์Šทํ•˜๊ฑฐ๋‚˜ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์ธ๋‹ค.

Motivation

Achievement

Figure 1

Figure 1: Phi-4์˜ ๊ฒฝ์Ÿ ์ˆ˜ํ•™ ๋ฌธ์ œ(AMC-10/12) ์„ฑ๋Šฅ ๋น„๊ต

  1. ๋ฒค์น˜๋งˆํฌ ์„ฑ๋Šฅ ์šฐ์ˆ˜์„ฑ: Phi-4๋Š” GPQA(๋Œ€ํ•™์› ์ˆ˜์ค€ STEM ์งˆ์˜์‘๋‹ต)์—์„œ 56.1์ , MATH(์ˆ˜ํ•™ ๊ฒฝ์‹œ ๋ฌธ์ œ)์—์„œ 80.4์ ์„ ๋‹ฌ์„ฑํ•˜์—ฌ ๊ต์‚ฌ ๋ชจ๋ธ GPT-4o๋ฅผ ๋Šฅ๊ฐ€ํ–ˆ๋‹ค. HumanEval์—์„œ 82.6์ , ArenaHard์—์„œ 75.4์  ๋“ฑ ๋‹ค์–‘ํ•œ ์ถ”๋ก  ๋ฒค์น˜๋งˆํฌ์—์„œ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์˜€๋‹ค.
  2. ์‹ ์„ ํ•œ ๋ฐ์ดํ„ฐ์…‹ ๊ฒ€์ฆ: 2024๋…„ 11์›” AMC-10/12 ๊ฒฝ์‹œ๋Œ€ํšŒ(ํ•™์Šต ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ์ดํ›„)์—์„œ ํ‰๊ท  91.8์ ์„ ๊ธฐ๋กํ•˜์—ฌ, ํ›จ์”ฌ ํฐ ๋ชจ๋ธ๋“ค(GPT-4o-mini 78.2์ , Llama-3.3 70B 66.4์ )์„ ํฌ๊ฒŒ ์ƒํšŒํ–ˆ๋‹ค. ์ด๋Š” ์˜ค๋ฒ„ํ”ผํŒ…์ด๋‚˜ ๋ฐ์ดํ„ฐ ์˜ค์—ผ์ด ์—†์Œ์„ ์ฆ๋ช…ํ•œ๋‹ค.
  3. ํŒŒ๋ผ๋ฏธํ„ฐ ๋Œ€๋น„ ํšจ์œจ์„ฑ: 140์–ต ํŒŒ๋ผ๋ฏธํ„ฐ๋ผ๋Š” ์ž‘์€ ๋ชจ๋ธ ํฌ๊ธฐ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  70์–ต ํŒŒ๋ผ๋ฏธํ„ฐ ์ด์ƒ์˜ ํฐ ๋ชจ๋ธ๋“ค๊ณผ ๋น„๊ตํ•˜์—ฌ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ์œผ๋ฉฐ, ์ฒด์ธ์˜ค๋ธŒ์“ฐ(chain-of-thought) ๋ชจ๋ธ๋“ค(์˜ˆ: QwQ)๋ณด๋‹ค 4๋ฐฐ ์ ์€ ํ† ํฐ์œผ๋กœ ๋” ํšจ์œจ์ ์ด๋‹ค.

How

Originality

Limitation & Further Study

Evaluation

์ดํ‰: Phi-4๋Š” ๊ณ ํ’ˆ์งˆ ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ ์ค‘์‹ฌ์˜ ์ „๋žต์  ํ•™์Šต ์„ค๊ณ„๋ฅผ ํ†ตํ•ด ์†Œ๊ทœ๋ชจ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ ํ•œ๊ณ„๋ฅผ ํš๊ธฐ์ ์œผ๋กœ ๊ทน๋ณตํ•œ ์šฐ์ˆ˜ํ•œ ์‚ฌ๋ก€์ด๋‹ค. ํŠนํžˆ ์‹ ์„ ํ•œ ๊ฒฝ์‹œ๋Œ€ํšŒ ๋ฐ์ดํ„ฐ์—์„œ์˜ ๊ฒ€์ฆ๊ณผ ๊ต์‚ฌ ๋ชจ๋ธ ๋Šฅ๊ฐ€์˜ ๊ฒฐ๊ณผ๋Š” ๋ฐ์ดํ„ฐ ํ’ˆ์งˆ์˜ ์ค‘์š”์„ฑ์„ ๋ช…ํ™•ํžˆ ๋ณด์—ฌ์ฃผ๋ฉฐ, ํ–ฅํ›„ ํšจ์œจ์ ์ธ ์–ธ์–ด ๋ชจ๋ธ ๊ฐœ๋ฐœ์˜ ์ค‘์š”ํ•œ ๋ฐฉํ–ฅ์„ฑ์„ ์ œ์‹œํ•œ๋‹ค. ๋‹ค๋งŒ ์ƒ์„ฑ ๋ฐฉ๋ฒ•๋ก ์˜ ์™„์ „ํ•œ ์ž๋™ํ™”, ๋‹ค์–‘ํ•œ ๋„๋ฉ”์ธ์œผ๋กœ์˜ ํ™•๋Œ€ ์ ์šฉ, ๊ทธ๋ฆฌ๊ณ  ์ด๋ก ์  ๊ธฐ์ดˆ์— ๋Œ€ํ•œ ์‹ฌํ™” ์—ฐ๊ตฌ๊ฐ€ ํ›„์† ๊ณผ์ œ๋กœ ๋‚จ์•„ ์žˆ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Retrieval-augmented language model์˜ ์‚ฌ์ „ํ•™์Šต๊ณผ ํŒŒ์ธํŠœ๋‹ ์ „๋žต์ด Phi-4์˜ ์†Œ๊ทœ๋ชจ ๋ชจ๋ธ ๊ณ ์„ฑ๋Šฅ ์„ค๊ณ„์— ์ด๋ก ์  ํ† ๋Œ€ ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Gemini ๋…ผ๋ฌธ์€ ๋Šฅ๋ ฅ ์žˆ๋Š” ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ชจ๋ธ ๊ฐœ๋ฐœ ๋“ฑ ๋Œ€ํ˜• ์–ธ์–ด๋ชจ๋ธ์˜ ์„ฑ๋Šฅ ์ง€ํ‘œ์™€ ํŠธ๋ Œ๋“œ๋ฅผ ์ดํ•ดํ•˜๋Š” ๋ฐ ์ด๋ก ์  ๋ฐฐ๊ฒฝ์„ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
617์˜ Phi-4 ๊ธฐ์ˆ  ๋ณด๊ณ ์„œ๋Š” 387(GPT-4) ๊ธฐ์ˆ  ๋ฆฌํฌํŠธ์™€ ๊ต์‚ฌ๋ชจ๋ธ/์„ฑ๋Šฅ๋น„๊ต ๋“ฑ์—์„œ ๋ฐ€์ ‘ํ•˜๊ฒŒ ์—ฐ๊ฒฐ๋ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์–‘๋ฐฉํ–ฅ ์–ธ์–ด ํ‘œํ˜„ ํ•™์Šต ๋˜๋Š” ๋ฏธ์„ธ์กฐ์ • ๊ธฐ๋ฐ˜ NLP์˜ ๊ด€๋ จ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Gemma 2 ๋…ผ๋ฌธ์€ ์‹ค์šฉ์  ํฌ๊ธฐ์˜ ์˜คํ”ˆ ์†Œ์Šค ์–ธ์–ด ๋ชจ๋ธ ๊ฐœ๋ฐœ์— ์ดˆ์ ์„ ๋‘์–ด, Phi-4์˜ ๊ณ ํ’ˆ์งˆ ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ ์ค‘์‹ฌ ์ ‘๊ทผ๊ณผ ๋Œ€์กฐ์ ์œผ๋กœ ์‹ค์ œ ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜์— ์ ํ•ฉํ•œ ๋ชจ๋ธ์„ ์ œ์•ˆํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
ํ…Œ์ด๋ธ” ๊ด€๋ จ LLM ํŠนํ™” ์ž‘์—…์—์„œ ์œ ์‚ฌํ•œ ๋ฌธ์ œ๋ฅผ ๋‹ค๋ฅธ ๋ฐฉ์‹์œผ๋กœ ์ ‘๊ทผํ•œ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
617(Phi-4)์ฒ˜๋Ÿผ LLM์˜ STEM/์‹คํ—˜ ํ‰๊ฐ€๋ฅผ ๋‹ค๋ฃจ๋Š” 731(SciReplicate-Bench)์€ ์‹ค์ œ ์‹คํ—˜์  ๋ณต์ œ์„ฑ ๊ฒ€์ฆ์— LLM์„ ์ ์šฉํ•œ ๊ตฌ์ฒด์  ์‚ฌ๋ก€์ž…๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •