Evaluation of openai o1: Opportunities and challenges of agi

์ €์ž: Tianyang Zhong, Zheng Liu, Yi Pan, Yutong Zhang, Yifan Zhou | ๋‚ ์งœ: 2024 | DOI: 10.48550/arXiv.2409.18486 📄 PDF


Essence

Figure 1

Figure 1: Schematic Overview of the Evaluation Methodology. This diagram illustrates the

๋ณธ ๋…ผ๋ฌธ์€ OpenAI o1-preview ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ์ปดํ“จํ„ฐ๊ณผํ•™, ์ˆ˜ํ•™, ์ž์—ฐ๊ณผํ•™, ์˜ํ•™, ์–ธ์–ดํ•™, ์‚ฌํšŒ๊ณผํ•™ ๋“ฑ ๋‹ค์–‘ํ•œ ๋„๋ฉ”์ธ์˜ ๋ณต์žกํ•œ ์ถ”๋ก  ์ž‘์—…์— ๊ฑธ์ณ ์ข…ํ•ฉ์ ์œผ๋กœ ํ‰๊ฐ€ํ•œ๋‹ค. ์ด ์—ฐ๊ตฌ๋Š” o1-preview๊ฐ€ ๊ฒฝ์Ÿ ํ”„๋กœ๊ทธ๋ž˜๋ฐ ๋ฌธ์ œ 83.3% ์„ฑ๊ณต๋ฅ , ๊ณ ๋“ฑํ•™๊ต ์ˆ˜ํ•™ 100% ์ •ํ™•๋„, ๋ฐฉ์‚ฌ์„ ํ•™ ๋ณด๊ณ ์„œ ์ƒ์„ฑ ์šฐ์ˆ˜ ์„ฑ๋Šฅ ๋“ฑ ๋‹ค์–‘ํ•œ ๋ถ„์•ผ์—์„œ ์ธ๊ฐ„ ์ˆ˜์ค€ ์ด์ƒ์˜ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•จ์„ ๋ณด์—ฌ์ค€๋‹ค.

Motivation

Achievement

Figure 1

Figure 1: Schematic Overview of the Evaluation Methodology. This diagram illustrates the

๊ฒฝ์Ÿ ํ”„๋กœ๊ทธ๋ž˜๋ฐ: 83.3% ์„ฑ๊ณต๋ฅ ๋กœ ์ธ๊ฐ„ ์ „๋ฌธ๊ฐ€ ์ˆ˜์ค€ ๋‹ฌ์„ฑ, ์˜ํ•™ ๋ถ„์•ผ: ๋ฐฉ์‚ฌ์„ ํ•™ ๋ณด๊ณ ์„œ ์ƒ์„ฑ์—์„œ ์šฐ์ˆ˜ ์„ฑ๋Šฅ, ์ˆ˜ํ•™: ๊ณ ๋“ฑํ•™๊ต ์ˆ˜์ค€ ์ˆ˜ํ•™ ๋ฌธ์ œ 100% ์ •ํ™•๋„, ์ž์—ฐ์–ด ์ถ”๋ก : ์ผ๋ฐ˜ ๋ฐ ์˜๋ฃŒ ๋„๋ฉ”์ธ์—์„œ ๊ณ ๊ธ‰ ๋Šฅ๋ ฅ ์ž…์ฆ, ์นฉ ์„ค๊ณ„: EDA script ์ƒ์„ฑ ๋ฐ ๋ฒ„๊ทธ ๋ถ„์„์—์„œ ํŠนํ™” ๋ชจ๋ธ ๋Šฅ๊ฐ€, ์ธ๋ฌธํ•™: ์ธ๋ฅ˜ํ•™๊ณผ ์ง€์งˆํ•™์—์„œ ๊นŠ์ด ์žˆ๋Š” ์ดํ•ด ๋ฐ ์ถ”๋ก  ๋Šฅ๋ ฅ, ๊ธˆ์œต: ์ •๋Ÿ‰์  ํˆฌ์ž์—์„œ ํฌ๊ด„์  ๊ธˆ์œต ์ง€์‹ ๋ฐ ํ†ต๊ณ„ ๋ชจ๋ธ๋ง ๋Šฅ๋ ฅ, ์‚ฌํšŒ๋ฏธ๋””์–ด ๋ถ„์„: ๊ฐ์ • ๋ถ„์„ ๋ฐ ๊ฐ์ • ์ธ์‹์—์„œ ํšจ๊ณผ์  ์„ฑ๋Šฅ.

How

Figure 1

Figure 1: Schematic Overview of the Evaluation Methodology. This diagram illustrates the

Originality

Limitation & Further Study

Evaluation

Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

์ดํ‰: ๋ณธ ๋…ผ๋ฌธ์€ o1-preview์˜ ๋‹ค์–‘ํ•œ ๋„๋ฉ”์ธ์—์„œ์˜ ์„ฑ๋Šฅ์„ ์ฒด๊ณ„์ ์œผ๋กœ ํ‰๊ฐ€ํ•˜๋Š” ์ข…ํ•ฉ์  ์—ฐ๊ตฌ๋กœ, AGI ๋‹ฌ์„ฑ ๊ฐ€๋Šฅ์„ฑ์„ ๋ณด์—ฌ์ฃผ๋Š” ์ค‘์š”ํ•œ ์‹ค์ฆ ์ฆ๊ฑฐ๋ฅผ ์ œ๊ณตํ•œ๋‹ค. ๊ด‘๋ฒ”์œ„ํ•œ ํ‰๊ฐ€ ๋ฒ”์œ„์™€ ์‹ค์šฉ์  ๊ฐ€์น˜์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ , ์ผ๋ถ€ ํ‰๊ฐ€์˜ ๊นŠ์ด ๋ถ€์กฑ๊ณผ ์ œํ•œ๋œ ๋ฒ„์ „ ํ‰๊ฐ€๋Š” ๊ฐœ์„ ์˜ ์—ฌ์ง€๊ฐ€ ์žˆ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
GPT-4 Technical Report๋Š” ๋Œ€ํ˜•๋ชจ๋ธ ํ‰๊ฐ€ ์ฒด๊ณ„์™€ ๊ธฐ์ˆ ์  ํŠน์„ฑ์„ ๋‹ค๋ฃจ๋ฉฐ, o1-preview ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ์˜ ๊ธฐ๋ฐ˜์ด ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
322 ๋…ผ๋ฌธ์€ ๋Œ€ํ™”ํ˜• LLM ๊ธฐ๋ฐ˜ ํ‰๊ฐ€ ์—ฐ๊ตฌ๋กœ์„œ, 739์˜ ๋ฆฌ๋ทฐ ์ฝ”๋ฉ˜ํŠธ ๋Œ€ํ™”๊ตฌ์กฐ ํ•ด์„์„ ์œ„ํ•œ ๊ธฐ์ดˆ ์—ฐ๊ตฌ๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Evaluation of openai o1 ๋…ผ๋ฌธ์€ AI ์—์ด์ „ํŠธ ํ‰๊ฐ€์˜ ์‹ค๋ฌด์  ํ•œ๊ณ„์™€ ๋ฐฉ๋ฒ•๋ก ์„ ๋…ผ์˜ํ•˜๋ฉฐ, 688์˜ ์˜คํ”„๋ผ์ธ RL ๊ฒฌ๊ณ ์„ฑ ๋ถ„์„์—๋„ ์ ์šฉ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Evaluation of OpenAI O1 ๋…ผ๋ฌธ์€ AGI์‹œ๋Œ€์˜ ์—์ด์ „ํŠธ ์„ฑ๋Šฅ ํ‰๊ฐ€์™€ ์‚ฌํšŒ์  ์˜ํ–ฅ์— ๋Œ€ํ•œ ๋ฆฌ๋ทฐ๋กœ ๋ณธ ๋…ผ๋ฌธ์˜ ๊ธฐ๋ฐ˜์„ ํ˜•์„ฑํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ์˜ ์ถ”๋ก  ๋Šฅ๋ ฅ๊ณผ AGI ๊ฐ€๋Šฅ์„ฑ์— ๋Œ€ํ•œ ์œ ์‚ฌํ•œ ํ‰๊ฐ€ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋ชจ๋ธ ๋ถˆํ™•์‹ค์„ฑ ๋˜๋Š” ๋ฐ์ดํ„ฐ ๋ถˆํ™•์‹ค์„ฑ ์ฒ˜๋ฆฌ์— ๋‹ค๋ฅธ ์ ‘๊ทผ๋ฒ•์„ ์ œ์‹œํ•˜๋Š” ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ตœ์‹  LLM์˜ ๋ณต์žกํ•œ ์ถ”๋ก  ์ž‘์—… ์ˆ˜ํ–‰ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ์œ ์‚ฌํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
585(Openai o1 system card)๋Š” o1-preview ๋ชจ๋ธ์˜ ๊ธฐ์ˆ ์  ์„ธ๋ถ€ ์„ฑ๊ณผ์™€ ์œ„ํ—˜์„ฑ์„ ๋‹ค๋ฃจ๋ฉฐ, 322์™€ ๋น„๊ต ํ‰๊ฐ€์— ์ ํ•ฉํ•˜๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Gemma 2 ๋…ผ๋ฌธ๋„ ๊ฒฝ๋Ÿ‰ ์˜คํ”ˆ ์–ธ์–ด๋ชจ๋ธ์˜ ์ธ๊ฐ„์ˆ˜์ค€ ์ด์ƒ ํผํฌ๋จผ์Šค์™€ ํ‰๊ฐ€ ๋ฐฉ์‹์„ ์ œ์‹œํ•˜์—ฌ ๋Œ€๊ทœ๋ชจ LLM์˜ ๋น„๊ต ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ๊ณตํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๊ณ ์ฐจ์› ๊ณผํ•™ ๊ธฐ๊ณ„ํ•™์Šต ์‹คํ—˜๊ณผ ์ž๋™ํ™”, ์‹คํ—˜-์ด๋ก  ํ๋ฃจํ”„ ๋ฐ LLM ํ™œ์šฉ ๋ฐฉ์‹์˜ ์ฐจ์ด๋ฅผ ์‹ค์ œ ๋ฌธ์ œ ์ ์šฉ ์ธก๋ฉด์—์„œ ์‚ดํŽด๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM์˜ ๋‹ค์–‘ํ•œ ๋„๋ฉ”์ธ์—์„œ์˜ ์„ฑ๋Šฅ๊ณผ ํ•œ๊ณ„๋ฅผ ํ‰๊ฐ€ํ•˜๋Š” ๊ด€๋ จ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM์˜ ๊ณผํ•™์  ๋ฐ ์ˆ˜ํ•™์  ์ถ”๋ก  ๋Šฅ๋ ฅ ํ‰๊ฐ€์— ๋Œ€ํ•œ ๋Œ€์•ˆ์  ์ ‘๊ทผ๋ฒ•์„ ์ œ์‹œํ•˜๋Š” ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
AGI๋ฅผ ํ–ฅํ•œ LLM์˜ ๋Šฅ๋ ฅ๊ณผ ํ•œ๊ณ„๋ฅผ ๋‹ค๊ฐ๋„๋กœ ํ‰๊ฐ€ํ•˜๋Š” ์œ ์‚ฌํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ƒ์„ฑํ˜• AI ๋ฐ ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ์˜ ์ „๋ฐ˜์  ๋ฐœ์ „๊ณผ ๋‹ค์–‘ํ•œ ๊ณผํ•™ ์˜์—ญ ์ ์šฉ์„ ์ข…ํ•ฉ์ ์œผ๋กœ ๋‹ค๋ฃจ์–ด AGI ๋‹ฌ์„ฑ์— ๋Œ€ํ•œ ๋…ผ์˜์™€ ์ ‘์ ์„ ์ด๋ฃฌ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์นด์˜ค์Šค ์‹œ์Šคํ…œ์˜ ์žฅ๊ธฐ ํ†ต๊ณ„์  ํŠน์„ฑ ๋ณด์กด์„ ์œ„ํ•œ ๋‹ค๋ฅธ ์ •๊ทœํ™” ๋ฐฉ๋ฒ•์ด๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
OpenAI์˜ AGI ์ˆ˜์ค€ LLM(o1)์˜ ๋ณต์žก์ถ”๋ก ยท๊ธฐ์–ต๋ ฅ ์ธก๋ฉด์—์„œ ์ธ๊ฐ„๊ณผ์˜ ์ง์ ‘ ๋น„๊ต๋ฅผ ์‹ฌ์ธต์ ์œผ๋กœ ์ˆ˜ํ–‰ํ•œ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
OpenAI o1 ๋ชจ๋ธ์˜ AGI ์—์ด์ „ํŠธ ์•ˆ์ „์„ฑ ๋ฐ ํ‰๊ฐ€ ๊ฒฐ๊ณผ๋ฅผ ๋ถ„์„ํ•จ์œผ๋กœ์จ, ๋ฒค์น˜๋งˆํฌ ์ƒ ์•ˆ์ „์„ฑ๊ณผ ๊ฐ•๊ฑด์„ฑ ํ–ฅ์ƒ ํšจ๊ณผ๋ฅผ ์‹ค์ฆํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
PaperQA2 ๋“ฑ ์‹ค์ œ ๋„๋ฉ”์ธ(๊ณผํ•™ ๋ฌธํ—Œ ๋ถ„์„)์— ๋Œ€๊ทœ๋ชจ LLM์„ ์ ์šฉํ•ด ์ธ๊ฐ„๋ณด๋‹ค ๋‚˜์€ ์„ฑ๋Šฅ ๋‹ฌ์„ฑ์„ ์‹ค์ฆํ–ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
OpenAI O1์˜ AGI๊ธ‰ ์„ฑ๋Šฅ์„ ๋‹ค์–‘ํ•œ NLPยท๊ณผํ•™ ์ž‘์—…์— ์ ์šฉ ํ‰๊ฐ€ํ•œ ๋…ผ๋ฌธ์œผ๋กœ, LLM์ด NLP ์ž‘์—…์—์„œ ์–ด๋””๊นŒ์ง€ ์„ฑ๊ณผ๋ฅผ ๋‚ด๋Š”์ง€ ์‹ค์งˆ์ ์œผ๋กœ ๋ณด์—ฌ์ค€๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
ํ™˜๊ฒฝ๊ณผํ•™ ๋“ฑ AGI ์ˆ˜์ค€ LLM์˜ ์‹ค์ œ ๋„๋ฉ”์ธ ์ ์šฉ ์‚ฌ๋ก€๋กœ, 322์˜ ๋ณต์žก ์ถ”๋ก  ์„ฑ๋Šฅ์ด ํ™˜๊ฒฝ ๊ณผํ•™ ๋ถ„์•ผ ์‹ค์šฉ ์ ์šฉ๊ณผ ์–ด๋–ป๊ฒŒ ์ ‘๋ชฉ๋˜๋Š”์ง€ ๋ณด์—ฌ์ค€๋‹ค.
๋ฐ˜๋ก /๋น„ํŒ
322๋ฒˆ ๋…ผ๋ฌธ์€ Agentic AI์˜ ํ‰๊ฐ€์—์„œ AGI์  ๋„์ „์— ์ดˆ์ ์„ ๋งž์ถ”์–ด, RL ๊ธฐ๋ฐ˜ ์‹ค์ œ ๋กœ๋ด‡ ์ ์šฉ์˜ ์„ฑ์ทจ์™€ ํ•œ๊ณ„๋ฅผ ๋น„ํŒ์ ์œผ๋กœ ์กฐ๋งํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋ฐ˜๋ก /๋น„ํŒ
322๋Š” AGI agent ์‹œ์Šคํ…œ ํ‰๊ฐ€์—์„œ ์›Œํฌํ”Œ๋กœ์šฐ ์‹ ๋ขฐ์„ฑ๊ณผ ์ž๋™ํ™” ํ•œ๊ณ„๋ฅผ ๋น„ํŒ์ ์œผ๋กœ ๋‹ค๋ฃจ๋ฉฐ, 3160์˜ code orchestration ๋ฐฉ์‹๊ณผ ํ•œ๊ณ„๋ฅผ ์ ๊ฒ€ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •