Truly assessing fluid intelligence of large language models through dynamic reasoning evaluation

์ €์ž: Yue Yang, Mingkang Chen, Qihua Liu, Mengkang Hu, Qiguang Chen, Gengrui Zhang, Shuyue Hu, Guangtao Zhai, Yu Qiao, Yu Wang, Wenqi Shao, Ping Luo | ๋‚ ์งœ: 2025 | DOI: N/A 📄 PDF


Essence

Figure 1

๊ทธ๋ฆผ 1: (a) ์ˆจ๊ฒจ์ง„ ์ž ์žฌ ๊ทœ์น™์˜ ์˜ˆ์‹œ, (b) ๊ธฐ์กด ๋ฒค์น˜๋งˆํฌ์™€์˜ ๋น„๊ต, (c) DRE-Bench์˜ LLM ์ง€๋Šฅ ๋ฆฌ๋”๋ณด๋“œ

๋ณธ ๋…ผ๋ฌธ์€ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ(LLM)์˜ ์ง„์ •ํ•œ ์œ ๋™ ์ง€๋Šฅ(fluid intelligence)์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•ด ๊ณ„์ธต์  ์ธ์ง€ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ํ•œ ๋™์  ์ถ”๋ก  ํ‰๊ฐ€ ๋ฒค์น˜๋งˆํฌ DRE-Bench๋ฅผ ์ œ์•ˆํ•œ๋‹ค. 4๊ฐ€์ง€ ์ธ์ง€ ์ˆ˜์ค€(์†์„ฑ, ๊ณต๊ฐ„, ์ˆœ์ฐจ, ๊ฐœ๋…)์˜ 36๊ฐœ ์ถ”์ƒ ์ถ”๋ก  ๊ณผ์ œ์™€ ๋ณต์žก๋„ ๋ณ€ํ™”๋ฅผ ํฌํ•จํ•œ ์•ฝ 4,000๊ฐœ์˜ ์‚ฌ๋ก€๋ฅผ ํ†ตํ•ด LLM์˜ ๊ทœ์น™ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ์„ ์ฒด๊ณ„์ ์œผ๋กœ ์ธก์ •ํ•œ๋‹ค.

Motivation

Achievement

Figure 2

๊ทธ๋ฆผ 2: 4๊ฐ€์ง€ ์ธ์ง€ ์ˆ˜์ค€์— ๊ฑธ์นœ ๊ตฌ์ฒด์ ์ธ ์ถ”์ƒ ์ถ”๋ก  ๊ณผ์ œ๋“ค ๋ฐ ๋™์  ๋ณ€์ˆ˜ ์˜ˆ์‹œ

  1. ๊ณ„์ธต์  ์ธ์ง€ ์ •๋ ฌ ํ‰๊ฐ€ ์ฒด๊ณ„ ๊ตฌ์ถ•: ์†์„ฑ(Attribute) โ†’ ๊ณต๊ฐ„(Spatial) โ†’ ์ˆœ์ฐจ(Sequential) โ†’ ๊ฐœ๋…(Conceptual) ์ˆ˜์ค€์˜ 4๋‹จ๊ณ„ ์ธ์ง€ ๊ณ„์ธต ๊ตฌ์กฐ ๋‚ด 36๊ฐœ ๊ณผ์ œ ์„ค๊ณ„. ๊ฐ ์ˆ˜์ค€์€ ํŠน์ • ์ธ์ง€ ๋Šฅ๋ ฅ(๋Œ€์นญ, ํšŒ์ „, ์ค‘๋ ฅ, ํŒฝ์ฐฝ ๋“ฑ)์„ ์ฒด๊ณ„์ ์œผ๋กœ ํ‰๊ฐ€ํ•œ๋‹ค.
  2. ๋™์  ๋ฐ์ดํ„ฐ ์ƒ์„ฑ ์—”์ง„ ๊ฐœ๋ฐœ: LLM ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ๊ฐ€ ์„ค๊ณ„ํ•œ ์ฝ”๋“œ ์ƒ์„ฑ๊ธฐ/ํ•ด๊ฒฐ๊ธฐ๋ฅผ ํ†ตํ•ด ์•ฝ 4,000๊ฐœ์˜ ๊ฒ€์ฆ๋œ ์ถ”์ƒ ์ถ”๋ก  ์‚ฌ๋ก€๋ฅผ ์ž๋™ ์ƒ์„ฑ. ๊ฐ ๊ณผ์ œ๋งˆ๋‹ค ๋งค๊ฐœ๋ณ€์ˆ˜ ๋ณ€ํ™”(ํฌ๊ธฐ, ๊ฐœ์ˆ˜, ๋‹จ๊ณ„, ๊ฐ๋„ ๋“ฑ)๋กœ ๋ณต์žก๋„ ์กฐ์ ˆ์ด ๊ฐ€๋Šฅํ•˜์—ฌ ๋ฐ์ดํ„ฐ ์˜ค์—ผ ๋ฌธ์ œ ํ•ด๊ฒฐ.
  3. LLM ์œ ๋™ ์ง€๋Šฅ์˜ ๊ตฌ์ฒด์  ํ•œ๊ณ„ ๊ทœ๋ช…:
    • ์ธ์ง€ ์ˆ˜์ค€์ด ๋†’์•„์งˆ์ˆ˜๋ก ๋ชจ๋“  ๋ชจ๋ธ์˜ ์ •ํ™•๋„๊ฐ€ ๊ธ‰๊ฒฉํžˆ ์ €ํ•˜ (ํŠนํžˆ ๋ฌผ๋ฆฌ ๊ฐœ๋… ๊ด€๋ จ ๊ณผ์ œ)
    • ์ถ”๋ก  LLM(o1, DeepSeek-R1)์ด ์ผ๋ฐ˜ LLM(Claude 3.7, GPT-4o)๋ณด๋‹ค ์šฐ์ˆ˜ํ•˜๋‚˜, ๊ณ ์ˆ˜์ค€ ๊ณผ์ œ์—์„œ๋„ ์„ฑ๋Šฅ ํ•œ๊ณ„ ๋ช…ํ™•
    • ๋ณต์žก๋„ ์ฆ๊ฐ€ ์‹œ ์„ฑ๋Šฅ ์ €ํ•˜ ๋ชจ๋ธ์€ ์ง„์ •ํ•œ ๊ทœ์น™ ์Šต๋“์ด ์•„๋‹Œ ๋ถ€๋ถ„์  ํŒจํ„ด ์ธ์‹๋งŒ ๊ฐ€๋Šฅ

How

Figure 3

๊ทธ๋ฆผ 3: DRE-Bench ๋ฐ์ดํ„ฐ ์ƒ์„ฑ ํŒŒ์ดํ”„๋ผ์ธ

Originality

Limitation & Further Study

Evaluation

์ดํ‰: ๋ณธ ๋…ผ๋ฌธ์€ LLM์˜ ์ง„์ •ํ•œ ์œ ๋™ ์ง€๋Šฅ ํ‰๊ฐ€๋ฅผ ์œ„ํ•ด ์ธ์ง€ ์‹ฌ๋ฆฌํ•™ ๊ธฐ๋ฐ˜์˜ ๊ณ„์ธต์  ๊ตฌ์กฐ์™€ ๋™์  ๋ฐ์ดํ„ฐ ์ƒ์„ฑ ์—”์ง„์„ ๊ฒฐํ•ฉํ•œ ํ˜์‹ ์ ์ธ ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ์‹œํ•œ๋‹ค. ๊ด‘๋ฒ”์œ„ํ•œ ๋ชจ๋ธ ํ‰๊ฐ€๋ฅผ ํ†ตํ•ด ํ˜„์žฌ LLM์˜ ๊ทผ๋ณธ์ ์ธ ํ•œ๊ณ„๋ฅผ ๋ช…ํ™•ํžˆ ๊ทœ๋ช…ํ–ˆ์œผ๋ฉฐ, ์ด๋Š” ํ–ฅํ›„ ์ถ”๋ก  ๋Šฅ๋ ฅ ๊ฐ•ํ™” ์—ฐ๊ตฌ์˜ ๊ฐ๊ด€์  ๊ธฐ์ค€์ ์ด ๋  ๊ฒƒ์œผ๋กœ ๊ธฐ๋Œ€๋œ๋‹ค. ๋‹ค๋งŒ ํ‰๊ฐ€ ๋ฒ”์œ„์˜ ํ™•์žฅ์„ฑ๊ณผ ์‹คํŒจ ์›์ธ ๋ถ„์„์˜ ๊นŠ์ด ์ธก๋ฉด์—์„œ ์ถ”๊ฐ€ ๊ฐœ์„ ์˜ ์—ฌ์ง€๊ฐ€ ์žˆ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
From LLMs to LLM-based Agents for Software Engineering ๋…ผ๋ฌธ์€ ๋ฒค์น˜๋งˆํฌ ์„ค๊ณ„ ๋ฐ ์ธ์ง€์  ๊ณผ์ œ ํ‰๊ฐ€์— ๊ด€ํ•ด ์ด๋ก ์  ๋ฐ ๋ฐฉ๋ฒ•๋ก ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
101 ๋…ผ๋ฌธ์€ ๊ณ„์ธต์ ์œผ๋กœ LLM ์—์ด์ „ํŠธ์˜ ๋Œ€๊ทœ๋ชจ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ์ƒˆ๋กœ์šด ๋ฐฉ๋ฒ•๋ก ์„ ์ œ์•ˆํ•˜์—ฌ 844์™€ ์œ ์‚ฌํ•œ ํ‰๊ฐ€ ๋ชฉํ‘œ๋ฅผ ๊ฐ€์ง€๋ฉด์„œ ์ ‘๊ทผ์ด ๋‹ค๋ฆ…๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
442๋Š” ์ƒํ˜ธ์ž‘์šฉ ๊ธฐ๋ฐ˜ ์ถ”๋ก  ๊ฐ•ํ™” ํ”„๋ ˆ์ž„์›Œํฌ๋กœ, 844์—์„œ ์ œ์‹œํ•œ ๋™์  ์ธ์ง€ ๋ฒค์น˜๋งˆํฌ์™€ ๋น„๊ต์  ๋‹ค๋ฅธ ๋ฐฉ๋ฒ•๋ก ์„ ์ œ์‹œํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
AAAR-1.0 ๋…ผ๋ฌธ์€ LLM์˜ ์—ฐ๊ตฌ ์ž‘์—… ์ง€์› ๋Šฅ๋ ฅ(์ „๋ฌธ์  ์ž‘์—… ํฌํ•จ) ํ‰๊ฐ€์— ์ดˆ์ ์„ ๋‘์–ด, DRE-Bench ๋ฒค์น˜๋งˆํฌ์˜ ์ธ์ง€์  ์œ ๋™์ง€๋Šฅ ํ‰๊ฐ€์™€ ๋‹ค๋ฅธ ๊ด€์ ์„ ์ œ๊ณตํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM์˜ ์ž๊ธฐ ๊ฒ€์ฆ ๋ฐ ์ถ”๋ก  ๋Šฅ๋ ฅ ํ–ฅ์ƒ์„ ์œ„ํ•œ ๋Œ€์•ˆ์  ๋ฐฉ๋ฒ•์„ ์ œ์‹œํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Truly assessing fluid intelligence ๋…ผ๋ฌธ์€ LLM์ด ์‹ค์ œ ์„ธ๊ณ„ ๋ชจ๋ธ๋ง๊ณผ ์ผ๋ฐ˜ํ™” ๋ฌธ์ œ์—์„œ ์–ด๋””๊นŒ์ง€ ๋„๋‹ฌํ–ˆ๋Š”์ง€ ์ธก์ •ํ•˜๋Š” ๋˜ ๋‹ค๋ฅธ ํ‰๊ฐ€์ง€ํ‘œ๋ฅผ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
795 ๋…ผ๋ฌธ์€ 844์˜ LLM ์œ ๋™ ์ง€๋Šฅ ํ‰๊ฐ€๋ฅผ ๋„˜์–ด, AI Scientist๋กœ์„œ์˜ LLM ์ž๋™ ๊ณผํ•™ ๋ฐœ๊ฒฌ ํ…Œ์ŠคํŠธ๋ฅผ ๋ฐœ์ „์‹œํ‚ต๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
652๋ฒˆ ๋…ผ๋ฌธ์€ ๋‹ค์–‘ํ•œ reasoning boundary์˜ ์ตœ์ ํ™”์™€ ๊ณ„๋Ÿ‰ํ™”๋ฅผ ์‹œ๋„ํ•˜์—ฌ, 844๋ฒˆ์ด ์ œ์•ˆํ•˜๋Š” fluid intelligence ํ‰๊ฐ€์˜ ๊ณ„์ธต๋ณ„ ํ•œ๊ณ„ ๋ฐ ํ™•์žฅ ๊ฐ€๋Šฅ์„ฑ์„ ์ฆ๋ช…ํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
845 ๋…ผ๋ฌธ์€ 844์™€ ์œ ์‚ฌํ•˜๊ฒŒ LLM์˜ ์ž๊ธฐ ๊ฒ€์ฆ ๋ฐ ์œ ๋™์  ์ถ”๋ก  ํ‰๊ฐ€ (Self-Verification Bench)๋ฅผ ์ค‘์ ์ ์œผ๋กœ ๋‹ค๋ฃจ์–ด ์ƒํ˜ธ ๋ณด์™„ ํšจ๊ณผ๊ฐ€ ์žˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •