์ ์: Yue Yang, Mingkang Chen, Qihua Liu, Mengkang Hu, Qiguang Chen, Gengrui Zhang, Shuyue Hu, Guangtao Zhai, Yu Qiao, Yu Wang, Wenqi Shao, Ping Luo | ๋ ์ง: 2025 | DOI: N/A 📄 PDF
Essence
๊ทธ๋ฆผ 1: (a) ์จ๊ฒจ์ง ์ ์ฌ ๊ท์น์ ์์, (b) ๊ธฐ์กด ๋ฒค์น๋งํฌ์์ ๋น๊ต, (c) DRE-Bench์ LLM ์ง๋ฅ ๋ฆฌ๋๋ณด๋
๋ณธ ๋
ผ๋ฌธ์ ๋๊ท๋ชจ ์ธ์ด๋ชจ๋ธ(LLM)์ ์ง์ ํ ์ ๋ ์ง๋ฅ(fluid intelligence)์ ํ๊ฐํ๊ธฐ ์ํด ๊ณ์ธต์ ์ธ์ง ํ๋ ์์ํฌ๋ฅผ ๋ฐํ์ผ๋ก ํ ๋์ ์ถ๋ก ํ๊ฐ ๋ฒค์น๋งํฌ DRE-Bench๋ฅผ ์ ์ํ๋ค. 4๊ฐ์ง ์ธ์ง ์์ค(์์ฑ, ๊ณต๊ฐ, ์์ฐจ, ๊ฐ๋
)์ 36๊ฐ ์ถ์ ์ถ๋ก ๊ณผ์ ์ ๋ณต์ก๋ ๋ณํ๋ฅผ ํฌํจํ ์ฝ 4,000๊ฐ์ ์ฌ๋ก๋ฅผ ํตํด LLM์ ๊ท์น ์ผ๋ฐํ ๋ฅ๋ ฅ์ ์ฒด๊ณ์ ์ผ๋ก ์ธก์ ํ๋ค.
Evaluation
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ LLM์ ์ง์ ํ ์ ๋ ์ง๋ฅ ํ๊ฐ๋ฅผ ์ํด ์ธ์ง ์ฌ๋ฆฌํ ๊ธฐ๋ฐ์ ๊ณ์ธต์ ๊ตฌ์กฐ์ ๋์ ๋ฐ์ดํฐ ์์ฑ ์์ง์ ๊ฒฐํฉํ ํ์ ์ ์ธ ๋ฒค์น๋งํฌ๋ฅผ ์ ์ํ๋ค. ๊ด๋ฒ์ํ ๋ชจ๋ธ ํ๊ฐ๋ฅผ ํตํด ํ์ฌ LLM์ ๊ทผ๋ณธ์ ์ธ ํ๊ณ๋ฅผ ๋ช
ํํ ๊ท๋ช
ํ์ผ๋ฉฐ, ์ด๋ ํฅํ ์ถ๋ก ๋ฅ๋ ฅ ๊ฐํ ์ฐ๊ตฌ์ ๊ฐ๊ด์ ๊ธฐ์ค์ ์ด ๋ ๊ฒ์ผ๋ก ๊ธฐ๋๋๋ค. ๋ค๋ง ํ๊ฐ ๋ฒ์์ ํ์ฅ์ฑ๊ณผ ์คํจ ์์ธ ๋ถ์์ ๊น์ด ์ธก๋ฉด์์ ์ถ๊ฐ ๊ฐ์ ์ ์ฌ์ง๊ฐ ์๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
From LLMs to LLM-based Agents for Software Engineering ๋
ผ๋ฌธ์ ๋ฒค์น๋งํฌ ์ค๊ณ ๋ฐ ์ธ์ง์ ๊ณผ์ ํ๊ฐ์ ๊ดํด ์ด๋ก ์ ๋ฐ ๋ฐฉ๋ฒ๋ก ์ ๊ธฐ๋ฐ์ ์ ๊ณตํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
101 ๋
ผ๋ฌธ์ ๊ณ์ธต์ ์ผ๋ก LLM ์์ด์ ํธ์ ๋๊ท๋ชจ ์ถ๋ก ๋ฅ๋ ฅ์ ํ๊ฐํ๋ ์๋ก์ด ๋ฐฉ๋ฒ๋ก ์ ์ ์ํ์ฌ 844์ ์ ์ฌํ ํ๊ฐ ๋ชฉํ๋ฅผ ๊ฐ์ง๋ฉด์ ์ ๊ทผ์ด ๋ค๋ฆ
๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
442๋ ์ํธ์์ฉ ๊ธฐ๋ฐ ์ถ๋ก ๊ฐํ ํ๋ ์์ํฌ๋ก, 844์์ ์ ์ํ ๋์ ์ธ์ง ๋ฒค์น๋งํฌ์ ๋น๊ต์ ๋ค๋ฅธ ๋ฐฉ๋ฒ๋ก ์ ์ ์ํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
AAAR-1.0 ๋
ผ๋ฌธ์ LLM์ ์ฐ๊ตฌ ์์
์ง์ ๋ฅ๋ ฅ(์ ๋ฌธ์ ์์
ํฌํจ) ํ๊ฐ์ ์ด์ ์ ๋์ด, DRE-Bench ๋ฒค์น๋งํฌ์ ์ธ์ง์ ์ ๋์ง๋ฅ ํ๊ฐ์ ๋ค๋ฅธ ๊ด์ ์ ์ ๊ณตํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM์ ์๊ธฐ ๊ฒ์ฆ ๋ฐ ์ถ๋ก ๋ฅ๋ ฅ ํฅ์์ ์ํ ๋์์ ๋ฐฉ๋ฒ์ ์ ์ํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
Truly assessing fluid intelligence ๋
ผ๋ฌธ์ LLM์ด ์ค์ ์ธ๊ณ ๋ชจ๋ธ๋ง๊ณผ ์ผ๋ฐํ ๋ฌธ์ ์์ ์ด๋๊น์ง ๋๋ฌํ๋์ง ์ธก์ ํ๋ ๋ ๋ค๋ฅธ ํ๊ฐ์งํ๋ฅผ ์ ์ํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
795 ๋
ผ๋ฌธ์ 844์ LLM ์ ๋ ์ง๋ฅ ํ๊ฐ๋ฅผ ๋์ด, AI Scientist๋ก์์ LLM ์๋ ๊ณผํ ๋ฐ๊ฒฌ ํ
์คํธ๋ฅผ ๋ฐ์ ์ํต๋๋ค.
ํ์ ์ฐ๊ตฌ
652๋ฒ ๋
ผ๋ฌธ์ ๋ค์ํ reasoning boundary์ ์ต์ ํ์ ๊ณ๋ํ๋ฅผ ์๋ํ์ฌ, 844๋ฒ์ด ์ ์ํ๋ fluid intelligence ํ๊ฐ์ ๊ณ์ธต๋ณ ํ๊ณ ๋ฐ ํ์ฅ ๊ฐ๋ฅ์ฑ์ ์ฆ๋ช
ํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
845 ๋
ผ๋ฌธ์ 844์ ์ ์ฌํ๊ฒ LLM์ ์๊ธฐ ๊ฒ์ฆ ๋ฐ ์ ๋์ ์ถ๋ก ํ๊ฐ (Self-Verification Bench)๋ฅผ ์ค์ ์ ์ผ๋ก ๋ค๋ฃจ์ด ์ํธ ๋ณด์ ํจ๊ณผ๊ฐ ์๋ค.