์ ์: Jian Wu, Jiayu Zhang, Dongyuan Li, Linyi Yang, Aoxiao Zhong, Renhe Jiang, Qingsong Wen, Yue Zhang | ๋ ์ง: 2025 | URL: https://arxiv.org/abs/2502.18209 📄 PDF
Essence
Figure 2: The League framework for leaderboard automatic generation. In Stage 1, we automatically
League๋ arXiv์ ํ์ ์ง์์ ์๋์ผ๋ก ๋
ผ๋ฌธ์ ์์งํ์ฌ LLM ๊ธฐ๋ฐ์ผ๋ก ์คํ ๊ฒฐ๊ณผ๋ฅผ ์ถ์ถํ๊ณ ํตํฉํจ์ผ๋ก์จ ๋์ ์ผ๋ก ๋ฆฌ๋๋ณด๋๋ฅผ ์๋ ์์ฑํ๋ ํ๋ ์์ํฌ์ด๋ค.
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: League๋ ๊ธ์ฆํ๋ ํ์ ๋
ผ๋ฌธ์ ๋์ํ์ฌ ์๋์ผ๋ก ์ต์ ๋ฆฌ๋๋ณด๋๋ฅผ ์์ฑํ๋ ํ์ ์ ํ๋ ์์ํฌ์ด๋ฉฐ, ์คํ ์ค์ ์ ํฌํจํ ๊ณต์ ํ ๋น๊ต๋ผ๋ ์๋ก์ด ๊ด์ ์ ์ ์ํ๋ค. ์ธ๊ฐ ์ฑ๋ฅ์ ๊ทผ์ ํ ๊ฒฐ๊ณผ์ 5-10๋ฐฐ์ ํจ์จ์ฑ ํฅ์์ผ๋ก ์ค์ง์ ๊ฐ์น๋ฅผ ์
์ฆํ๋, LLM ์ค๋ฅ ์ฒ๋ฆฌ ๋ฐ ๋ค๋ถ์ผ ์ผ๋ฐํ ๊ฐ์ ์ด ํ์ํ๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
GPT-4 Technical Report๋ ๋ฆฌ๋๋ณด๋ ๋ฑ LLM ์ฑ๋ฅ ์ธก์ ๋ฐ ์๋ํ์ ํ์์ ์ธ ์ฑ๋ฅ ๋ฒค์น๋งํฌ๋ก์ LAG์ ๊ธฐ๋ฐ ๋ชจ๋ธ ๋ฐ ํ๊ฐ์๋ฃ๋ก ์ง๊ด์ ์ฐ๊ด์ด ์์ต๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๋๊ท๋ชจ ์ธ์ด๋ชจ๋ธ์ ํ์ฉํ ํ์ ์๋ฒ ์ด ์๋ํ ๋ฐฉ๋ฒ์ผ๋ก, ๋ฆฌ๋๋ณด๋ ์๋ ์์ฑ ํ๋ ์์ํฌ ๊ตฌ์ถ์ ๊ธฐ์ ์ ๊ธฐ๋ฐ์ ์ ๊ณตํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
์๋ํ๋ ์คํ ๊ฒฐ๊ณผ ์ถ์ถ ๋ฐ ๋ฆฌ๋๋ณด๋ ์์ฑ์ ๋ฐฉ๋ฒ๋ก ์ ๊ธฐ๋ฐ์ ์ ๊ณตํ๋ ์ ํ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
603์ ์ฐ๊ตฌ ์์ด๋์ด ์ด์ ์๋์์ฑ ์์คํ
์ผ๋ก, 1088๊ณผ ๊ฐ์ด ๋
ผ๋ฌธ ๋ฐ์ดํฐ ์๋ ์ฒ๋ฆฌ๋ฅผ ๋ชฉํ๋ก ํ์ง๋ง ํ์ ์ง์ ์ด ๋ค๋ฅด๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM์ ํ์ฉํ ํ์ ๋
ผ๋ฌธ ์ ๋ณด ์๋ ์ถ์ถ ๋ฐ ๋ฆฌ๋๋ณด๋ ์์ฑ์ ๋ค๋ฅธ ๋ฐฉ๋ฒ๋ก ์ผ๋ก ๊ตฌํํ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋จธ์ ๋ฌ๋ ์คํ ๊ฒฐ๊ณผ ์๋ ์์ง ๋ฐ ํตํฉ์ ๋ค๋ฅธ ๋ฐฉ์์ผ๋ก ์ ๊ทผํ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM ๊ธฐ๋ฐ ํ์ ๋
ผ๋ฌธ ๋ถ์ ๋ฐ ์ ๋ณด ์ถ์ถ์ ๋ค๋ฅธ ๋งฅ๋ฝ์์ ์ ์ฉํ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋ค์ํ RAG ๊ธฐ๋ฐ ๋ฆฌ๋๋ณด๋ ์๋ํ ํ๋ ์์ํฌ๋ฅผ ๋น๊ต ๋ถ์ํ์ฌ ์ฌ์ธต์ ๋ฒค์น๋งํน ๋ฐ ๋ฐฉ๋ฒ๋ก ํ์ฅ์ด ๊ฐ๋ฅํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
AI ๊ธฐ๋ฐ ๋
ผ๋ฌธ ๋ฐ์ดํฐ ๋ฐ ์ฑ๊ณผ ํ๊ฐ ์คํ ์์ฝ์์คํ
์ ํตํด, League์ ์๋ ๋ฆฌ๋๋ณด๋ ์์ฑ ๊ธฐ๋ฅ์ ํ์ฅ ๊ฐ๋ฅ์ฑ๊ณผ ์ฌํ์ ์ํฅ๋ ฅ์ ๋น๊ตํ ์ ์๋ค.
๋ค๋ฅธ ์ ๊ทผ
ํ์ ๋
ผ๋ฌธ์์ ๊ฒฐ๊ณผ๋ฅผ ์๋ ์ถ์ถํ์ฌ ๋น๊ตํ๋ ๋ค๋ฅธ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ ์ฐ๊ตฌ์ด๋ค.
ํ์ ์ฐ๊ตฌ
108์ RAG ๊ธฐ๋ฐ ๋ชจ๋์ ๋ค์ค๋ฌธ์ ์์ฝ ํ์ดํ๋ผ์ธ์ผ๋ก, 1088์ LLM ๊ธฐ๋ฐ ๋ฆฌ๋๋ณด๋ ์๋์์ฑ ๊ธฐ๋ฅ ๊ตฌํ์ ํ์ํ ๋
ผ๋ฌธ ์ ๋ณด ์ถ์ถ ๋ฐ ์กฐ์งํ์ ๊ธฐ์ฌํ ์ ์๋ค.