์ ์: Yu Li, Chenyang Shao, Xinyang Liu, Ruotong Zhao, Peijie Liu, Hongyuan Su, Zhibin Chen, Qinglong Yang, Anjie Xu, Yi Fang, Qingbin Zeng, Tianxing Li, Jingbo Xu, Fengli Xu, Yong Li, Tie-Yan Liu | ๋ ์ง: 2026-04-07 | URL: https://arxiv.org/abs/2604.05550 📄 PDF
Essence
Figure 2: Overall Framework of AutoSOTA
AutoSOTA๋ ๋
ผ๋ฌธ์ ์์์ ์ผ๋ก ํ์ฌ ์ฝ๋ ๋ณต์ , ํ๊ฒฝ ๊ตฌ์ฑ, ์ฑ๋ฅ ์ต์ ํ๋ฅผ ์๋ํํ๋ ์๋-ํฌ-์๋ ๋ค์ค ์์ด์ ํธ ์์คํ
์ด๋ค. 8๊ฐ์ ์ ๋ฌธํ๋ ์์ด์ ํธ๊ฐ ํ๋ ฅํ์ฌ ๊ธฐ์กด SOTA ๋ชจ๋ธ์ ์ฌํํ๊ณ ๊ฐ์ ๋ ์๋ก์ด SOTA ๋ชจ๋ธ์ ๋ฐ๊ฒฌํ๋ค.
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: AutoSOTA๋ AI ์ฐ๊ตฌ ์๋ํ์ ์ค์ํ ์ง์ ์ ๋ํ๋ด๋ ์ฒด๊ณ์ ์ผ๋ก ์ค๊ณ๋ ์๋-ํฌ-์๋ ์์คํ
์ด๋ค. 8๊ฐ ์์ด์ ํธ์ ์กฐ์จ, ์๋ ๋ชฉํ ๊ตฌ์ฑ, ์ ํจ์ฑ ๊ฒ์ฆ ๋ฉ์ปค๋์ฆ ๋ฑ์์ ๊ธฐ์ ์ ๊ฒฌ๊ณ ์ฑ์ ๋ณด์ฌ์ฃผ๋ฉฐ, 105๊ฐ ๋
ผ๋ฌธ์์ ์๋ก์ด SOTA ๋ฐ๊ฒฌ์ด๋ผ๋ ์ค์ง์ ์ฑ๊ณผ๋ฅผ ์
์ฆํ๋ค. ๋ค๋ง ํํฐ๋ง๋ ๋
ผ๋ฌธ ์ธํธ์์๋ง ํ๊ฐ๋์๊ณ ๊ณ์ฐ ๋น์ฉ ์ ์ฝ์ด ์์ผ๋ฉฐ, ์ง์ ํ ๊ฐ๋
์ ํ์ ๊ณผ ์๋ํ๋ ํ์ดํผํ๋ผ๋ฏธํฐ ํ๋ ๊ฐ์ ๊ตฌ๋ถ์ด ๋ช
ํํ์ง ์์ ์ ์ด ํ๊ณ์ด๋ค. ์ ๋ฐ์ ์ผ๋ก AI ์ฐ๊ตฌ ๊ธฐ๋ฐ์์ค ํ๋ํ์ ๊ฐ์น ์๋ ๊ธฐ์ฌ๋ฅผ ํ๋ ์ฐ๊ตฌ์ด๋, ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ๊ณผ ํ์ฅ์ฑ์ ๋ํ ์ถ๊ฐ ๊ฒ์ฆ์ด ํ์ํ๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
๋๋ฉ์ธ ์ ์์ ์ํ LLM ํ์ธํ๋ ๊ฒฝํ์ AutoSOTA์ ์๋ ์ฝ๋ฉ ๋ฐ ์ฝ๋ ๋ณต์ ํ๊ฒฝ ๊ตฌ์ถ์ ์ด๋ก ์ ํ ๋๋ฅผ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
621์ ๋ฌผ๋ฆฌ์ ๋ณด์ ๊ฒฝ๋ง๊ณผ ์นผ๋งํํฐ ๊ฒฐํฉ ๊ฐ๋
์ 3377์ ์๋์ฌํยท์ฑ๋ฅ ์ต์ ํ๋ฅผ ์ํ ์ ๋ขฐ์ฑ ์๊ณ ๋์ ๊ฐ๋ฅํ ํ๊ฒฝ ๊ตฌํ์ ๊ธฐ์ด๊ฐ ๋ ์ ์์ต๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
aiXiv์ ์คํ ์ก์ธ์ค ๋ค์ค ์์ด์ ํธ R&D ํ๋ซํผ์ AutoSOTA๊ฐ ์ค์ ๋
ผ๋ฌธ ๋ณต์ -์ต์ ํ ์๋ํ ํ๋ก์ธ์ค๋ฅผ ๊ตฌํํ๋ ๊ธฐ์ ์ ๊ธฐ๋ฐ์ด ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
295์ ๋ฉํฐ์์ด์ ํธ ๊ธฐ๋ฐ ๊ณผํ ์ฐ๊ตฌ ์๋ํ ์์คํ
๊ณผ 3377์ SOTA ๋ชจ๋ธ ์๋ ์ฌํ/๊ฐ์ ํ๋ ์์ํฌ๊ฐ ๊ฐ์ ๋ฌธ์ ๋ฅผ ์๋นํ ์์ดํ๊ฒ ์ ๊ทผํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
3377์ AI ๊ธฐ๋ฐ ์๋ ์ต์ ํ์ ํธ๋ํน๊ณผ SOTA ํ๊ฐ๋ฅผ ๋ค๋ฃจ๋ฉฐ, 178์ AI๋ฅผ ํตํ ํนํ ์ ๊ท์ฑ ํ๋จ๊ณผ ์ฐ๊ฒฐํด๋ณผ ์ ์๋ค.
๋ค๋ฅธ ์ ๊ทผ
AI ์ฐ๊ตฌ ์๋ํ์์ SOTA ์ฌํ, ๊ฐ์ ๋ฑ ์๋ ์คํ ์์คํ
๊ตฌํ ์ ๋ค์ํ multi-agent ๊ตฌ์กฐ์ ํ๋ก์ฐ ์๋ํ ์ ๊ทผ๋ฒ์ ๋น๊ตํ ์ ์๋ค.
ํ์ ์ฐ๊ตฌ
AutoSOTA๋ ์์ ์๋ํ๋ ๊ณผํ ์ฐ๊ตฌ์์คํ
๊ตฌํ์ ๋ชฉํ๋ก ํ์ฌ Dolphin์ ์๋ํ ๋ฐ ์ฌ๊ท์ ํ์๋ฃจํ ์ ๊ทผ์ ํ์ฅ ์ ์ฉํ ๋
ผ๋ฌธ์
๋๋ค.
ํ์ ์ฐ๊ตฌ
AutoSOTA ๋
ผ๋ฌธ์ ๋ค์ค ์์ด์ ํธ ๊ธฐ๋ฐ ๋
ผ๋ฌธ ์ฑ๊ณผ ๋ณต์ /์ต์ ํ ์๋ํ๋ก aiXiv ์ํ๊ณ์์ ์ค์ SOTA ๋ชจ๋ธ ๊ฒ์ฆ/์์ฐ์ ์๋-ํฌ-์๋ ์ํฌํ๋ก์ฐ๋ฅผ ์ ๊ณตํ๋ค.
์์ฉ ์ฌ๋ก
3376์ ๊ณผํ ์๋ํ ํต์ฌ ์ญํ ๋
ผ์๊ฐ 3377๊ณผ ๊ฐ์ ์ค์ ๋ค์ค์์ด์ ํธ ๊ธฐ๋ฐ SofA(SOTA) ์๋ํ ์์คํ
์ ์ค๊ณ์ ๊ตฌํ์ผ๋ก ์ด์ด์ง๋๋ค.
์์ฉ ์ฌ๋ก
AutoSOTA๋ ์คํ์์ค ๊ณผํ ๋
ผ๋ฌธ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํด LLM ๊ธฐ๋ฐ ์๋ ์ฐ๊ตฌํธ๋ ๋ ๋ถ์์ ๊ตฌํํ๋ฉฐ, ScholarQA-Bench ํ์ฉ ์ฌ๋ก๋ฅผ ์ ๊ณตํฉ๋๋ค.
๋ฐ๋ก /๋นํ
AutoSOTA์ ์๋ํ ์ฐ๊ตฌ ์์คํ
์ฑ๊ณผ๋ฅผ Sakana์ AI Scientist์ ํ๊ณ์ ๋น๊ตํจ์ผ๋ก์จ ์๋ ๊ณผํ ์ฐ๊ตฌ ์์คํ
์ ํ์ค์ ํ๊ณ๋ฅผ ํ์
ํ ์ ์์ต๋๋ค.