AutoSOTA: An End-to-End Automated Research System for State-of-the-Art AI Model Discovery

์ €์ž: Yu Li, Chenyang Shao, Xinyang Liu, Ruotong Zhao, Peijie Liu, Hongyuan Su, Zhibin Chen, Qinglong Yang, Anjie Xu, Yi Fang, Qingbin Zeng, Tianxing Li, Jingbo Xu, Fengli Xu, Yong Li, Tie-Yan Liu | ๋‚ ์งœ: 2026-04-07 | URL: https://arxiv.org/abs/2604.05550 📄 PDF


Essence

Figure 2

Figure 2: Overall Framework of AutoSOTA

AutoSOTA๋Š” ๋…ผ๋ฌธ์„ ์‹œ์ž‘์ ์œผ๋กœ ํ•˜์—ฌ ์ฝ”๋“œ ๋ณต์ œ, ํ™˜๊ฒฝ ๊ตฌ์„ฑ, ์„ฑ๋Šฅ ์ตœ์ ํ™”๋ฅผ ์ž๋™ํ™”ํ•˜๋Š” ์—”๋“œ-ํˆฌ-์—”๋“œ ๋‹ค์ค‘ ์—์ด์ „ํŠธ ์‹œ์Šคํ…œ์ด๋‹ค. 8๊ฐœ์˜ ์ „๋ฌธํ™”๋œ ์—์ด์ „ํŠธ๊ฐ€ ํ˜‘๋ ฅํ•˜์—ฌ ๊ธฐ์กด SOTA ๋ชจ๋ธ์„ ์žฌํ˜„ํ•˜๊ณ  ๊ฐœ์„ ๋œ ์ƒˆ๋กœ์šด SOTA ๋ชจ๋ธ์„ ๋ฐœ๊ฒฌํ•œ๋‹ค.

Motivation

Achievement

Figure 2

Figure 2: Overall Framework of AutoSOTA

How

Figure 3

Figure 3: Overall Framework of the Resource Acquisition Process

Originality

Limitation & Further Study

Evaluation

Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

์ดํ‰: AutoSOTA๋Š” AI ์—ฐ๊ตฌ ์ž๋™ํ™”์˜ ์ค‘์š”ํ•œ ์ง„์ „์„ ๋‚˜ํƒ€๋‚ด๋Š” ์ฒด๊ณ„์ ์œผ๋กœ ์„ค๊ณ„๋œ ์—”๋“œ-ํˆฌ-์—”๋“œ ์‹œ์Šคํ…œ์ด๋‹ค. 8๊ฐœ ์—์ด์ „ํŠธ์˜ ์กฐ์œจ, ์ž๋™ ๋ชฉํ‘œ ๊ตฌ์„ฑ, ์œ ํšจ์„ฑ ๊ฒ€์ฆ ๋ฉ”์ปค๋‹ˆ์ฆ˜ ๋“ฑ์—์„œ ๊ธฐ์ˆ ์  ๊ฒฌ๊ณ ์„ฑ์„ ๋ณด์—ฌ์ฃผ๋ฉฐ, 105๊ฐœ ๋…ผ๋ฌธ์—์„œ ์ƒˆ๋กœ์šด SOTA ๋ฐœ๊ฒฌ์ด๋ผ๋Š” ์‹ค์งˆ์  ์„ฑ๊ณผ๋ฅผ ์ž…์ฆํ–ˆ๋‹ค. ๋‹ค๋งŒ ํ•„ํ„ฐ๋ง๋œ ๋…ผ๋ฌธ ์„ธํŠธ์—์„œ๋งŒ ํ‰๊ฐ€๋˜์—ˆ๊ณ  ๊ณ„์‚ฐ ๋น„์šฉ ์ œ์•ฝ์ด ์žˆ์œผ๋ฉฐ, ์ง„์ •ํ•œ ๊ฐœ๋…์  ํ˜์‹ ๊ณผ ์ž๋™ํ™”๋œ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ํŠœ๋‹ ๊ฐ„์˜ ๊ตฌ๋ถ„์ด ๋ช…ํ™•ํ•˜์ง€ ์•Š์€ ์ ์ด ํ•œ๊ณ„์ด๋‹ค. ์ „๋ฐ˜์ ์œผ๋กœ AI ์—ฐ๊ตฌ ๊ธฐ๋ฐ˜์‹œ์„ค ํ˜„๋Œ€ํ™”์— ๊ฐ€์น˜ ์žˆ๋Š” ๊ธฐ์—ฌ๋ฅผ ํ•˜๋Š” ์—ฐ๊ตฌ์ด๋‚˜, ์ผ๋ฐ˜ํ™” ๊ฐ€๋Šฅ์„ฑ๊ณผ ํ™•์žฅ์„ฑ์— ๋Œ€ํ•œ ์ถ”๊ฐ€ ๊ฒ€์ฆ์ด ํ•„์š”ํ•˜๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๋„๋ฉ”์ธ ์ ์‘์„ ์œ„ํ•œ LLM ํŒŒ์ธํŠœ๋‹ ๊ฒฝํ—˜์€ AutoSOTA์˜ ์ž๋™ ์ฝ”๋”ฉ ๋ฐ ์ฝ”๋“œ ๋ณต์ œ ํ™˜๊ฒฝ ๊ตฌ์ถ•์— ์ด๋ก ์  ํ† ๋Œ€๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
621์˜ ๋ฌผ๋ฆฌ์ •๋ณด์‹ ๊ฒฝ๋ง๊ณผ ์นผ๋งŒํ•„ํ„ฐ ๊ฒฐํ•ฉ ๊ฐœ๋…์€ 3377์˜ ์ž๋™์žฌํ˜„ยท์„ฑ๋Šฅ ์ตœ์ ํ™”๋ฅผ ์œ„ํ•œ ์‹ ๋ขฐ์„ฑ ์žˆ๊ณ  ๋ˆ„์  ๊ฐ€๋Šฅํ•œ ํ™˜๊ฒฝ ๊ตฌํ˜„์— ๊ธฐ์ดˆ๊ฐ€ ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
aiXiv์˜ ์˜คํ”ˆ ์•ก์„ธ์Šค ๋‹ค์ค‘ ์—์ด์ „ํŠธ R&D ํ”Œ๋žซํผ์€ AutoSOTA๊ฐ€ ์‹ค์ œ ๋…ผ๋ฌธ ๋ณต์ œ-์ตœ์ ํ™” ์ž๋™ํ™” ํ”„๋กœ์„ธ์Šค๋ฅผ ๊ตฌํ˜„ํ•˜๋Š” ๊ธฐ์ˆ ์  ๊ธฐ๋ฐ˜์ด ๋œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
295์˜ ๋ฉ€ํ‹ฐ์—์ด์ „ํŠธ ๊ธฐ๋ฐ˜ ๊ณผํ•™ ์—ฐ๊ตฌ ์ž๋™ํ™” ์‹œ์Šคํ…œ๊ณผ 3377์˜ SOTA ๋ชจ๋ธ ์ž๋™ ์žฌํ˜„/๊ฐœ์„  ํ”„๋ ˆ์ž„์›Œํฌ๊ฐ€ ๊ฐ™์€ ๋ฌธ์ œ๋ฅผ ์ƒ๋‹นํžˆ ์ƒ์ดํ•˜๊ฒŒ ์ ‘๊ทผํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
3377์€ AI ๊ธฐ๋ฐ˜ ์ž๋™ ์ตœ์‹ ํ•™์ˆ  ํŠธ๋ž˜ํ‚น๊ณผ SOTA ํ‰๊ฐ€๋ฅผ ๋‹ค๋ฃจ๋ฉฐ, 178์˜ AI๋ฅผ ํ†ตํ•œ ํŠนํ—ˆ ์‹ ๊ทœ์„ฑ ํŒ๋‹จ๊ณผ ์—ฐ๊ฒฐํ•ด๋ณผ ์ˆ˜ ์žˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
AI ์—ฐ๊ตฌ ์ž๋™ํ™”์—์„œ SOTA ์žฌํ˜„, ๊ฐœ์„  ๋“ฑ ์ž๋™ ์‹คํ—˜ ์‹œ์Šคํ…œ ๊ตฌํ˜„ ์‹œ ๋‹ค์–‘ํ•œ multi-agent ๊ตฌ์กฐ์™€ ํ”Œ๋กœ์šฐ ์ž๋™ํ™” ์ ‘๊ทผ๋ฒ•์„ ๋น„๊ตํ•  ์ˆ˜ ์žˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
AutoSOTA๋Š” ์™„์ „ ์ž๋™ํ™”๋œ ๊ณผํ•™ ์—ฐ๊ตฌ์‹œ์Šคํ…œ ๊ตฌํ˜„์„ ๋ชฉํ‘œ๋กœ ํ•˜์—ฌ Dolphin์˜ ์ž๋™ํ™” ๋ฐ ์žฌ๊ท€์  ํ์‡„๋ฃจํ”„ ์ ‘๊ทผ์„ ํ™•์žฅ ์ ์šฉํ•œ ๋…ผ๋ฌธ์ž…๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
AutoSOTA ๋…ผ๋ฌธ์€ ๋‹ค์ค‘ ์—์ด์ „ํŠธ ๊ธฐ๋ฐ˜ ๋…ผ๋ฌธ ์„ฑ๊ณผ ๋ณต์ œ/์ตœ์ ํ™” ์ž๋™ํ™”๋กœ aiXiv ์ƒํƒœ๊ณ„์—์„œ ์‹ค์ œ SOTA ๋ชจ๋ธ ๊ฒ€์ฆ/์ƒ์‚ฐ์˜ ์—”๋“œ-ํˆฌ-์—”๋“œ ์›Œํฌํ”Œ๋กœ์šฐ๋ฅผ ์ œ๊ณตํ•œ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
3376์˜ ๊ณผํ•™ ์ž๋™ํ™” ํ•ต์‹ฌ ์—ญํ•  ๋…ผ์˜๊ฐ€ 3377๊ณผ ๊ฐ™์€ ์‹ค์ œ ๋‹ค์ค‘์—์ด์ „ํŠธ ๊ธฐ๋ฐ˜ SofA(SOTA) ์ž๋™ํ™” ์‹œ์Šคํ…œ์˜ ์„ค๊ณ„์™€ ๊ตฌํ˜„์œผ๋กœ ์ด์–ด์ง‘๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
AutoSOTA๋Š” ์˜คํ”ˆ์†Œ์Šค ๊ณผํ•™ ๋…ผ๋ฌธ ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•ด LLM ๊ธฐ๋ฐ˜ ์ž๋™ ์—ฐ๊ตฌํŠธ๋ Œ๋“œ ๋ถ„์„์„ ๊ตฌํ˜„ํ•˜๋ฉฐ, ScholarQA-Bench ํ™œ์šฉ ์‚ฌ๋ก€๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๋ฐ˜๋ก /๋น„ํŒ
AutoSOTA์˜ ์ž๋™ํ™” ์—ฐ๊ตฌ ์‹œ์Šคํ…œ ์„ฑ๊ณผ๋ฅผ Sakana์˜ AI Scientist์˜ ํ•œ๊ณ„์™€ ๋น„๊ตํ•จ์œผ๋กœ์จ ์ž๋™ ๊ณผํ•™ ์—ฐ๊ตฌ ์‹œ์Šคํ…œ์˜ ํ˜„์‹ค์  ํ•œ๊ณ„๋ฅผ ํŒŒ์•…ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •