Essence
Figure 1: ๋ฌธํ ํ์์์ ์ถํ ์ค๋น๊น์ง ์์ ์๋ํ๋ ๊ณผํ ํ์ ํ์ดํ๋ผ์ธ์ ์ข
๋จ ๊ฐ ์ํคํ
์ฒ
๋ณธ ๋
ผ๋ฌธ์ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ ์ถ๋ก ๋ฅ๋ ฅ์ ํ์ฉํ์ฌ ๋ฌธํ ๊ฒํ , ๊ฐ์ค ์์ฑ, ์๊ณ ๋ฆฌ์ฆ ๊ตฌํ, ๋
ผ๋ฌธ ์์ฑ๊น์ง ์ ์ฒด ์ฐ๊ตฌ ํ์ดํ๋ผ์ธ์ ์๋ํํ๋ AI-Researcher ์์คํ
์ ์ ์ํ๊ณ , ์ด๋ฅผ ํ๊ฐํ๊ธฐ ์ํ Scientist-Bench ๋ฒค์น๋งํฌ๋ฅผ ๊ฐ๋ฐํ๋ค.
Evaluation
์ดํ: AI-Researcher๋ LLM ๊ธฐ๋ฐ ์์จ ๊ณผํ ์ฐ๊ตฌ์ ์๋ก์ด ๊ฒฝ๊ณ๋ฅผ ๊ฐ์ฒํ๋ ์ผ์ฌ์ฐจ๊ณ ํฅ๋ฏธ๋ก์ด ์๋์ด๋ฉฐ, ํนํ Scientist-Bench๋ ํฅํ ์์จ ๊ณผํ ์์ด์ ํธ ํ๊ฐ์ ์ค์ํ ๊ธฐ์ค์ด ๋ ์ ์์ผ๋, ๋ณด๋ค ๊ด๋ฒ์ํ ๋ฐ์ดํฐ์
๊ฒ์ฆ๊ณผ ์ค์ ํ์ ์ปค๋ฎค๋ํฐ๋ก๋ถํฐ์ ํ์ธ์ด ํ์์ ์ผ๋ก ์๊ตฌ๋๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
AI Idea Bench ๋
ผ๋ฌธ์ ์์ด๋์ด ์์ฑ ๋ฅ๋ ฅ ์ ๋ํ๊ฐ์ ๋ฒค์น๋งํฌ ์ฒด๊ณ๋ฅผ ์ ๊ณตํ์ฌ, AI-Researcher๊ฐ ์์ด๋์ด ์์ฑ ๋ชจ๋ ์ฑ๋ฅ ๋ถ์์ ๊ธฐ์ด ์๋ฃ๋ก ํ์ฉํ ์ ์๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
์๋ฒ ๋ฉ ๊ณต๊ฐ์์ ์๋ฏธ๋ก ์ ๋ฐ๋๋ฅผ ๋ถ์ํ๋ ๊ธฐ๋ฐ ๋ฐฉ๋ฒ๋ก ์ ์ ๊ณตํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Towards end-to-end automation of AI research ๋
ผ๋ฌธ์ AI ์ฐ๊ตฌ ์๋ํ์ ์ ์ฒด์ ์ธ ์ฒญ์ฌ์ง์ ์ ์ํ์ฌ, AI-Researcher์ ์์คํ
์ค๊ณ์ ์ด๋ก ์ ๊ฐ์ด๋๊ฐ ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
086 ๋
ผ๋ฌธ์ LLM ๊ธฐ๋ฐ ์๋ ๊ณผํ ํ์ ์์คํ
์ ํ๊ฐ์ ํ๊ณ๋ฅผ ๋ถ์ํ์ฌ, 810์์ ์ ์ํ LLM ํต์ฌ ์ญ๋ ํ๊ฐ ํ๋ ์์ํฌ์ ๋ค๋ฅธ ์๊ฐ์ ์ ์ํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
The AI Scientist ๋
ผ๋ฌธ์ ์์ ์๋ ๊ณผํ ์ฐ๊ตฌ ์์คํ
์ ๋ค๋ฃจ๊ณ ์์ด AI-Researcher์ ์ค์ํ ๋น๊ต ๋์์ด ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
AI๋ฅผ ํ์ฉํ ๊ณผํ์ ๋ฐ๊ฒฌ ๋ฐ ์ฐ๊ตฌ ์์ฐ์ฑ ํฅ์์ ๋ค๋ฅธ ๋ฐฉ์์ผ๋ก ๋ค๋ฃจ๋ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM์ ์ถ๋ก ํ๊ณ๋ฅผ ์ค์ฆ์ ์ผ๋ก ํ๊ฐํ๋ ์ ์ฌํ ์ฐ๊ตฌ๋ก, ๋ค๋ฅธ ์ถ๋ก ๊ณผ์ ๋ฅผ ๋ค๋ฃฌ๋ค.
๋ค๋ฅธ ์ ๊ทผ
086์ ์์ ์๋ํ๋ AI ์ฐ๊ตฌ ์์ด์ ํธ๋ก ํ๋ก ํฐ์ด ๊ณผํ ํ์ ๋๋ฌ ๊ฐ๋ฅ์ฑ์ ์ค์ฆ์ ์ผ๋ก ๋ถ์ํ์ฌ, 922์ AI-์กฐ๊ต ๊ธฐ๋ฐ ์ฐ๊ตฌ ์ฌ๋ก์ ์ผ๋งฅ์ํตํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
The AI Scientist-v2 ๋
ผ๋ฌธ์ AI ์ฐ๊ตฌ์ ์์ด์ ํธ๊ฐ ์ค์ ๋
ผ๋ฌธ ์งํ๊น์ง ์ํํ๋ ์ ์ฒด ์๋ ์ฐ๊ตฌ ํ์ดํ๋ผ์ธ ๊ตฌํ ์ฌ๋ก๋ก, AI-Researcher์ ์ฒด๊ณ๋ณ ์ฑ๋ฅยทํ๊ณ๋ฅผ ๋น๊ตํ ์ ์๋ค.
๋ค๋ฅธ ์ ๊ทผ
์ธ์ง๊ณผํ ์คํ ์ค๊ณ ์๋ํ๋ฅผ ์ํ LLM ํ์ฉ ๋ฐฉ๋ฒ๋ก ์ ๋ค๋ฃจ๋ ๊ด๋ จ ์ฐ๊ตฌ์ด๋ค.
ํ์ ์ฐ๊ตฌ
AI-Researcher ๋
ผ๋ฌธ๋ ๊ณผํ ์ฐ๊ตฌ ์ ์ฒด ํ์ดํ๋ผ์ธ์ ์๋ํํ๋ AI ์์คํ
์ ๋ค๋ฃจ์ด AI Scientist๊ฐ ์ ์ํ๋ ์คํ์๋๋ ์๋ํ์ ์ผ๋งฅ์ํตํ๋ค.
ํ์ ์ฐ๊ตฌ
Exp-bench๋ AI ์์ด์ ํธ์ ๊ณผํ ์คํ ์ ์ฒด ์๋ํ ์๋์ ํ๊ณ๋ฅผ ํ๊ฐํ์ฌ, AI-Researcher๊ฐ ์ ์ํ ๋ฒค์น๋งํฌ์ ์๋์ง ํจ๊ณผ๋ฅผ ์ค๋ค.
ํ์ ์ฐ๊ตฌ
AI-Researcher ๋
ผ๋ฌธ์ ์์ฑ์ AI์ ์ฐ๊ตฌ ์์ด๋์ด ์์ฑ๋ถํฐ ํตํฉ ์คํ๊น์ง ์ ์ฒด ํ์ดํ๋ผ์ธ์ ๊ตฌํํ๋ฉฐ, AI Idea Bench์ ํ๊ฐ ๋ฒค์น๋งํฌ ํ๊ณ๋ฅผ ์ค์ ํ์ฉ ์ธก๋ฉด์์ ํ์ฅํ๋ค.
ํ์ ์ฐ๊ตฌ
AI-Researcher ๋
ผ๋ฌธ์ LLM ๊ธฐ๋ฐ ์ ์ฒด ์ฐ๊ตฌ ์๋ํ ํ์ดํ๋ผ์ธ์ ์คํํ๊ณ , Gemini ๋
ผ๋ฌธ์ ์ค์ ์ ์ฉ ์ฌ๋ก์ ์ฒด๊ณ์ ๋ฐฉ๋ฒ๋ก ์ ์ค์ง์ ์์ฌ์ ์ ์ ๊ณตํ๋ค.
์์ฉ ์ฌ๋ก
์์จ์ ๊ณผํ ํ์ ์์คํ
(AI-Researcher)์ ์ค์ ์ ๊ตฌํ ๋ฐ ๋ค์ํ ์๋ํ ์๋๋ฆฌ์ค๋ฅผ ํตํด agentic science ๊ฐ๋
์ ์ค์ฉ์ ์ํฅ๋ ฅ์ ํ์ธํ ์ ์์ต๋๋ค.