Essence
RND ์๊ณ ๋ฆฌ์ฆ์ ๊ฐ๋
๋์: ์ฃผ์ด์ง ์์ด๋์ด(์ผ๊ฐํ/์ค๊ฐํ)์ ๊ธฐ์กด ๋ฌธํ์ ์๋ฏธ๋ก ์ ์๋ฒ ๋ฉ ๊ณต๊ฐ์ ํํํ ํ, P๊ฐ์ ์ต๊ทผ์ ์ด์์ ์ฐพ๊ณ ๊ฐ ์ด์์ ์ฃผ๋ณ ๋ฐ๋(Q๊ฐ์ ์ด์ ๊ธฐ์ค)๋ฅผ ๊ณ์ฐํ์ฌ ์๋์ ์์๋ก ํ์ ์ฑ ์ ์๋ฅผ ๊ฒฐ์
๋๊ท๋ชจ ์ธ์ด๋ชจ๋ธ(LLM)์ด ์์ฑํ ์ฐ๊ตฌ ์์ด๋์ด์ ํ์ ์ฑ์ ์๋ ํ๊ฐํ๊ธฐ ์ํด ์๋ ์ด์ ๋ฐ๋(Relative Neighbor Density, RND) ์๊ณ ๋ฆฌ์ฆ์ ์ ์ํ๋ค. ์ด ๋ฐฉ๋ฒ์ ์ ๋์ ๊ตญ์ ๋ฐ๋๊ฐ ์๋ ์๋ฏธ๋ก ์ ์ด์๋ค์ ์๋์ ๋ฐ๋ ๋ถํฌ๋ฅผ ๋ถ์ํ์ฌ ๋๋ฉ์ธ ๊ฐ ์ผ๊ด๋ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ค.
How
RND ์๊ณ ๋ฆฌ์ฆ์ P(์ต๊ทผ์ ์ด์ ์)์ Q(์ด์์ ์ด์ ์) ํ๋ผ๋ฏธํฐ์ ๋ฐ๋ฅธ AUROC ๋ณํ: P=100, Q=50์์ ์ต์
- ์๋ฏธ๋ก ์ ์๋ฒ ๋ฉ: ๊ฐ ๋
ผ๋ฌธ์ ์ ๋ชฉ๊ณผ ์ด๋ก์ M3-Embedding์ผ๋ก 1024์ฐจ์ ๋ฒกํฐ๋ก ๋ณํ
- ์ด์ ๋ฐ๋(ND) ๊ณ์ฐ: ์์ด๋์ด ์๋ฒ ๋ฉ v์ Q๊ฐ์ ์ต๊ทผ์ ๋
ผ๋ฌธ ์ฌ์ด์ ์ฝ์ฌ์ธ ๊ฑฐ๋ฆฌ ํ๊ท ์ ์ญ์
$$ND = \frac{1}{Q}\sum_{k=1}^{Q}d(v, v_k)$$
- ์๋ ์์ ๊ธฐ๋ฐ ์ ์ํ: ์์ด๋์ด์ P๊ฐ ์ต๊ทผ์ ์ด์ ์ค ์์ด๋์ด๋ณด๋ค ๋ฐ๋๊ฐ ๋ฎ์ ์ด์์ ๋น์จ๋ก ์ต์ข
์ ์ ๊ฒฐ์
$$score_i = \frac{|\{ND \in S_i | ND \leq ND_i\}|}{|S_i|} \times 100$$
- ํต์ฌ ํต์ฐฐ: ์ ๋๊ฐ ๋์ ์๋ ์์๋ฅผ ์ฌ์ฉํ๋ฏ๋ก ๋๋ฉ์ธ ๊ฐ ๋ฐ๋ ํธ์ฐจ์ ๋ถ๋ณ(domain-invariant)
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 5/5 Overall: 4/5
์ดํ: ํ์ ์ฑ ํ๊ฐ์ ๋๋ฉ์ธ ๊ฐ ์ผ๋ฐํ๋ฅผ ์๋ ๋ฐ๋ ๊ฐ๋
์ผ๋ก ์ฐ์ํ๊ฒ ํด๊ฒฐํ๊ณ , ์ ๋ฌธ๊ฐ ๋ผ๋ฒจ๋ง ๋ถํ์ํ ๊ฒ์ฆ ๋ฐฉ๋ฒ๋ก ์ผ๋ก ์ค์ผ์ผ ๊ฐ๋ฅ์ฑ์ ์
์ฆํ๋ค. LLM ๊ณผํ์ ์๋์ ์ค์ง์ ์๊ตฌ์ ๋ถ์ํ๋ ๊ฒฌ๊ณ ํ ๊ธฐ์ ๊ธฐ์ฌ์ด๋, ํ
์คํธ์
๋ผ๋ฒจ๋ง์ ์ฒ ํ์ ๊ฐ์ (์๊ฐ ๊ฒฝ๊ณผ = ๋นํ์ ์ฑ)๊ณผ ๋ค์ํ ์๋ฒ ๋ฉ ๋ชจ๋ธ์ ์ํฅ์ ๋ํ ๋ ๊น์ ๋
ผ์๊ฐ ํ์ํ๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
155๋ ํ์ ์ ๊ณผํ ์์ด๋์ด ํ๊ฐ์ ์ธ๊ฐ์ ๊ธฐ์ค ์์ธ์ ๋ถ์ํ์ฌ, 313์ ์๋ํ ํ์ ์ฑ ํ๋ณ ํด์ ์ค๊ณยท๊ฒ์ฆ ๊ธฐ๋ฐ์ผ๋ก ์ผ์ ์ ์์ต๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
313 ๋
ผ๋ฌธ์ ํ์ ์ฑ ์ธ์ ๋ฐ ์ ๋ํ AI ๋ชจ๋ธ์ ์ค๊ณํ์ฌ, 777์ ๊ณผํ ํ์ ๊ตฌ์กฐํ์ ์ํฉํธ ๊ณ๋ํ์ ๊ธฐ์ด ์ฐ๊ตฌ๊ฐ ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
์๋ฒ ๋ฉ ๊ณต๊ฐ์์ ์๋ฏธ๋ก ์ ๋ฐ๋๋ฅผ ๋ถ์ํ๋ ๊ธฐ๋ฐ ๋ฐฉ๋ฒ๋ก ์ ์ ๊ณตํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
313๋ฒ ๋
ผ๋ฌธ์ AI Scientist์ ํ์ ์ธ์ ๋ฉ์ปค๋์ฆ ํ๊ฐ๋ฅผ ๋ค๋ฃจ๋ฉฐ, ์๋ํ์ํ ๋
ผ๋ฌธ์ ๊ฐ์น์ ๊ฒ์ฆ ๊ธฐ์ค ๋
ผ์์ ์ด๋ก ์ ๋ฐฐ๊ฒฝ์ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
LLM-Metrics๋ LLM์ ํ์ฉํ ์ฐ๊ตฌ์ฑ๊ณผ ๋ฐ ์ํฅ๋ ฅ ์๋์ธก์ ๋๊ตฌ๋ก, ํ์ ์ฑ ์๋ํ๊ฐ ๊ธฐ์ ์ ๊ธฐ๋ฐ์ด ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM ์์ฑ ์ฐ๊ตฌ ์์ด๋์ด์ ํ์ ์ฑ ํ๊ฐ๋ฅผ ์ํ ๋ค๋ฅธ ์๋ํ ๋ฐฉ๋ฒ์ ์ ์ํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
๊ณผํ์ ํ์ ์ฑ ์๋ ํ๊ฐ๋ฅผ ์ํ ๋์์ ์๋ฒ ๋ฉ ๊ธฐ๋ฐ ๋ฐฉ๋ฒ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLMs can realize combinatorial creativity ๋
ผ๋ฌธ์ LLM์ด ์กฐํฉ์ ์ฐฝ์์ฑ์ ์๋ ํ๊ฐํ๋ ๋ค์ํ ๋ฐฉ๋ฒ๋ก ์ ๋ถ์ํด AI ์์ฑ ์ฐ๊ตฌ ์์ด๋์ด ํ์ ์ฑ ํ๊ฐ ๋ชฉ์ ๊ณผ ๋น๊ตํ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
494๋ LLM ์ฐฝ์์ฑ์ ๋ค์ฐจ์ ํ๊ฐ์ ์์ด๋์ด ์์ฑ ์ ํฉ๋๋ฅผ ์คํ์ ์ผ๋ก ๊ฒ์ฆํ์ฌ 313์ RND ๊ธฐ๋ฐ ํ์ ์ฑ ํ๊ฐ์ ๋น๊ต๊ฐ ๊ฐ๋ฅํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
AI ์์ฑ ๊ณผํ ์์ด๋์ด์ ์ฐฝ์์ฑ ๋ฐ ์ฐธ์ ์ฑ์ ํ๊ฐํ๋ ๋์์ ์ ๊ทผ๋ฒ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
Evaluating Sakana's AI Scientist for Autonomous Research ๋
ผ๋ฌธ์ LLM์ด ์ฐ๊ตฌ ์ ์ฃผ๊ธฐ๋ฅผ ์๋ ์ํํ ๋ ํ์ ์ฑยท์ฐฝ์์ฑ ๋ฑ ์ฐฝ์ถ ์ธก๋ฉด์์์ ํ๊ณ๋ฅผ ์คํ์ ์ผ๋ก ์ง์ ํ์ฌ, ํ์ ์ฑ ํ๊ฐ๋ผ๋ 313 ๋
ผ๋ฌธ๊ณผ ์์ผ๋ก ์ฝ๊ธฐ ์ข์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋๋ฉ์ธ ์ ํ ์๋ ํ์ ์ธ์ ์์ด์ ํธ ํ๊ฐ ๋ฐฉ๋ฒ์ ์ ์ํ์ฌ, ์์ด์ ํธ ๊ธฐ๋ฐ RAG์ ์ฑ๋ฅ ํ๊ฐ ํน์ ๋น๊ต ์งํ๋ก ํ์ฉ๋ฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
Enabling AI Scientists to Recognize Innovation(313)์ LLM์ ํ์ ์ฑ ํ๊ฐ ๋ฐ ๊ฐ๋
ํ์ฉ ๋ฅ๋ ฅ์ ๋ฒค์น๋งํน์ ๋ค๋ฃจ๋ฉฐ, ์ง์ ์ ํ ๊ฐ ์ฐจ๋ณ ์ธก์ ๊ณผ ์ฐ๊ฒฐ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
ํนํ ์ ๊ท์ฑ ๋ฐ ํ์ ์ฑ ํ๊ฐ์์ LLM์ ํ์ฉ ๊ฐ๋ฅ์ฑ์ ํ๊ตฌํ๋ ๊ด๋ จ ๋
ผ๋ฌธ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
์ฐ๊ตฌ ์์ด๋์ด ์ฐธ์ ์ฑ ํ๊ฐ๋ฅผ ์ํ ๋ค๋ฅธ ๊ณ์ฐ์ ์ ๊ทผ๋ฒ์ ์ ์ํ๋ค.
ํ์ ์ฐ๊ตฌ
๊ณผํ ๋
ผ๋ฌธ์ ๊ด๊ณ ์ค๋ช
๋ฐ ํด๋ฌ์คํฐ๋ง ์ฐ๊ตฌ ์ฌ๋ก๋ก, ์ต์ปค ์ ๋ ฌ ๋ฌธ์ ํด๊ฒฐ ๋ฐฉ์์ ๋ฌธํ ๋ด ์ ์ฉ ์ค๋ก๋ฅผ ์ดํด๋ณผ ์ ์๋ค.
ํ์ ์ฐ๊ตฌ
AI scientist๊ฐ ํ์ ์ ์์ด๋์ด ํ์ง ๋ฐ ์คํ ์๋ํ๋ฅผ ์ค์ ์ฐ๊ตฌ ํ์ฅ์ ์ ์ฉํ ๊ฒฐ๊ณผ(313)๋ฅผ ํตํด, LLM์ ๊ณผํ๋ฐ๊ฒฌ ์๋ํ ํ๊ณ์ ์ค์ง์ ํ๊ธํจ๊ณผ๋ฅผ ์กฐ๋งํ ์ ์๋ค.
ํ์ ์ฐ๊ตฌ
Evaluating sakanaโs ai scientist ๋ฑ AI ์์ด์ ํธ ๊ธฐ๋ฐ ํ์ ์ฑ ์๋ํ๊ฐ ์คํ์ ์๋์ ์ด์ ๋ฐ๋ ๋ฐฉ๋ฒ๋ก ์ ์ ๋ชฉํด ํ์ฅ ์ฐ๊ตฌ๊ฐ ์ด๋ค์ง๋ค.
ํ์ ์ฐ๊ตฌ
Enabling AI Scientists to Recognize Innovation ๋
ผ๋ฌธ์ AI๊ฐ ์์ฑํ ์ฐ๊ตฌ ์์ด๋์ด์ ํ์ ์ฑ ์๋ ํ๊ฐ๋ฒ์ ์ ์ํด, 3212์ ๋ฏธ๋ ์ฐ๊ตฌ ๋ฐฉํฅ์ฑ ์์ธก ๊ฒฐ๊ณผ ์ ๋์ ํ๊ฐ์ ์ถ๊ฐ ๊ธฐ์ฌํ ์ ์์ต๋๋ค.
์์ฉ ์ฌ๋ก
AI ํ์ ์ธ์ ๋ฐ ์ฐ๊ตฌ ๋ํฅ ์์ธก์ ์ํ ๋๋ฉ์ธ-๋ถ๊ฐ์ง๋ก ์ AI ์ ์ฉ ์ฌ๋ก๋ก, ์๋ฏธ ๋คํธ์ํฌ ๊ธฐ๋ฐ ์์ธก๊ณผ ํ์ ํ๊ฐ์ ์ค์ ์ฐ๊ณ๋ฅผ ์ ์ํฉ๋๋ค.
์์ฉ ์ฌ๋ก
๊ณผํ ํ์ ์ธ์ ํ๊ฐ ๋ฑ, ๊ณ ์ฐจ ๋
ผ๋ฆฌ ๋ฐ ํ์์ ์์คํ
์ด ์ค์ AI ๊ณผํ ์๋ํ์ ํ์ ํ์ง์ ์ ์ฉ๋๊ณ ์์ต๋๋ค.