Enabling AI Scientists to Recognize Innovation: A Domain-Agnostic Algorithm for Assessing Novelty

์ €์ž: Yao Wang, Mingxuan Cui, Arthur Jiang, Jun Yan | ๋‚ ์งœ: 2025 | DOI: arXiv:2503.01508 📄 PDF


Essence

Figure 1

RND ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ๊ฐœ๋… ๋„์‹œ: ์ฃผ์–ด์ง„ ์•„์ด๋””์–ด(์‚ผ๊ฐํ˜•/์˜ค๊ฐํ˜•)์™€ ๊ธฐ์กด ๋ฌธํ—Œ์„ ์˜๋ฏธ๋ก ์  ์ž„๋ฒ ๋”ฉ ๊ณต๊ฐ„์— ํ‘œํ˜„ํ•œ ํ›„, P๊ฐœ์˜ ์ตœ๊ทผ์ ‘ ์ด์›ƒ์„ ์ฐพ๊ณ  ๊ฐ ์ด์›ƒ์˜ ์ฃผ๋ณ€ ๋ฐ€๋„(Q๊ฐœ์˜ ์ด์›ƒ ๊ธฐ์ค€)๋ฅผ ๊ณ„์‚ฐํ•˜์—ฌ ์ƒ๋Œ€์  ์ˆœ์œ„๋กœ ํ˜์‹ ์„ฑ ์ ์ˆ˜๋ฅผ ๊ฒฐ์ •

๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ(LLM)์ด ์ƒ์„ฑํ•œ ์—ฐ๊ตฌ ์•„์ด๋””์–ด์˜ ํ˜์‹ ์„ฑ์„ ์ž๋™ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•ด ์ƒ๋Œ€ ์ด์›ƒ ๋ฐ€๋„(Relative Neighbor Density, RND) ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์ œ์•ˆํ•œ๋‹ค. ์ด ๋ฐฉ๋ฒ•์€ ์ ˆ๋Œ€์  ๊ตญ์†Œ ๋ฐ€๋„๊ฐ€ ์•„๋‹Œ ์˜๋ฏธ๋ก ์  ์ด์›ƒ๋“ค์˜ ์ƒ๋Œ€์  ๋ฐ€๋„ ๋ถ„ํฌ๋ฅผ ๋ถ„์„ํ•˜์—ฌ ๋„๋ฉ”์ธ ๊ฐ„ ์ผ๊ด€๋œ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•œ๋‹ค.

Motivation

Achievement

Figure 2

์ปดํ“จํ„ฐ๊ณผํ•™๊ณผ ์ƒ์˜ํ•™ ๋„๋ฉ”์ธ์—์„œ HD(Historical Dissimilarity)์™€ RND ์ ์ˆ˜์˜ ๋ถ„ํฌ ๋น„๊ต: RND๋Š” ๋„๋ฉ”์ธ๋ณ„ ํŽธ์ฐจ๊ฐ€ ์ ์Œ

  1. ๋„๋ฉ”์ธ ๊ฐ„ ์ผ๊ด€๋œ ์„ฑ๋Šฅ: ์ปดํ“จํ„ฐ๊ณผํ•™(AUROC=0.820), ์ƒ์˜ํ•™(AUROC=0.765)์—์„œ ์ตœ๊ณ  ์„ฑ๋Šฅ ๋‹ฌ์„ฑ. ๊ต์ฐจ ๋„๋ฉ”์ธ ํ‰๊ฐ€์—์„œ RND(0.795) vs ๊ธฐ์กด ์ตœ๊ณ  ๋ฐฉ๋ฒ•(0.597) ๋Œ€ํญ ์šฐ์ˆ˜
  2. ์ „๋ฌธ๊ฐ€ ๋ผ๋ฒจ๋ง ๋ถˆํ•„์š”: ์ตœ๊ทผ ์ƒ์œ„ ์ €๋„/ํ•™ํšŒ์˜ ๋…ผ๋ฌธ(์–‘์„ฑ)๊ณผ ๊ณผ๊ฑฐ ๋†’์€ ์ธ์šฉ๋„ ๋…ผ๋ฌธ(์Œ์„ฑ)์„ ๊ตฌ๋ถ„ํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ์‹ ๋ขฐํ•  ์ˆ˜ ์žˆ๋Š” ํ…Œ์ŠคํŠธ์…‹ ์ž๋™ ๊ตฌ์„ฑ
  3. ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ๋ฒ ์ด์Šค: PubMed 2,536๋งŒ ํŽธ, ArXiv 264๋งŒ ํŽธ์˜ ์˜๋ฏธ๋ก ์  ์ž„๋ฒ ๋”ฉ ๊ตฌ์ถ•(M3-Embedding, 1024์ฐจ์›)

How

Figure 3

RND ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ P(์ตœ๊ทผ์ ‘ ์ด์›ƒ ์ˆ˜)์™€ Q(์ด์›ƒ์˜ ์ด์›ƒ ์ˆ˜) ํŒŒ๋ผ๋ฏธํ„ฐ์— ๋”ฐ๋ฅธ AUROC ๋ณ€ํ™”: P=100, Q=50์—์„œ ์ตœ์ 

$$ND = \frac{1}{Q}\sum_{k=1}^{Q}d(v, v_k)$$

$$score_i = \frac{|\{ND \in S_i | ND \leq ND_i\}|}{|S_i|} \times 100$$

Originality

Limitation & Further Study

Evaluation

Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 5/5 Overall: 4/5

์ดํ‰: ํ˜์‹ ์„ฑ ํ‰๊ฐ€์˜ ๋„๋ฉ”์ธ ๊ฐ„ ์ผ๋ฐ˜ํ™”๋ฅผ ์ƒ๋Œ€ ๋ฐ€๋„ ๊ฐœ๋…์œผ๋กœ ์šฐ์•„ํ•˜๊ฒŒ ํ•ด๊ฒฐํ•˜๊ณ , ์ „๋ฌธ๊ฐ€ ๋ผ๋ฒจ๋ง ๋ถˆํ•„์š”ํ•œ ๊ฒ€์ฆ ๋ฐฉ๋ฒ•๋ก ์œผ๋กœ ์Šค์ผ€์ผ ๊ฐ€๋Šฅ์„ฑ์„ ์ž…์ฆํ–ˆ๋‹ค. LLM ๊ณผํ•™์ž ์‹œ๋Œ€์˜ ์‹ค์งˆ์  ์š”๊ตฌ์— ๋ถ€์‘ํ•˜๋Š” ๊ฒฌ๊ณ ํ•œ ๊ธฐ์ˆ  ๊ธฐ์—ฌ์ด๋‚˜, ํ…Œ์ŠคํŠธ์…‹ ๋ผ๋ฒจ๋ง์˜ ์ฒ ํ•™์  ๊ฐ€์ •(์‹œ๊ฐ„ ๊ฒฝ๊ณผ = ๋น„ํ˜์‹ ์„ฑ)๊ณผ ๋‹ค์–‘ํ•œ ์ž„๋ฒ ๋”ฉ ๋ชจ๋ธ์˜ ์˜ํ–ฅ์— ๋Œ€ํ•œ ๋” ๊นŠ์€ ๋…ผ์˜๊ฐ€ ํ•„์š”ํ•˜๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
155๋Š” ํ˜์‹ ์  ๊ณผํ•™ ์•„์ด๋””์–ด ํ‰๊ฐ€์˜ ์ธ๊ฐ„์  ๊ธฐ์ค€ ์š”์ธ์„ ๋ถ„์„ํ•˜์—ฌ, 313์˜ ์ž๋™ํ™” ํ˜์‹ ์„ฑ ํŒ๋ณ„ ํˆด์˜ ์„ค๊ณ„ยท๊ฒ€์ฆ ๊ธฐ๋ฐ˜์œผ๋กœ ์‚ผ์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
313 ๋…ผ๋ฌธ์€ ํ˜์‹ ์„ฑ ์ธ์‹ ๋ฐ ์ •๋Ÿ‰ํ™” AI ๋ชจ๋ธ์„ ์„ค๊ณ„ํ•˜์—ฌ, 777์˜ ๊ณผํ•™ ํ˜์‹  ๊ตฌ์กฐํ™”์™€ ์ž„ํŒฉํŠธ ๊ณ„๋Ÿ‰ํ™”์˜ ๊ธฐ์ดˆ ์—ฐ๊ตฌ๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
์ž„๋ฒ ๋”ฉ ๊ณต๊ฐ„์—์„œ ์˜๋ฏธ๋ก ์  ๋ฐ€๋„๋ฅผ ๋ถ„์„ํ•˜๋Š” ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•๋ก ์„ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
313๋ฒˆ ๋…ผ๋ฌธ์€ AI Scientist์˜ ํ˜์‹  ์ธ์‹ ๋ฉ”์ปค๋‹ˆ์ฆ˜ ํ‰๊ฐ€๋ฅผ ๋‹ค๋ฃจ๋ฉฐ, ์ž๋™ํ˜•์‹ํ™” ๋…ผ๋ฌธ์˜ ๊ฐ€์น˜์™€ ๊ฒ€์ฆ ๊ธฐ์ค€ ๋…ผ์˜์— ์ด๋ก ์  ๋ฐฐ๊ฒฝ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
LLM-Metrics๋Š” LLM์„ ํ™œ์šฉํ•œ ์—ฐ๊ตฌ์„ฑ๊ณผ ๋ฐ ์˜ํ–ฅ๋ ฅ ์ž๋™์ธก์ • ๋„๊ตฌ๋กœ, ํ˜์‹ ์„ฑ ์ž๋™ํ‰๊ฐ€ ๊ธฐ์ œ์˜ ๊ธฐ๋ฐ˜์ด ๋œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM ์ƒ์„ฑ ์—ฐ๊ตฌ ์•„์ด๋””์–ด์˜ ํ˜์‹ ์„ฑ ํ‰๊ฐ€๋ฅผ ์œ„ํ•œ ๋‹ค๋ฅธ ์ž๋™ํ™” ๋ฐฉ๋ฒ•์„ ์ œ์‹œํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๊ณผํ•™์  ํ˜์‹ ์„ฑ ์ž๋™ ํ‰๊ฐ€๋ฅผ ์œ„ํ•œ ๋Œ€์•ˆ์  ์ž„๋ฒ ๋”ฉ ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLMs can realize combinatorial creativity ๋…ผ๋ฌธ์€ LLM์ด ์กฐํ•ฉ์  ์ฐฝ์˜์„ฑ์„ ์ž๋™ ํ‰๊ฐ€ํ•˜๋Š” ๋‹ค์–‘ํ•œ ๋ฐฉ๋ฒ•๋ก ์„ ๋ถ„์„ํ•ด AI ์ƒ์„ฑ ์—ฐ๊ตฌ ์•„์ด๋””์–ด ํ˜์‹ ์„ฑ ํ‰๊ฐ€ ๋ชฉ์ ๊ณผ ๋น„๊ตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
494๋Š” LLM ์ฐฝ์˜์„ฑ์˜ ๋‹ค์ฐจ์› ํ‰๊ฐ€์™€ ์•„์ด๋””์–ด ์ƒ์„ฑ ์ ํ•ฉ๋„๋ฅผ ์‹คํ—˜์ ์œผ๋กœ ๊ฒ€์ฆํ•˜์—ฌ 313์˜ RND ๊ธฐ๋ฐ˜ ํ˜์‹ ์„ฑ ํ‰๊ฐ€์™€ ๋น„๊ต๊ฐ€ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
AI ์ƒ์„ฑ ๊ณผํ•™ ์•„์ด๋””์–ด์˜ ์ฐฝ์˜์„ฑ ๋ฐ ์ฐธ์‹ ์„ฑ์„ ํ‰๊ฐ€ํ•˜๋Š” ๋Œ€์•ˆ์  ์ ‘๊ทผ๋ฒ•์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Evaluating Sakana's AI Scientist for Autonomous Research ๋…ผ๋ฌธ์€ LLM์ด ์—ฐ๊ตฌ ์ „์ฃผ๊ธฐ๋ฅผ ์ž๋™ ์ˆ˜ํ–‰ํ•  ๋•Œ ํ˜์‹ ์„ฑยท์ฐฝ์˜์„ฑ ๋“ฑ ์ฐฝ์ถœ ์ธก๋ฉด์—์„œ์˜ ํ•œ๊ณ„๋ฅผ ์‹คํ—˜์ ์œผ๋กœ ์ง€์ ํ•˜์—ฌ, ํ˜์‹ ์„ฑ ํ‰๊ฐ€๋ผ๋Š” 313 ๋…ผ๋ฌธ๊ณผ ์Œ์œผ๋กœ ์ฝ๊ธฐ ์ข‹์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋„๋ฉ”์ธ ์ œํ•œ ์—†๋Š” ํ˜์‹  ์ธ์‹ ์—์ด์ „ํŠธ ํ‰๊ฐ€ ๋ฐฉ๋ฒ•์„ ์ œ์‹œํ•˜์—ฌ, ์—์ด์ „ํŠธ ๊ธฐ๋ฐ˜ RAG์˜ ์„ฑ๋Šฅ ํ‰๊ฐ€ ํ˜น์€ ๋น„๊ต ์ง€ํ‘œ๋กœ ํ™œ์šฉ๋ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Enabling AI Scientists to Recognize Innovation(313)์€ LLM์˜ ํ˜์‹ ์„ฑ ํ‰๊ฐ€ ๋ฐ ๊ฐœ๋… ํ™œ์šฉ ๋Šฅ๋ ฅ์˜ ๋ฒค์น˜๋งˆํ‚น์„ ๋‹ค๋ฃจ๋ฉฐ, ์ง€์‹ ์œ ํ˜• ๊ฐ„ ์ฐจ๋ณ„ ์ธก์ •๊ณผ ์—ฐ๊ฒฐ๋œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
ํŠนํ—ˆ ์‹ ๊ทœ์„ฑ ๋ฐ ํ˜์‹ ์„ฑ ํ‰๊ฐ€์—์„œ LLM์˜ ํ™œ์šฉ ๊ฐ€๋Šฅ์„ฑ์„ ํƒ๊ตฌํ•˜๋Š” ๊ด€๋ จ ๋…ผ๋ฌธ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์—ฐ๊ตฌ ์•„์ด๋””์–ด ์ฐธ์‹ ์„ฑ ํ‰๊ฐ€๋ฅผ ์œ„ํ•œ ๋‹ค๋ฅธ ๊ณ„์‚ฐ์  ์ ‘๊ทผ๋ฒ•์„ ์ œ์‹œํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
๊ณผํ•™ ๋…ผ๋ฌธ์˜ ๊ด€๊ณ„ ์„ค๋ช… ๋ฐ ํด๋Ÿฌ์Šคํ„ฐ๋ง ์—ฐ๊ตฌ ์‚ฌ๋ก€๋กœ, ์•ต์ปค ์ •๋ ฌ ๋ฌธ์ œ ํ•ด๊ฒฐ ๋ฐฉ์‹์˜ ๋ฌธํ—Œ ๋‚ด ์ ์šฉ ์‹ค๋ก€๋ฅผ ์‚ดํŽด๋ณผ ์ˆ˜ ์žˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
AI scientist๊ฐ€ ํ˜์‹ ์  ์•„์ด๋””์–ด ํƒ์ง€ ๋ฐ ์‹คํ—˜ ์ž๋™ํ™”๋ฅผ ์‹ค์ œ ์—ฐ๊ตฌ ํ˜„์žฅ์— ์ ์šฉํ•œ ๊ฒฐ๊ณผ(313)๋ฅผ ํ†ตํ•ด, LLM์˜ ๊ณผํ•™๋ฐœ๊ฒฌ ์ž๋™ํ™” ํ•œ๊ณ„์™€ ์‹ค์งˆ์  ํŒŒ๊ธ‰ํšจ๊ณผ๋ฅผ ์กฐ๋งํ•  ์ˆ˜ ์žˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Evaluating sakanaโ€™s ai scientist ๋“ฑ AI ์—์ด์ „ํŠธ ๊ธฐ๋ฐ˜ ํ˜์‹ ์„ฑ ์ž๋™ํ‰๊ฐ€ ์‹คํ—˜์— ์ƒ๋Œ€์  ์ด์›ƒ ๋ฐ€๋„ ๋ฐฉ๋ฒ•๋ก ์„ ์ ‘๋ชฉํ•ด ํ™•์žฅ ์—ฐ๊ตฌ๊ฐ€ ์ด๋ค„์ง„๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Enabling AI Scientists to Recognize Innovation ๋…ผ๋ฌธ์€ AI๊ฐ€ ์ƒ์„ฑํ•œ ์—ฐ๊ตฌ ์•„์ด๋””์–ด์˜ ํ˜์‹ ์„ฑ ์ž๋™ ํ‰๊ฐ€๋ฒ•์„ ์ œ์‹œํ•ด, 3212์˜ ๋ฏธ๋ž˜ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ์„ฑ ์˜ˆ์ธก ๊ฒฐ๊ณผ ์ •๋Ÿ‰์  ํ‰๊ฐ€์— ์ถ”๊ฐ€ ๊ธฐ์—ฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
AI ํ˜์‹  ์ธ์‹ ๋ฐ ์—ฐ๊ตฌ ๋™ํ–ฅ ์˜ˆ์ธก์„ ์œ„ํ•œ ๋„๋ฉ”์ธ-๋ถˆ๊ฐ€์ง€๋ก ์  AI ์ ์šฉ ์‚ฌ๋ก€๋กœ, ์˜๋ฏธ ๋„คํŠธ์›Œํฌ ๊ธฐ๋ฐ˜ ์˜ˆ์ธก๊ณผ ํ˜์‹  ํ‰๊ฐ€์˜ ์‹ค์ œ ์—ฐ๊ณ„๋ฅผ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
๊ณผํ•™ ํ˜์‹  ์ธ์‹ ํ‰๊ฐ€ ๋“ฑ, ๊ณ ์ฐจ ๋…ผ๋ฆฌ ๋ฐ ํ˜•์‹์  ์‹œ์Šคํ…œ์ด ์‹ค์ œ AI ๊ณผํ•™ ์ž๋™ํ™”์˜ ํ˜์‹  ํƒ์ง€์— ์ ์šฉ๋˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •