ShinkaEvolve: Towards Open-Ended And Sample-Efficient Program Evolution

์ €์ž: R. Lange, Yuki Imajuku, Edoardo Cetin | ๋‚ ์งœ: 2025 | DOI: 10.48550/arXiv.2509.19349 📄 PDF


Essence

Figure 1

ShinkaEvolve ํ”„๋ ˆ์ž„์›Œํฌ ๊ฐœ์š”: ํ‰๊ฐ€๋œ ํ”„๋กœ๊ทธ๋žจ์˜ ์•„์นด์ด๋ธŒ ๊ตฌ์ถ•, ๊ฑฐ์ ˆ ์ƒ˜ํ”Œ๋ง์„ ํ†ตํ•œ ์ƒˆ๋กœ์šด ํ”„๋กœ๊ทธ๋žจ ์ƒ์„ฑ, ์ ์‘ํ˜• ์„ ํƒ

๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ(LLM)์„ ์ง„ํ™” ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ๋ณ€์ด ์—ฐ์‚ฐ์ž๋กœ ํ™œ์šฉํ•˜์—ฌ ์ƒ˜ํ”Œ ํšจ์œจ์„ฑ์„ ํš๊ธฐ์ ์œผ๋กœ ๊ฐœ์„ ํ•œ ํ”„๋กœ๊ทธ๋žจ ์ง„ํ™” ํ”„๋ ˆ์ž„์›Œํฌ์ด๋‹ค. ์„ธ ๊ฐ€์ง€ ํ•ต์‹ฌ ์•Œ๊ณ ๋ฆฌ์ฆ˜ ํ˜์‹ (๋ถ€๋ชจ ์„ ํƒ ์ „๋žต, ์ฝ”๋“œ ์‹ ๊ทœ์„ฑ ๊ฑฐ์ ˆ ์ƒ˜ํ”Œ๋ง, ์ ์‘ํ˜• LLM ์•™์ƒ๋ธ”)์„ ํ†ตํ•ด ๊ธฐ์กด ๋ฐฉ๋ฒ• ๋Œ€๋น„ ์ˆ˜์‹ญ ๋ฐฐ ์ ์€ ํ‰๊ฐ€๋กœ ์ตœ์ฒจ๋‹จ ์†”๋ฃจ์…˜์„ ๋ฐœ๊ฒฌํ•œ๋‹ค.

Motivation

Achievement

Figure 5

์› ํŒจํ‚น ์ž‘์—…์—์„œ ShinkaEvolve๋Š” AlphaEvolve๋ฅผ 150๊ฐœ ์ƒ˜ํ”Œ๋กœ ๋Šฅ๊ฐ€

  1. ํš๊ธฐ์ ์ธ ์ƒ˜ํ”Œ ํšจ์œจ์„ฑ: ์› ํŒจํ‚น ๋ฌธ์ œ์—์„œ ๋‹จ 150๊ฐœ ์ƒ˜ํ”Œ๋กœ ์ƒˆ๋กœ์šด ์ตœ์ฒจ๋‹จ ์†”๋ฃจ์…˜ ๋ฐœ๊ฒฌ (๊ธฐ์กด ๋ฐฉ๋ฒ• ๋Œ€๋น„ ์ˆ˜์‹ญ ๋ฐฐ ๊ฐœ์„ )
  2. ๋‹ค์–‘ํ•œ ๋„๋ฉ”์ธ ๊ฒ€์ฆ:
    • ์ˆ˜ํ•™ ์ตœ์ ํ™”(์› ํŒจํ‚น)
    • AIME ์ˆ˜ํ•™ ์ถ”๋ก  ์ž‘์—…์šฉ ๊ณ ์„ฑ๋Šฅ ์—์ด์ „ํŠธ ์„ค๊ณ„
    • ALE-Bench ๊ฒฝ์Ÿ ํ”„๋กœ๊ทธ๋ž˜๋ฐ ๋ฌธ์ œ ๊ฐœ์„ 
    • ํ˜ผํ•ฉ์ „๋ฌธ๊ฐ€(MoE) ๋กœ๋“œ ๋ฐธ๋Ÿฐ์‹ฑ ์†์‹คํ•จ์ˆ˜ ๋ฐœ๊ฒฌ
  3. ์˜คํ”ˆ์†Œ์Šค ๊ณต๊ฐœ: Apache 2.0 ๋ผ์ด์„ผ์Šค ํ•˜์— ์ „์ฒด ์ฝ”๋“œ์™€ ๋Œ€ํ™”ํ˜• ์‹œ๊ฐํ™” ๋„๊ตฌ ๊ณต๊ฐœ๋กœ ๋ฏผ์ฃผํ™” ์ถ”์ง„

How

Figure 2

๋ถ€๋ชจ ์ƒ˜ํ”Œ๋ง ์ „๋žต: ๊ท ์ผ ์ƒ˜ํ”Œ๋ง(์ˆœ์ˆ˜ ํƒ์ƒ‰)์—์„œ ์–ธ๋•์˜ค๋ฅด๊ธฐ(์ˆœ์ˆ˜ ํ™œ์šฉ)๊นŒ์ง€ ๋‹ค์–‘ํ•œ ์„ ํƒ์ง€ ์ œ๊ณต

1. ์ ์‘ํ˜• ๋ถ€๋ชจ ๋ฐ ์˜๊ฐ ํ”„๋กœ๊ทธ๋žจ ์ƒ˜ํ”Œ๋ง

2. LLM ์œ ๋„ ํ”„๋กœ๊ทธ๋žจ ๋ณ€์ด ๋ฐ ์‹ ๊ทœ์„ฑ ํ‰๊ฐ€

Figure 3

์ฝ”๋“œ ์‹ ๊ทœ์„ฑ ๊ฑฐ์ ˆ ์ƒ˜ํ”Œ๋ง: ์ž„๋ฒ ๋”ฉ ์œ ์‚ฌ๋„ ๊ณ„์‚ฐ โ†’ ์ž„๊ณ„๊ฐ’ ์ดˆ๊ณผ ์‹œ LLM ์žฌํ‰๊ฐ€

3. ์‹คํ–‰ ๋ฐ ์„ธ๊ณ„ ํ”ผ๋“œ๋ฐฑ

Originality

Limitation & Further Study

Evaluation

Novelty: 4.5/5 Technical Soundness: 4/5 Significance: 4.5/5 Clarity: 4/5 Overall: 4.2/5

์ดํ‰: ShinkaEvolve๋Š” LLM ๊ธฐ๋ฐ˜ ํ”„๋กœ๊ทธ๋žจ ์ง„ํ™”์—์„œ ๋ถ€๋ชจ ์„ ํƒ, ์‹ ๊ทœ์„ฑ ๊ฒ€์ฆ, ์ ์‘ํ˜• ์•™์ƒ๋ธ”์˜ ์„ธ ๊ฐ€์ง€ ํ˜์‹ ์„ ํ†ตํ•ด ์ƒ˜ํ”Œ ํšจ์œจ์„ฑ์„ ํš๊ธฐ์ ์œผ๋กœ ๊ฐœ์„ ํ•œ ์‹ค์šฉ์  ํ”„๋ ˆ์ž„์›Œํฌ์ด๋‹ค. ์˜คํ”ˆ์†Œ์Šค ๊ณต๊ฐœ๋กœ ์žฌํ˜„์„ฑ๊ณผ ํ™•์žฅ์„ฑ์„ ๋ณด์žฅํ•˜๋ฉฐ, ๋‹ค์–‘ํ•œ ๋„๋ฉ”์ธ ๊ฒ€์ฆ๋„ ์ธ์ƒ์ ์ด๋‚˜, ์ดˆ๋งค๊ฐœ๋ณ€์ˆ˜ ๋ถ„์„๊ณผ ๋Œ€๊ทœ๋ชจ ๋ฌธ์ œ ํ™•์žฅ์„ฑ ๊ฒ€์ฆ์„ ํ†ตํ•ด ๋”์šฑ ๊ฐ•ํ™”๋  ์ˆ˜ ์žˆ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
LLM์„ ์ง„ํ™” ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ๋ณ€์ด ์—ฐ์‚ฐ์ž๋กœ ์ ์šฉํ•˜๋Š” ์ด๋ก ์ ยท์‹คํ—˜์  ๊ธฐ๋ฐ˜์„ ์ œ์‹œํ•˜์—ฌ, ShinkaEvolve์˜ ์›๋ฆฌ์  ๊ทผ๊ฑฐ๋ฅผ ์ œ๊ณตํ•จ.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
754๋ฒˆ ๋…ผ๋ฌธ์˜ LLM ๊ธฐ๋ฐ˜ ์ฝ”๋“œ ์ƒ์„ฑ, ๋””๋ฒ„๊น…๊ณผ ํ”„๋กœ๊ทธ๋žจ ์ง„ํ™” ํ‰๊ฐ€๋Š” LLM์˜ ์ฝ”๋“œ ๋Šฅ๋ ฅ ๋ฒค์น˜๋งˆํ‚น์— ๊ด€ํ•œ 325 ๋…ผ๋ฌธ์˜ ๊ฒฐ๊ณผ์™€ ๋ฐ€์ ‘ํ•˜๊ฒŒ ์—ฐ๊ด€๋ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ง„ํ™”์  ์ฝ”๋“œ ์ƒ์„ฑ ๋ฐ ์ตœ์ ํ™”๋ฅผ LLM ๊ธฐ๋ฐ˜ ํ”„๋ ˆ์ž„์›Œํฌ๋กœ ๊ตฌํ˜„ํ•˜์—ฌ, ํ”„๋กœ๊ทธ๋žจ ์ง„ํ™” ์‹คํ—˜์˜ ๋‹ค์–‘ํ•œ ๋Œ€์•ˆ ๋ฐฉ์‹์„ ๋ณด์—ฌ์คŒ.
๋‹ค๋ฅธ ์ ‘๊ทผ
754๋ฒˆ ๋…ผ๋ฌธ์€ ํ”„๋กœ๊ทธ๋žจ ํ•ฉ์„ฑ ๋ถ„์•ผ์—์„œ ์ง„ํ™”์™€ ๊ฐ•ํ™”ํ•™์Šต์„ ํ™œ์šฉํ•œ ์˜คํ”ˆ์—”๋””๋“œ ์ƒ์„ฑ ๊ณผ์ •์„ ๋‹ค๋ฃจ์–ด, 2225๋ฒˆ์˜ ์กฐํ•ฉ๋ฌธ์ œ ์ƒ์„ฑ ๊ฒฝ๊ณ„ ํƒ๊ตฌ์™€ ๋Œ€์กฐ์ ์œผ๋กœ ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
ShinkaEvolve ๋…ผ๋ฌธ์€ ์ž๊ธฐ์ง„ํ™” ํ”„๋กœ๊ทธ๋ž˜๋ฐ๊ณผ ์—์ด์ „ํŠธ ํ•ฉ์„ฑ์— ์ดˆ์ ์„ ๋งž์ถ˜ ๋Œ€์•ˆ์ ์ธ ์ ‘๊ทผ๋ฒ•์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
ShinkaEvolve๋Š” ์ฝ”๋“œ LLM์˜ ์ž๊ธฐ๊ฐœ์„  ๋ฐ ์ž์ฒด์ ์ธ ์ฝ”๋“œ ์ˆ˜์ • ๋Šฅ๋ ฅ์„ ํ™•์žฅํ•˜๋Š” ๋‹ค์–‘ํ•œ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ํƒ๊ตฌํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
์˜คํ”ˆ์—”๋””๋“œ, ์ƒ˜ํ”Œ ํšจ์œจ์  program synthesis์™€ ์ตœ์ ํ™”๊ฐ€ PSSP ๊ด€๋ จ ์œ ์ „ ํ”„๋กœ๊ทธ๋ž˜๋ฐ์˜ ์ง„ํ™”์  ์ „๋žต์— ์‹ค์งˆ์ ์œผ๋กœ ์˜ํ–ฅ์„ ๋ฏธ์นœ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •