Spacer: Towards Engineered Scientific Inspiration
์ ์: Minhyeong Lee, Suyoung Hwang, Seunghyun Moon, Geonho Nah, Donghyun Koh, Youngjun Cho, Johyun Park, Hojin Yoo, Jiho Park, Haneul Choi, Sungbin Moon, Taehoon Hwang, Seungwon Kim, Jaeyeong Kim, Seongjun Kim, Juneau Jung | ๋ ์ง: 2025/08/25 | URL: https://arxiv.org/abs/2508.17661v1 📄 PDF
Essence
Figure 1: Schematic of Spacerโs approach to engineered scientific inspiration.
๋
ผ๋ฌธ์ LLM์ ๋งฅ๋ฝ ํธํฅ ๋ฌธ์ ๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํด 'deliberate decontextualization'์ ํตํด ํค์๋ ๋จ์๋ก ์ ๋ณด๋ฅผ ๋ถํดํ๊ณ , ๊ทธ๋ค ์ฌ์ด์ ๋ฏธํ์ ์ฐ๊ฒฐ์ ์ฐพ์ ์ฐฝ์์ ์ด๊ณ ๊ทผ๊ฑฐ ์๋ ๊ณผํ์ ๊ฐ๋
์ ์๋์ผ๋ก ์์ฑํ๋ Spacer๋ผ๋ ๊ณผํ ๋ฐ๊ฒฌ ์์คํ
์ ์ ์ํ๋ค. Nuri ์๊ฐ ์์ง๊ณผ Manifesting Pipeline์ ๋ ๋จ๊ณ ํ์ดํ๋ผ์ธ์ผ๋ก ๊ตฌ์ฑ๋๋ฉฐ, 180,000๊ฐ์ ์๋ฌผํ ๋
ผ๋ฌธ ๋ฐ์ดํฐ๋ก๋ถํฐ ๊ณ ์ํฅ๋ ฅ ๋
ผ๋ฌธ์ AUROC 0.737๋ก ๋ถ๋ฅํ๋ค.
Motivation
- Known: LLM ๊ธฐ๋ฐ ๊ณผํ ๋ฐ๊ฒฌ ์์คํ
์ ๊ธฐ์กด ์ฐ๊ตฌ๋ค(AlphaEvolve, Virtual Lab ๋ฑ)๊ณผ Transformer ์ํคํ
์ฒ์ ๋งฅ๋ฝ ํธํฅ ๋ฌธ์ ๋ ์๋ ค์ ธ ์์ผ๋ฉฐ, ํจ๋ฌ๋ค์ ์ํํธ ๊ฐ์ ๊ณผํ ํ์ ์ด ์๋ก ๋ค๋ฅธ ๋ถ์ผ์ ์ฐ๊ฒฐ์์ ๋์จ๋ค๋ ์ญ์ฌ์ ์ฌ๋ก๋ค(optogenetics, CRISPR-Cas9)์ด ์๋ ค์ ธ ์๋ค.
- Gap: ๊ธฐ์กด LLM ๊ธฐ๋ฐ ์์คํ
๋ค์ ํ์ต ๋ฐ์ดํฐ์ ํจํด์ ๊ณผ๋ํ๊ฒ ์์กดํ์ฌ ์ง์ ํ ์ฐฝ์์ฑ์ ๊ฐ์ถ ๊ณผํ์ ๊ฐ๋
์์ฑ์ ์คํจํ๊ณ ์์ผ๋ฉฐ, LLM์ ๋งฅ๋ฝ ํธํฅ์ ๊ทผ๋ณธ์ ์ผ๋ก ํด๊ฒฐํ๋ฉด์๋ ์์ฑ ๊ณผ์ ์์ ๊ณผํ์ ํ๋น์ฑ์ ์ ์งํ๋ ๋ฐฉ๋ฒ๋ก ์ด ๋ถ์ฌํ๋ค.
- Why: LLM๋ง์ผ๋ก๋ paradigm shift์ ๊ฐ์ ๊ทผ๋ณธ์ ์ธ ๊ณผํ ํ์ ์ ๋ง๋ค๊ธฐ ์ด๋ ต๋ค๋ ์ ์ด ์ค์ํ๋ฉฐ, keyword ๊ธฐ๋ฐ์ decontextualization ์ ๊ทผ์ ๋งฅ๋ฝ ํธํฅ์ ์ ๊ฑฐํ๋ฉด์๋ ์๋ฏธ ์๋ ์ฐฝ์์ ์ฐ๊ฒฐ์ ์ฐพ์ ์ ์๋ ์ค์ง์ ์ธ ํด๊ฒฐ์ฑ
์ ์ ๊ณตํ๋ค.
- Approach: Spacer๋ ๊ณผํ ์ ๋ณด๋ฅผ keyword๋ผ๋ ์์ ๋จ์๋ก decontextualizeํ์ฌ ๋งฅ๋ฝ ํธํฅ์ ์ ๊ฑฐํ๊ณ , Nuri ๋ชจ๋์ด 180,000๊ฐ ๋
ผ๋ฌธ์ผ๋ก ๊ตฌ์ฑ๋ keyword graph์์ ๊ณ ์ ์ฌ๋ ฅ์ keyword ์กฐํฉ์ ์ถ์ถํ๋ฉฐ, Manifesting Pipeline์ด ์ด๋ค ์กฐํฉ์ ๊ณผํ์ ์ง์ ๋ก ์ ์ ํ๋ multi-stage ํ์ดํ๋ผ์ธ ๋ฐฉ์์ด๋ค.
Achievement
Figure 1: Schematic of Spacerโs approach to engineered scientific inspiration.
Nuri์ ์ฑ๋ฅ: ๊ณ ์ํฅ๋ ฅ ๋
ผ๋ฌธ ๋ถ๋ฅ์์ AUROC 0.737 ๋ฌ์ฑ. Manifesting Pipeline: ์ต์ top-journal ๋
ผ๋ฌธ์ ํต์ฌ ๊ฐ๋
์ keyword ์งํฉ๋ง์ผ๋ก ์ฌ๊ตฌ์ฑ ๊ฐ๋ฅํ๋ฉฐ, LLM ๊ธฐ๋ฐ ํ๊ฐ์์ 85% ์ด์์ ๊ฒฝ์ฐ ์ฌ๊ตฌ์ฑ์ด ํ๋นํจ. Embedding ๊ณต๊ฐ ๋ถ์: Spacer ์ถ๋ ฅ์ด SOTA LLM ์ถ๋ ฅ ๋๋น leading publications์ ์ ์๋ฏธํ๊ฒ ๋ ์ ์ฌํจ.
How
Figure 2: Architecture of Spacer.
- Keyword graph ๊ตฌ์ถ: 180,000๊ฐ์ ์๋ฌผํ ๋ถ์ผ ํ์ ๋
ผ๋ฌธ์ผ๋ก๋ถํฐ keyword ์ถ์ถ ๋ฐ ๊ทธ๋ํ ์์ฑ
- Nuri ๊ฒ์ฆ: ๊ณ ์ํฅ๋ ฅ ๋
ผ๋ฌธ ๋ถ๋ฅ metric์ผ๋ก keyword ์งํฉ์ ์ ์ฌ๋ ฅ ํ๊ฐ
- Manifesting Pipeline: keyword ๊ฐ ์ฐ๊ฒฐ ์ฐพ๊ธฐ, ๋
ผ๋ฆฌ ๊ตฌ์กฐ ๋ถ์, ํ๋น์ฑ ๊ฒ์ฆ, ์๋ณธ ๊ณผํ ๊ฐ๋
์์ฑ
- LLM ๊ธฐ๋ฐ ์ฌ๊ตฌ์ฑ: ์ต์ ๋
ผ๋ฌธ๋ค์ ๊ฐ๋
์ keyword ์งํฉ์์๋ง ์ถ์ถํ์ฌ ์ฌ๊ตฌ์ฑ
- Embedding ๊ณต๊ฐ ๋ถ์: ์์ฑ๋ ๊ฐ๋
๊ณผ ๊ธฐ์กด leading publications ๊ฐ์ ์ ์ฌ๋ ๋น๊ต
Originality
- Decontextualization ๊ฐ๋
์ ์ฐฝ์ ์ ์ ์ฉ: ๊ธฐ์กด LLM ๊ธฐ๋ฐ ์ ๊ทผ๊ณผ ๋ฌ๋ฆฌ, ์ ๋ณด๋ฅผ ์๋์ ์ผ๋ก ์์ ๋จ์๋ก ๋ถํดํ์ฌ ๋งฅ๋ฝ ํธํฅ์ ์ ๊ฑฐํ๋ ๋ฐฉ๋ฒ๋ก
- Hybrid LLM-Non-LLM ํ์ดํ๋ผ์ธ: ์ฐฝ์์ฑ ์์ฑ์ LLM์ด ์๋ keyword graph ๊ตฌ์กฐ ๋ถ์์ ๋งก๊ธฐ๊ณ , LLM์ ์ ์ ์ ํํ์๋ง ์ฌ์ฉ
- ๋ ๋จ๊ณ ์ค๊ณ(Nuri + Manifesting Pipeline): inspiration๊ณผ manifestation์ ๋ถ๋ฆฌํ์ฌ ๊ณผํ์ ์ฐฝ์์ฑ๊ณผ ํ๋น์ฑ์ ๊ท ํ ๋ฌ์ฑ
Limitation & Further Study
- ๋ฐ์ดํฐ ์ ํ: ์๋ฌผํ ๋ถ์ผ 180,000๊ฐ ๋
ผ๋ฌธ๋ง ์ฌ์ฉํ์ฌ ๋ค๋ฅธ ๊ณผํ ๋ถ์ผ๋ก์ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ ๋ถ๋ช
ํ
- ํ๊ฐ ๋ฐฉ์์ ํ๊ณ: LLM ๊ธฐ๋ฐ scoring์ด ์ฃผ๊ด์ ์ผ ์ ์์ผ๋ฉฐ, ์ค์ ๊ณผํ์ ํ๋น์ฑ ๊ฒ์ฆ์ ์ํ wet-lab ์คํ์ด๋ ํผ์ด ๋ฆฌ๋ทฐ ๋ถ์ฌ
- Keyword ์ ํ์ ์ ์ฝ: Keyword granularity ๊ฒฐ์ ๊ธฐ์ค์ด ๋ช
ํํ์ง ์๊ณ , ๋๋ฉ์ธ ์ ๋ฌธ ์ง์ ๋ฐ์ ์ ๋ ๋ถ๋ถ๋ช
- Scalability ๋ฌธ์ : ๋๊ท๋ชจ keyword graph ํ๋ ์ computational cost์ quality ์ ์ง ๋ฐฉ๋ฒ ๋ฏธ์
- ํ์ ์ฐ๊ตฌ ๋ฐฉํฅ: ๋ค์ํ ๊ณผํ ๋ถ์ผ๋ก์ ํ์ฅ, ์ค์ ์คํ ๊ฒ์ฆ, prompt injection ๋ฑ robust์ฑ ๊ฐํ ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 3/5 Overall: 4/5
์ดํ: Spacer๋ LLM ๊ธฐ๋ฐ ๊ณผํ ๋ฐ๊ฒฌ์ ๋งฅ๋ฝ ํธํฅ ๋ฌธ์ ์ ๋ํ ์ฐฝ์๋ก์ด ํด๊ฒฐ์ฑ
์ ์ ์ํ๋ฉฐ, deliberate decontextualization ๊ฐ๋
๊ณผ keyword ๊ธฐ๋ฐ ์ ๊ทผ์ ์ ํ ์ฐ๊ตฌ ๋๋น ์๋ณธ์ฑ์ด ๋๋ค. ๋ค๋ง ์๋ฌผํ ๋ถ์ผ๋ก ์ ํ๋ ํ๊ฐ, LLM ๊ธฐ๋ฐ ๊ฒ์ฆ์ ์ฃผ๊ด์ฑ, ๊ทธ๋ฆฌ๊ณ ์ค์ ๊ณผํ์ ํ๋น์ฑ ์
์ฆ ๋ถ์กฑ์ด ํ๊ณ์ด๋ฉฐ, ๋ค์ํ ๋ถ์ผ๋ก์ ํ์ฅ๊ณผ wet-lab ๊ฒ์ฆ์ ํตํ ์ค์ง์ ์ํฅ๋ ฅ ์
์ฆ์ด ํ์ ๊ณผ์ ์ด๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
LLMs can realize combinatorial creativity ๋
ผ๋ฌธ์ LLM์ ์ฐฝ์์ ๊ฐ๋
์กฐํฉ ๋ฅ๋ ฅ์ ํ๊ฐํ์ฌ, Spacer๊ฐ ์ฃผ์ฅํ๋ ์๋ก์ด ๊ณผํ์ ์ฐ๊ฒฐ ๋ฐ๊ตด์ ์ด๋ก ์ ๋ฐฐ๊ฒฝ์ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๊ณผํ์ ์์ด๋์ด, ์๊ฐ, ๋ฐฉ๋ฒ๋ก ๊ฒฐํฉ์ ์ฒด๊ณ ๋ถ์์ ํตํด Spacer์ ์ปจํ
์คํธ ๋ถํด ๋ฐ ์๊ฐ ์์ฑ ๋
ผ์์ ์ด๋ก ๊ธฐ๋ฐ์ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Spark ๋
ผ๋ฌธ์ ๊ณผํ์ ์ฐฝ์ ์์ด๋์ด ์๋ํ ์์คํ
์ ์ ์ํ์ฌ Spacer์์ '์๊ฐ ์์ง' ์ค๊ณ์ ๋ํ ๊ตฌ์กฐ์ ์์ฌ์ ์ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
3394 ๋
ผ๋ฌธ์ AI ๊ธฐ๋ฐ ๊ธฐ์/๊ธฐํ ์๋ฎฌ๋ ์ด์
์ ์ต์ ๋ํฅ์ ์ข
ํฉ์ ์ผ๋ก ๋ค๋ฃจ์ด, 3006์ operational forecasting ๋ฐ์ ๋งฅ๋ฝ์ ์ดํดํ๋ ๋ฐ ๋์์ ์ค๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
3394 ๋
ผ๋ฌธ์ AI ๊ธฐ๋ฐ ๊ธฐ์๋ชจ๋ธ์ ํ๊ฐ์ค๊ณ ๋ฐ ์ ๋ขฐ์ฑ ๋ถ์ ๋ฑ ์ ์ฒด์ ์ธ ์ด๋ก ์ ๋ฐฐ๊ฒฝ์ ์ฌ๋์๊ฒ ๋ค๋ฃจ๋ฉฐ, 3026์ ํฌํจ๋ ๋ชจ๋ธ ์ค๊ณ ๋
ผ์์ ์ง์ ์ ์ฐ๊ฒฐ์ ์ด ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
SciMON์ ๊ณผํ์ ์๊ฐ๊ณผ ์์ด๋์ด ์์ฑ์ ์๋ํํ๋ ์์คํ
์ผ๋ก, Spacer์ '์๋์ ํ์ฐ๊ฒฐํ'์ ๋์กฐ๋๋ ๋ค์ํ ์ฐฝ์์ฑ ๋ฉ์ปค๋์ฆ์ ๋น๊ตํ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
์ปจํ
์คํธ ์ธ์ ๊ธฐ๋ฐ ๊ณผํ ์์ด๋์์ด์
๋ฐฉ๋ฒ์ผ๋ก, Spacer์ ๋ฌ๋ฆฌ ํ ํฐ ๋ฐ ์ ๋ณด ๊ตฌ์กฐ์ ๋์ ์กฐ์ ์ ๊ฐ์กฐํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
SciMuse(434)๋ LLM๊ณผ ์ง์๊ทธ๋ํ๋ฅผ ๊ฒฐํฉํด ์ฐฝ์์ ๊ณผํ ์์ด๋์ด๋ฅผ ์์ฑํ๋ ๋์์ ๊ธฐ๋ฒ์ ์ ์ํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
Neural Operator์ ์ต์ ๋ํฅ๊ณผ, ๊ณผํ ๋ถ์ผ์๊ฒ PINN/Neural Operator๊ฐ ๋ฏธ์น๋ ์ํฅ ๋ฐ ํ์ฅ ๊ฐ๋ฅ์ฑ์ ์ ๋ฆฌํ๊ณ ์์ด ์ถ๊ฐ์ ํต์ฐฐ์ ์ค๋ค.
ํ์ ์ฐ๊ตฌ
LLM ๊ธฐ๋ฐ ๊ณผํ์ ์ฐฝ์์ฑ ๋ฐ ๋ฏธํ์ ์์ด๋์ด ์กฐํฉ์ ๊ตฌ์กฐยทํจ๊ณผ ๊ฒ์ฆ์ ์๋ํ๋ฉฐ Spacer ์์คํ
์ ์ฐฝ์์ฑ ์ฆ์ง ํจ๊ณผ๋ฅผ ์ธ์ฐํํฉ๋๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์