DataJoint 2.0: A Computational Substrate for Agentic Scientific Workflows

์ €์ž: Dimitri Yatsenko, Thinh T. Nguyen (DataJoint Inc.) | ๋‚ ์งœ: 2026-02-18 | DOI: ๋ฏธ์ œ๊ณต 📄 PDF


Essence

๊ณผํ•™ ๋ฐ์ดํ„ฐ ํŒŒ์ดํ”„๋ผ์ธ์„ ์œ„ํ•œ ์šด์˜ ์—„๊ฒฉ์„ฑ(operational rigor)์ด AI ์—์ด์ „ํŠธ์™€ ์ธ๊ฐ„ ํ˜‘์—…์˜ ์„ฑ๊ณต์„ ๊ฒฐ์ •ํ•˜๋ฏ€๋กœ, DataJoint 2.0์€ ๊ด€๊ณ„ํ˜• ์›Œํฌํ”Œ๋กœ์šฐ ๋ชจ๋ธ์„ ํ†ตํ•ด ๋ฐ์ดํ„ฐ ๊ตฌ์กฐ, ๊ณ„์‚ฐ ์˜์กด์„ฑ, ๋ฌด๊ฒฐ์„ฑ ์ œ์•ฝ์„ ๋‹จ์ผ ํ˜•์‹ ์‹œ์Šคํ…œ์œผ๋กœ ํ†ตํ•ฉํ•˜์—ฌ SciOps(๊ณผํ•™ ์šด์˜)์˜ ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•œ๋‹ค.

Motivation

Achievement

Figure 1: DataJoint ์•ก์ฒด ํฌ๋กœ๋งˆํ† ๊ทธ๋ž˜ํ”ผ-์งˆ๋Ÿ‰ ๋ถ„์„๊ธฐ(LC-MS) ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ ํŒŒ์ดํ”„๋ผ์ธ์˜ ๋‹ค์ด์–ด๊ทธ๋žจ. ๋…น์ƒ‰ ์ง์‚ฌ๊ฐํ˜•์€ ์ˆ˜๋™ ํ…Œ์ด๋ธ”, ํŒŒ๋ž€์ƒ‰ ํƒ€์›์€ ์ž„ํฌํŠธ ํ…Œ์ด๋ธ”, ๋นจ๊ฐ„์ƒ‰ ํƒ€์›์€ ๊ณ„์‚ฐ ํ…Œ์ด๋ธ”์„ ๋‚˜ํƒ€๋ƒ„
  1. ๊ฐœ๋… ๊ธฐ์—ฌ: ๊ด€๊ณ„ํ˜• ๋ชจ๋ธ์˜ ์ œ3 ํŒจ๋Ÿฌ๋‹ค์ž„์œผ๋กœ "๊ด€๊ณ„ํ˜• ์›Œํฌํ”Œ๋กœ์šฐ ๋ชจ๋ธ" ์ œ์‹œ
    • Codd์˜ ์ˆ˜ํ•™์  ๊ธฐ์ดˆ(์ˆ ์–ด ๋…ผ๋ฆฌ), Chen์˜ Entity-Relationship Model๊ณผ ๊ตฌ๋ณ„๋˜๋Š” ์šด์˜์  ์ฐจ์› ์ถ”๊ฐ€
    • ํ…Œ์ด๋ธ” ๊ณ„์ธต(Manual/Lookup/Imported/Computed), ์›Œํฌํ”Œ๋กœ์šฐ ์ •๊ทœํ™” ์›์น™(Workflow Normalization Principle) ์ •์˜
  2. ๊ธฐ์ˆ  ๊ธฐ์—ฌ: 4๊ฐ€์ง€ ํ˜์‹  ๊ธฐ์ˆ 
    • Object-Augmented Schema (OAS): ๊ด€๊ณ„ํ˜• ๋ฉ”ํƒ€๋ฐ์ดํ„ฐ์™€ ํ™•์žฅ ๊ฐ€๋Šฅ ๊ฐ์ฒด ์ €์žฅ์†Œ์˜ ํ†ตํ•ฉ ํŠธ๋žœ์žญ์…˜ ์ œ์–ด
    • Semantic Matching: ์†์„ฑ lineage ๊ธฐ๋ฐ˜ ์ด์ง„ ์—ฐ์‚ฐ์ž ๋งค์นญ์œผ๋กœ ๋™๋ช… ์†์„ฑ์˜ ์˜ค๋ฅ˜์  ์กฐ์ธ ๋ฐฉ์ง€
    • Extensible Type System: ๋„๋ฉ”์ธ ํŠนํ™” ํ˜•์‹์„ ์œ„ํ•œ ํ”Œ๋Ÿฌ๊ทธ์ธ ์ฝ”๋ฑ
    • Automated Job Management: ๋ถ„์‚ฐ ๊ณ„์‚ฐ์˜ ๊ฒฐ์ •์  per-table ์กฐ์ง๊ณผ provenance ์ถ”์ 
  3. ์•„ํ‚คํ…์ฒ˜ ํ†ตํ•ฉ: ๋ฐ์ดํ„ฐ ๊ตฌ์กฐ, ๋ฐ์ดํ„ฐ, ๊ณ„์‚ฐ ๋ณ€ํ™˜์„ ๋‹จ์ผ ์ฟผ๋ฆฌ ๊ฐ€๋Šฅ ํ”„๋ ˆ์ž„์›Œํฌ๋กœ ํ†ตํ•ฉ โ†’ ์Šคํ‚ค๋งˆ ์ž์ฒด๊ฐ€ ์›Œํฌํ”Œ๋กœ์šฐ ๋ช…์„ธ(Active Schema)

How

Figure 2: DataJoint ํ”Œ๋žซํผ ์•„ํ‚คํ…์ฒ˜. ์˜คํ”ˆ์†Œ์Šค Python ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๊ฐ€ ๊ด€๊ณ„ํ˜• ์›Œํฌํ”Œ๋กœ์šฐ ๋ชจ๋ธ ์ œ๊ณต - ์Šคํ‚ค๋งˆ ์ •์˜, ์˜์กด์„ฑ ํ•ด์„, provenance ์ถ”์ 

Originality

Limitation & Further Study

Evaluation

Novelty: 4.5/5 Technical Soundness: 4/5 Significance: 4.5/5 Clarity: 4/5 Overall: 4.2/5

์ดํ‰: DataJoint 2.0์€ ๊ณผํ•™ ๋ฐ์ดํ„ฐ ๊ด€๋ฆฌ์™€ AI ์—์ด์ „ํŠธ ํ˜‘์—…์˜ ๊ทผ๋ณธ์  ๋ฌธ์ œ๋ฅผ ๊ด€๊ณ„ํ˜• ํŒจ๋Ÿฌ๋‹ค์ž„์˜ ์ฐฝ์˜์  ํ™•์žฅ์œผ๋กœ ํ•ด๊ฒฐํ•˜๋Š” ์ถฉ์‹คํ•œ ๋…ผ๋ฌธ์ด๋ฉฐ, SciOps ๊ฐœ๋… ๋„์ž…์€ ํ•™์ œ์  ์ค‘์š”์„ฑ์ด ๋†’์œผ๋‚˜ ์‹ค์ œ ์‹œ์Šคํ…œ์˜ ๋Œ€๊ทœ๋ชจ ๊ฒ€์ฆ๊ณผ AI ์ž๋™ํ™” ๋ฉ”์ปค๋‹ˆ์ฆ˜์˜ ์‹ฌํ™”๊ฐ€ ํ•„์š”ํ•˜๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
์žฌ๋ฃŒ๊ณผํ•™ ๋“ฑ ๊ณผํ•™์  ๋ฐ์ดํ„ฐ ๋ฌด๊ฒฐ์„ฑ ๋ฐ ์—ฐ๋™ ๊ด€๋ฆฌ์— ๊ด€ํ•œ ๋…ผ์˜๊ฐ€, ์ง€๋ฆฌ๊ณต๊ฐ„ ๋ฐ์ดํ„ฐ ์ž๋™ ์ˆ˜์ง‘/๊ด€๋ฆฌ์˜ ํ’ˆ์งˆ ๊ธฐ์ค€ ์„ค์ •์— ๋„์›€์„ ์ค๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
DataJoint 2.0 ๋…ผ๋ฌธ์€ ์—์ด์ „ํŠธ ๊ธฐ๋ฐ˜ ๊ณผํ•™ ๋ฐ์ดํ„ฐ ๊ด€๋ฆฌ ์ธํ”„๋ผ๋ฅผ ๋‹ค๋ฃจ์–ด, SCP์—์„œ ์ œ์•ˆํ•œ ๊ธ€๋กœ๋ฒŒ ํ‘œ์ค€ ์˜ค์ผ€์ŠคํŠธ๋ ˆ์ด์…˜๊ณผ ์—ฐ๊ด€์„ฑ์ด ๋†’์Šต๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Supporting Workflow Reproducibility ๋…ผ๋ฌธ์€ ๋ฐ”์ด์˜ค์ธํฌ๋งคํ‹ฑ์Šค ์›Œํฌํ”Œ๋กœ์šฐ์—์„œ ๋ฐ์ดํ„ฐ ๊ตฌ์กฐ์™€ ์žฌํ˜„์„ฑ ๋ฌธ์ œ๋ฅผ ๋ถ„์„ํ•˜์—ฌ DataJoint 2.0์˜ ์„ค๊ณ„ ๊ทผ๊ฑฐ๋ฅผ ์ด๋ก ์ ์œผ๋กœ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
DataJoint 2.0(254)๋Š” ๊ณผํ•™ ์›Œํฌํ”Œ๋กœ ๋ฐ์ดํ„ฐ ๊ด€๋ฆฌ์™€ ์—ฐ๋™๋˜๋Š” ์—์ด์ „ํŠธ ๊ธฐ๋ฐ˜ ํ”„๋ ˆ์ž„์›Œํฌ์˜ ์ด๋ก ์  ํ† ๋Œ€๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ˆ˜ํ•™์  ์ฝ”ํŒŒ์ผ๋Ÿฟ์šฉ ๋ฐ์ดํ„ฐ ์กฐ์ง๊ณผ ํ‘œํ˜„์— ๊ด€ํ•œ ๋…ผ์˜๋Š”, ๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜ ์›Œํฌํ”Œ๋กœ์šฐ ์ตœ์ ํ™”์˜ ์ด๋ก ์  ์ธก๋ฉด์„ ๋ณด์™„ํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Uncovering bottlenecks ๋…ผ๋ฌธ์€ ์‹คํ—˜์‹ค ์›Œํฌํ”Œ๋กœ์šฐ ์ตœ์ ํ™”์˜ ์žฅ์•  ์š”์†Œ์™€ AI ๋„์ž… ํšจ๊ณผ๋ฅผ ๋ถ„์„ํ•˜์—ฌ, DataJoint 2.0์ด ์ œ์•ˆํ•˜๋Š” ๋ฐ์ดํ„ฐ ๋ฌด๊ฒฐ์„ฑ๊ณผ ์›Œํฌํ”Œ๋กœ์šฐ ์—„๊ฒฉ์„ฑ์˜ ์‹ค์ œ์  ํ•œ๊ณ„๋ฅผ ๋น„๊ตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
R&D-Agent ๋…ผ๋ฌธ์€ ๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜ AI ์—ฐ๊ตฌ ์›Œํฌํ”Œ๋กœ์šฐ ์ž๋™ํ™”๋ฅผ LLM ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ์™€ ์ ‘๋ชฉํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ DataJoint์™€ ๋น„์Šทํ•œ ๋ฌธ์ œ๋ฅผ ๋‹ค๋ฅด๊ฒŒ ์ ‘๊ทผํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๊ณผํ•™ ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ ๋ฐ ์žฌํ˜„ ๊ฐ€๋Šฅํ•œ ์—ฐ๊ตฌ๋ฅผ ์œ„ํ•œ ์‹œ์Šคํ…œ์„ ์ œ์•ˆํ•˜๋Š” ์œ ์‚ฌ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
AI ์‹œ๋Œ€์˜ ๋ฐ์ดํ„ฐ ๋ฌด๊ฒฐ์„ฑ ๋ฌธ์ œ์™€ ์ตœ์ ํ™” ๊ธฐ๋ฐ˜ ํŠน์„ฑ ์„ ํƒ์˜ ์‹ค์งˆ์  ํ•œ๊ณ„์ ์„ ๋…ผ์˜ํ•˜์—ฌ ๋‹ค๋ชฉ์  ์œ ์ „ ํ”„๋กœ๊ทธ๋ž˜๋ฐ๊ณผ ์ƒํ˜ธ๋ณด์™„์  ์‹œ๊ฐ์„ ์ค€๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๊ณผํ•™ ๋…ผ๋ฌธ์—์„œ ์ธํ„ฐ๋ž™ํ‹ฐ๋ธŒ ์‹œ๊ฐํ™” ๋„๊ตฌ๋ฅผ ํ™œ์šฉํ•œ ๋ฐœ๊ฒฌ์„ ์ง€์›ํ•˜๋Š” ์—ฐ๊ตฌ์ด๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
The human metabolome ๋…ผ๋ฌธ์€ ๊ด€๊ณ„ํ˜• ๋ฐ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ ์›Œํฌํ”Œ๋กœ์šฐ์˜ ์‹ค์ œ ๊ณผํ•™์  ์‘์šฉ ์˜ˆ์‹œ๋กœ, DataJoint 2.0์˜ ์—„๊ฒฉํ•œ ์šด์˜ ๋ชจ๋ธ์„ ํ˜„์žฅ์— ์ ์šฉํ•œ ์‚ฌ๋ก€์ž…๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
DataJoint 2.0์€ ๊ณผํ•™ ์›Œํฌํ”Œ๋กœ์šฐ ๋ฐ์ดํ„ฐ์˜ provenance์™€ ์ถ”์  ๊ด€๋ฆฌ์— ์ดˆ์ ์„ ๋‘ฌ, ํฌ๋กœ์Šค-์‹œ์„ค FL์—์„œ ๋ฐ์ดํ„ฐ ๊ด€๋ฆฌ ๋ฌธ์ œ ํ•ด๊ฒฐ ์‚ฌ๋ก€๋กœ ์ฐธ๊ณ ํ•  ๋งŒํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
254๋Š” ์—์ด์ „ํ‹ฑ ๋ฐ์ดํ„ฐ ํ”Œ๋žซํผ ๊ตฌ์ถ• ์‚ฌ๋ก€๋ฅผ ์ œ์‹œํ•˜๋ฉฐ, 3257์˜ ๊ธ€๋กœ๋ฒŒ ๋ฐ์ดํ„ฐ ๋ ˆ์ดํฌ ์ธํ”„๋ผ ์„ค๊ณ„์™€ ์‹ค๋ฌด์ ์œผ๋กœ ์—ฐ๊ฒฐ๋ฉ๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •