์ ์: Jonas Wilinski | ๋ ์ง: 2026 | DOI: 10.48550/ARXIV.2603.03126 📄 PDF
Figure 1: Temporal coverage by source (symlog scale). Publication-year distributions for DOI-
๋ณธ ๋ ผ๋ฌธ์ DuckDB์ Parquet ํ์ผ ๊ธฐ๋ฐ์ผ๋ก ๊ตฌ์ถ๋ Science Data Lake๋ฅผ ์ ์ํ๋ฉฐ, Semantic Scholar, OpenAlex, SciSciNet ๋ฑ 8๊ฐ์ ๊ฐ๋ฐฉํ ๋ฐ์ดํฐ ์์ค๋ก๋ถํฐ 2์ต 9,300๋ง ๊ฐ์ ๋ ผ๋ฌธ์ ํตํฉํ๊ณ , BGE-large ์๋ฒ ๋ฉ์ ์ฌ์ฉํ ์จํจ๋ก์ง ์ ๋ ฌ์ ํตํด OpenAlex์ 4,516๊ฐ ์ฃผ์ ๋ฅผ 13๊ฐ์ ๊ณผํ ์จํจ๋ก์ง์ ๋งคํํ๋ค.
Figure 5: Ontology reach heatmap showing the number of high-quality mappings (similarity โฅ
ํต์ฌ ์ฑ๊ณผ ๋ชฉ๋ก:
Figure 4: UMAP projection of BGE-large embeddings for OpenAlex topics (points) and matched
์ดํ: ๋ณธ ๋ ผ๋ฌธ์ ํ์ ๋ฐ์ดํฐ ํตํฉ์ ์ค๋ ๋์ ๋ฅผ ์ค์ง์ ์ผ๋ก ํด๊ฒฐํ๊ธฐ ์ํด ์ค๊ณ๋ ์ ๊ตฌ์ฑ๋ ์ธํ๋ผ ์์คํ ์ผ๋ก, ๋ค์ค ์์ค ์คํค๋ง ๋ณด์กด, ๋์ ์ ์์ฑ, ๊ท๋ชจ ์๋ ์จํจ๋ก์ง ์ ๋ ฌ ๋ฐฉ๋ฒ์ ํตํด ๊ณผํ ๋ฉํธ๋ฆญ์ค ์ฐ๊ตฌ ์ปค๋ฎค๋ํฐ์ ์ ์ฉํ ์์์ ์ ๊ณตํ๋ค. ๋ค๋ง ์ค๋ ์ท ๊ธฐ๋ฐ ์ค๊ณ์ ์ ํ๋ ๊ฒ์ฆ ๊ท๋ชจ๊ฐ ์ด์์ ๋ฐ ๋ฐฉ๋ฒ๋ก ์ ๊ฐ์ ์ ์ฌ์ง๋ฅผ ๋จ๊ธด๋ค.