A network approach to topic models

์ €์ž: Martin Gerlach, Tiago P. Peixoto, Eduardo G. Altmann | ๋‚ ์งœ: 2018 | DOI: 10.1126/sciadv.aaq1360 📄 PDF


Essence

Figure 1

Fig. 1. Two approaches to extract information from collections of texts. Topic

ํ…์ŠคํŠธ ์ฝ”ํผ์Šค๋ฅผ ๋ฌธ์„œ-๋‹จ์–ด ์ด๋ถ„ ๋„คํŠธ์›Œํฌ๋กœ ํ‘œํ˜„ํ•˜์—ฌ ํ† ํ”ฝ ๋ชจ๋ธ๋ง์„ ์ปค๋ฎค๋‹ˆํ‹ฐ ํƒ์ง€ ๋ฌธ์ œ๋กœ ์žฌ์ •์˜ํ•˜๊ณ , ๋น„๋ชจ์ˆ˜ ๊ณ„์ธต์  ํ™•๋ฅ  ๋ธ”๋ก ๋ชจ๋ธ(hSBM)์„ ํ†ตํ•ด LDA์˜ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๋Š” ํ†ตํ•ฉ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์‹œํ•œ๋‹ค.

Motivation

Achievement

Figure 3

Fig. 3. LDA is unable to infer non-Dirichlet topic mixtures. Visualization of the distribution of topic mixtures logP(qd

How

Figure 2

Fig. 2. Parallelism between topic models and community detection methods.

Originality

Limitation & Further Study

Evaluation

Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

์ดํ‰: ์ด ๋…ผ๋ฌธ์€ ํ† ํ”ฝ ๋ชจ๋ธ๋ง๊ณผ ๋„คํŠธ์›Œํฌ ์ปค๋ฎค๋‹ˆํ‹ฐ ํƒ์ง€ ๊ฐ„์˜ ๊นŠ์€ ์ˆ˜ํ•™์  ๊ด€๊ณ„๋ฅผ ํ˜•์‹ํ™”ํ•˜๊ณ , LDA์˜ ๊ทผ๋ณธ์  ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๋Š” ์›์น™์ ์ธ ๋น„๋ชจ์ˆ˜ ๋ฒ ์ด์ง€์•ˆ ๋Œ€์•ˆ์„ ์ œ์‹œํ•จ์œผ๋กœ์จ ๋‘ ๋ถ„์•ผ์˜ ๊ต์ฐจ ์ˆ˜๋ ด์„ ์‹คํ˜„ํ•œ ์˜๋ฏธ ์žˆ๋Š” ์—ฐ๊ตฌ์ด๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
์ปค๋ฎค๋‹ˆํ‹ฐ ํƒ์ง€์— ๋Œ€ํ•œ ๋„คํŠธ์›Œํฌ ๊ธฐ๋ฐ˜ ์•Œ๊ณ ๋ฆฌ์ฆ˜ ์ข…์„ค๋กœ, ํ† ํ”ฝ ๋ชจ๋ธ์„ ๋„คํŠธ์›Œํฌ๋กœ ํ•ด์„ํ•˜๋Š” 929 ๋…ผ๋ฌธ์˜ ํ•ต์‹ฌ ์ด๋ก ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๋Œ€๊ทœ๋ชจ ๋…ผ๋ฌธ ๋ฐ์ดํ„ฐ ๋ถ„์„์„ ํ†ตํ•œ ํŒ€ ํ˜‘์—… ํŒจํ„ด ์—ฐ๊ตฌ์˜ ๋ฐฉ๋ฒ•๋ก ์  ๊ธฐ์ดˆ๋ฅผ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
929๋ฒˆ ๋…ผ๋ฌธ์€ ๋„คํŠธ์›Œํฌ ๊ธฐ๋ฐ˜ ํ† ํ”ฝ ๋ชจ๋ธ์˜ ์ด๋ก ์ ยท์ ์šฉ์  ํ”„๋ ˆ์ž„์„ ์ œ๊ณตํ•ด, 982๋ฒˆ ๋…ผ๋ฌธ์˜ ๋ฐ์ดํ„ฐ ํ•ด์„ ๋ฐฉ๋ฒ•๋ก ์— ๋ฐ‘๊ฑฐ๋ฆ„์ด ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
ํ† ํ”ฝ ๋ชจ๋ธ๋ง๊ณผ ํ…์ŠคํŠธ ๋ถ„์„์˜ ๋ฐฉ๋ฒ•๋ก ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•˜๋Š” ์—ฐ๊ตฌ์ด๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
์ปค๋ฎค๋‹ˆํ‹ฐ ํƒ์ง€ ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ์ด๋ก ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•˜์—ฌ ๋ณธ ์—ฐ๊ตฌ์˜ hSBM ๋ฐฉ๋ฒ•๋ก ์„ ์ง€์›ํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
ํ…์ŠคํŠธ ์ฝ”ํผ์Šค์—์„œ ํ† ํ”ฝ์„ ์ถ”์ถœํ•˜๋Š” ๋‹ค๋ฅธ ๋ฐฉ๋ฒ•๋ก ์„ ์ œ์‹œํ•˜๋Š” ๋Œ€์•ˆ์  ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋„คํŠธ์›Œํฌ ๊ธฐ๋ฐ˜ ํ…์ŠคํŠธ ๋ถ„์„ ๋ฐฉ๋ฒ•๋ก ์„ ๊ณต์œ ํ•˜๋Š” ์œ ์‚ฌํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋จธ์‹ ๋Ÿฌ๋‹ ๊ธฐ๋ฐ˜ ๋ฏธ๋ž˜ ์—ฐ๊ตฌ ์ฃผ์ œ ์˜ˆ์ธก์ฒ˜๋Ÿผ ํ…์ŠคํŠธ ์ฃผ์ œ ๋ชจ๋ธ์˜ ๋ฐœ์ „ ๋ฐฉํ–ฅ์— ๋Œ€ํ•œ ๋Œ€์•ˆ์  ์ ‘๊ทผ์„ ์ œ์‹œํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Automating exploratory proteomics research via language models ๋…ผ๋ฌธ์€ ํ…์ŠคํŠธ ๋ถ„์„ ๋Œ€์‹  ์‹ค์ œ ์ƒ๋ช…๊ณผํ•™ ์—ฐ๊ตฌ ๋ฐ์ดํ„ฐ(ํ”„๋กœํ…Œ์˜ค๋ฏน์Šค)์— ๋„คํŠธ์›Œํฌ-๊ธฐ๋ฐ˜ ํ† ํ”ฝ๋ชจ๋ธ๋ง์„ ์ ์šฉํ•œ ์‹ค์šฉ์  ์‚ฌ๋ก€๋กœ, 929์˜ ๋ชจ๋ธ ์ ์šฉ ๋ฐฉ์•ˆ์˜ ์ฐจ๋ณ„์  ์‹œ๋„๋ฅผ ๋ณด์—ฌ์ค€๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋ฌธํ—Œ์—์„œ ํ† ํ”ฝ ๊ตฌ์กฐ๋ฅผ ํƒ์ง€ํ•˜๋Š” ๋‹ค๋ฅธ ์ ‘๊ทผ๋ฒ•์„ ์ œ์‹œํ•˜๋Š” ๊ด€๋ จ ์—ฐ๊ตฌ์ด๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Modeling Changing Scientific Concepts with Complex Networks ๋…ผ๋ฌธ์€ 929์˜ ๋„คํŠธ์›Œํฌ ๊ธฐ๋ฐ˜ ํ† ํ”ฝ๋ชจ๋ธ์„ ๋„˜์–ด์„œ ๋ณ€ํ™”ํ•˜๋Š” ๊ณผํ•™์  ๊ฐœ๋… ์ž์ฒด์˜ ๋™์  ๋„คํŠธ์›Œํฌ ๋ชจ๋ธ๋ง ํ”„๋ ˆ์ž„์„ ์ œ๊ณต, ๋” ๋„“์€ ์‘์šฉ ๊ฐ€๋Šฅ์„ฑ์„ ๋ณด์—ฌ์ค€๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
929๋Š” ๊ธ€๋กœ๋ฒŒ ๊ณผํ•™ ํ˜‘์—… ๋„คํŠธ์›Œํฌ์™€ ํŒจํ„ด ๋ถ„์„์„ ๋‹ค๋ค„, 816์—์„œ ์ œ์‹œํ•˜๋Š” ์ž์œจ ์—ฐ๊ตฌ ์ธํ”„๋ผ ํ™•์‚ฐ๊ณผ ์—ฐ๊ณ„ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
๋„คํŠธ์›Œํฌ ๊ธฐ๋ฐ˜ ์ปค๋ฎค๋‹ˆํ‹ฐ ํƒ์ง€ ๊ธฐ๋ฒ•์ด ์ง์ ‘ ํ† ํ”ฝ ๋ชจ๋ธ๋ง์— ํ™œ์šฉ๋˜์–ด, ๋ณต์žก ๋„คํŠธ์›Œํฌ ๋ฐฉ๋ฒ•์˜ cross-disciplinary ์‹ค์ œ ์‘์šฉ์„ ๋ณด์—ฌ์ค€๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
UCSD Science Map์—์„œ๋„ ๋Œ€๊ทœ๋ชจ ํ…์ŠคํŠธ ๋ฐ ์ €๋„ ๋ถ„๋ฅ˜์— ๋„คํŠธ์›Œํฌ ๋ฐ ๋ถ„๋ฅ˜ ์ฒด๊ณ„๋ฅผ ํ™œ์šฉํ•˜๋ฉฐ, ์ฃผ์ œ ๋„คํŠธ์›Œํฌ ์ ‘๊ทผ๋ฒ•์˜ ์‹ค์ œ ์‘์šฉ ์‚ฌ๋ก€๋ฅผ ๋ณด์—ฌ์ค€๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •