Revisit Topic Model and Latent D

作者: DejavuMoments | 来源:发表于2018-11-27 21:04 被阅读0次

Revisit Topic Model and Latent D
[Topic Model]LDA （Latent Dirich
Psychometrics经典 1/20/2018-1/23/2
LFM——潜在因素模型
LDA主题模型手把手初学者教学
#asreml GLMM 遗传力计算
论文小结（二）
隐语义模型与推荐算法
隐语义模型与推荐算法
矩阵分解与FM

在机器学习中，LDA 是一个进行文本建模的模型。主题模型认为每一个文档都有对应的主题，每个主题都对应着一些词，所以可以根据文本中所包含的词划分其所属的主题，来实现文本的分类或者聚类。

主题模型的优点在于不会像判别模型一样，由于 Labels 太多导致性能迅速下降。因为在判别模型中，labels 判别的基础是二分类模型。而labels 对于documents，符合齐普夫定律，即大量的 Labels 只被赋予了很少的数的document。这样，二分类模型面对的就是正样本和负样本数据不平衡，导致性能下降。

Topic Model （主题模型）发展的历史其实蛮久远的，如果从1999年 Hofmann 提出 pLSA 开始算起，也有近 20 年的了。这二十年内，主题模型也有一些不错的进展，只是被深度学习盖住了风头。近几年发展的主题是 “More Topics”，传统的 LDA 一般就生成几百个 topics ，有人认为 topic 的粒度越细，越能表达更加细微的语义。

LDA 是主题模型的一种，主要是提取 document 的主题，不过由于一类文档常常也属于同一个主题，因此也可以用于文本的聚类。主题模型并不是分类或者聚类的方式，只是用来进行文本表征的，有了这个 text representation 之后，再用分类/聚类算法来分类或者聚类。

LDA 从2012年开始，逐步发展了 SparseLDA，AliasLDA，LightLDA，WarpLDA。发展到 2015 年底，通过降低理论的时间复杂度，学习 100w 的 topic 已经非常快了。

LDA 是词袋模型的巅峰之作，优雅的模型，严谨的推理过程。

主题模型粒度很粗

peacock

topic 去重

LDA 大规模并行化

文本建模

我们日常生活中总是产生大量的文本，如果每一个文本存储为一篇文档，那么可以每篇文档看作是一段序列(Sequence)，而且这种序列具有几个重要的特性：有序性、有限性，语义性，可以将其形式化定义如下：

$doc = (w_1,w_2,w_3,...,w_n)$

统计文本建模的目的就是研究这些文档中的词序列是如何生成的。

文本表示

众所周知，TF-IDF、LDA、Word Embedding 是当前三种主流的文本表示方式。根据 Topical Word Embeddings 报告可知，在文本相似度评测中结合 LDA 和 Word Embedding 的 TWE-1 能够取得最好的效果。

网友评论

本文标题：Revisit Topic Model and Latent D

本文链接：https://www.haomeiwen.com/subject/efpnqqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Revisit Topic Model and Latent D

文本建模

文本表示

相关文章