在机器学习中,LDA 是一个进行文本建模的模型。主题模型认为每一个文档都有对应的主题,每个主题都对应着一些词,所以可以根据文本中所包含的词划分其所属的主题,来实现文本的分类或者聚类。
主题模型的优点在于不会像判别模型一样,由于 Labels 太多导致性能迅速下降。因为在判别模型中,labels 判别的基础是二分类模型。而labels 对于documents,符合齐普夫定律,即大量的 Labels 只被赋予了很少的数的document。这样,二分类模型面对的就是正样本 和 负样本数据不平衡,导致性能下降。
Topic Model (主题模型)发展的历史其实蛮久远的,如果从1999年 Hofmann 提出 pLSA 开始算起,也有近 20 年的了。这二十年内,主题模型也有一些不错的进展,只是被深度学习盖住了风头。近几年发展的主题是 “More Topics”,传统的 LDA 一般就生成几百个 topics ,有人认为 topic 的粒度越细,越能表达更加细微的语义。
LDA 是主题模型的一种,主要是提取 document 的主题,不过由于一类文档常常也属于同一个主题,因此也可以用于文本的聚类。主题模型并不是分类或者聚类的方式,只是用来进行文本表征的,有了这个 text representation 之后,再用分类/聚类算法来分类或者聚类。
LDA 从2012年开始,逐步发展了 SparseLDA,AliasLDA,LightLDA,WarpLDA。发展到 2015 年底,通过降低理论的时间复杂度,学习 100w 的 topic 已经非常快了。
LDA 是词袋模型的巅峰之作,优雅的模型,严谨的推理过程。
主题模型 粒度很粗
peacock
topic 去重
LDA 大规模并行化
文本建模
我们日常生活中总是产生大量的文本,如果每一个文本存储为一篇文档,那么可以每篇文档看作是一段序列(Sequence),而且这种序列具有几个重要的特性:有序性、有限性,语义性,可以将其形式化定义如下:
统计文本建模的目的就是研究这些文档中的词序列是如何生成的。
文本表示
众所周知,TF-IDF、LDA、Word Embedding 是当前三种主流的文本表示方式。根据 Topical Word Embeddings 报告可知,在文本相似度评测中结合 LDA 和 Word Embedding 的 TWE-1 能够取得最好的效果。









网友评论