第三周

作者: 个革马 | 来源:发表于2018-07-08 15:20 被阅读11次
混合模型

该模型假设一篇文章是由多个分布所产生的。此处,模型简化为由一个主题分布和一个背景词分布。

接下来需要求出模型的各个分布的参数,课程在这里假设其他参数已知,只有主题分布中的各单词产生概率未知。

主题模型分布参数估计

由于单词产生于某一分布的概率已知,背景词分布已知。为文档产生概率等式增加了约束条件,最终可以使用MLE或MAE求得主题分布参数。

1. 同时使得模型具备如下特征:
  • 一个单词在某一分布出现概率较高,在其他分布出现概率则会降低。
  • 这样可以让子模型相互抵消,保证每个词在主模型中享有公平的概率

2. 样本数据中单词出现频率越高,最终在所求的子分布中出现概率越高

3. 样本数据中单词出现频率高,也有可能会提高其出现概率高的分布的概率

EM算法

  • 存在隐变量是可以使用EM算法的。即存在不知道的随机变量,这随机变量又影响着另外的可观测随机变量。那么我们可以通过统计以观测到的随机变量的分布,推知隐变量。

举个例子,观测到混合模型产生的单词序列,希望得到混合模型子模型的分布。从这里可知存在观测到的变量和隐变量。

随机给主题分布中每个词出现的概率赋值,用以计算另外的条件概率,该词出现的情况下,这个单词产生自主题分布模型的概率。再以此概率反求主题分布中每个词出现的概率。

不停迭代,最终会收敛,概率不再变化。

概率主题模型——topic model

一篇文章包含多个主题,每个主题又包含了多个词,生成模型每声场一个词先是随机选择主题,然后主题分布中有随机选择一个单词。

转化成数学问题就是,需要求出文章-主题概率和主题分布.

  1. E-Step


  2. M-Step


LDA

image.png

PLSA的缺点

  • 不是生成模型
  • 太多参数——导致模型复杂:容易过拟合,存在很多局部最大值

LDA:

  • 使得PLSA成为生成模型,参数正则化
  • 能完成PLSA能完成的任务

与PLSA对比,LDA增加了先验概率。文章所包含主题的比例(模型参数)服从狄利克雷分布。

相关文章

网友评论

      本文标题:第三周

      本文链接:https://www.haomeiwen.com/subject/sdovuftx.html