美文网首页
Mean Field

Mean Field

作者: myperl | 来源:发表于2019-02-13 01:42 被阅读0次
  • 摘要
    本文从基础概念出发给出了平均场的推导介绍,包括以下三个部分。

    • 预备基础: Jensen's Inequality, Kullback–Leibler divergence (KL散度)
    • 模型相关: 隐变量,联合概率及条件概率,观测量的对数似然性 \log P(X)
    • 推导过程
  • K-L divergence
    对于分布 P(X)Q(X) ,有
    KL(P(X)||Q(X)) = - \sum_X{ P(X) \log \frac{Q(X)}{P(X)}} \ge - \log \sum_{X} P(X) \frac{Q(X)}{P(X)} = -\log 1 = 0
    注意不等号的地方,应用了函数-\log(x)的凸凹性和Jensen's Inequality. 容易看出KL divergence 具有不对称性,也即一般地KL(P(X)||Q(X)) \neq KL(Q(X)||P(X)).
    另外,K-L divergence的另一种常见形式:
    KL(P(X)||Q(X)) = \sum_X{ P(X) \log \frac{P(X)}{Q(X)}} =E_{P(X)} \left[ \log \frac{P(X)}{Q(X)} \right]

  • Jensen's Inequality
    If f is a probability density function and g is any real-valued measurable function and \varphi is convex over the range of g, then
    \int _{-\infty }^{+\infty }\varphi (g(x))f(x)\,dx \ge \varphi \left(\int _{-\infty }^{+\infty }g(x)f(x)\,dx\right).
    Finite form:
    \sum_{i=1}^{n}\lambda_i \varphi (g(x_{i})) \ge \varphi \left(\sum_{i=1}^{n} \lambda_i g(x_i) \right) provided that \lambda_i \ge 0 and \sum_{i=1}^n \lambda_i = 1.
    Generally,
    E[ \varphi(Y) ] \ge \varphi(E[Y]) where Y=g(x) and expectation E with respect to some probability mesure of X.

  • 联合概率与条件概率
    对于多元随机变量XZ, 一般情况,概率图模型容易给出联合概率P(X,Z),但是求解条件概率P(Z|X)却比较困难,因为 P(Z|X) = \frac{P(X,Z)}{P(X)}, 分母边际分布 P(X)涉及到联合概率P(X,Z)Z求和(或是积分)运算。在隐变量模型中,一般约定X表示观测值,Z表示模型的隐变量。按照贝叶斯理论,模型的参数、超参数等都可视为随机变量,在推导过程中也归到Z.

  • 观测量的对数似然性
    一般地,观测量的对数似然性\log P(X) 是机器学习模型目标函数的重要组成部分;以下给出\log P(X)的下界和分解的推导。

    • 推导1
      \log P(X) = \log \sum_{z} P(X,Z) = \log \sum_{z} Q(Z) \frac{P(X,Z)}{Q(Z)} \ge \sum_Z Q(Z) \log\frac{P(X,Z)}{Q(Z)}
      令下界 L = \sum_Z Q(Z) \log\frac{P(X,Z)}{Q(Z)} 可得:\log P(X) \ge L
      容易看出,挑选不同的 Q(Z), 最大化观测量X的概率,可以通过最大化下界L获取, 其中L被称为Evidence Lower Bound, 也称ELBO. 因为P(X) \in (0, 1), \log P(X) < 0, 所以L < 0. 注意,虽然X为观测量、固定值,但是P(X,Z)不是关于Z的概率分布,因此L不能看做 Q(Z)P(X,Z)的K-L散度。目前有一个问题:\log P(X)L之间的差异是多少?差值为KL(Q(Z) || P(Z|X)),参考对数似然性的分解推导2。
    • 推导2
      \log P(X) = \sum_Z Q(Z) \log P(X) \\ = \sum_Z Q(Z) \log \left( \frac{P(X,Z)}{P(Z|X)} \cdot \frac{Q(Z)}{Q(Z)} \right) \\ = \sum_Z Q(Z) \log \frac{P(X,Z)}{Q(Z)} + \sum_Z Q(Z) \log \frac{Q(Z)}{P(Z|X)} \\ =E_{Q(Z)} \left[ \log \frac{P(X,Z)}{Q(Z)} \right] +E_{Q(Z)} \left[ \log \frac{Q(Z)}{P(Z|X)} \right]
      也即是:\log P(X) = L + KL(Q(Z)||P(Z|X))
      由于观测量X已知,\log P(X)是固定的,只有LKL(Q(Z)||P(Z|X)) 与变量Q(Z)有关,并且最大化L和最小化KL(Q(Z)||P(Z|X))是等价的。
      Remark: 借助了条件概率公式,并引入了辅助变量ZE_{Q(Z)}[\cdot]
  • 变分法和平均场
    已知:为了从联合概率P(X,Z)得到条件概率P(Z|X), 假设Q(Z)可因子化,令Q(Z)= \Pi_i Q( z_i) ,最小化KL(Q(Z)||P(Z|X)) , 等价于最大化 ELBO L = \sum_Z Q(Z) \log\frac{P(X,Z)}{Q(Z)}.
    假设从多元变量Z中抽取一个变量z_j, Z 中剩余的多个变量记为z_{-j}, 也即z_{-j} = Z \ \smallsetminus \{z_j\}. 当固定z_{-j}时,L是变量z_j的函数:
    L(z_j) = \sum_Z Q(z_j)Q(z_{-j}) \log\frac{P(X,Z)}{Q(z_j)Q(z_{-j})} \\= \sum_Z Q(z_j)Q(z_{-j}) \log P(X,Z) - \sum_Z Q(z_j)Q(z_{-j}) \log Q(z_j) - \sum_Z Q(z_j)Q(z_{-j}) \log Q(z_{-j}) \\= \sum_{z_j} Q(z_j) \sum_{z_{-j}} Q(z_{-j}) \log P(X,Z) - \sum_{z_j} Q(z_j) \log Q(z_j) - \sum_{z_{-j}} Q(z_{-j}) \log Q(z_{-j})
    上式第1项可通过引入辅助变量化简;第2项为分布Q(z_j)的熵,可与第1项合并;第3项为分布Q(z_{-j})的熵,由于z_{-j}固定值,第3项为常量。如果令
    R(z_j) = \frac{1}{C} \exp \left(\sum_{z_{-j}} Q(z_{-j}) \log P(X,Z) \right), \quad C = \sum_{z_j} \exp \left(\sum_{z_{-j}} Q(z_{-j}) \log P(X,Z) \right)
    可得:
    L(z_j) = \sum_{z_j} Q(z_j) (\log R(z_j) + \log C) - \sum_{z_j} Q(z_j) \log Q(z_j) - \sum_{z_{-j}} Q(z_{-j}) \log Q(z_{-j}) \\ = \sum_{z_j} Q(z_j) \log \frac{R(z_j)}{Q(z_j)} + \log C - \sum_{z_{-j}} Q(z_{-j}) \log Q(z_{-j}) \\ = \sum_{z_j} Q(z_j) \log \frac{R(z_j)}{Q(z_j)} + \mathbb{const.}
    所以 L(z_j)最大值在Q(z_j) = R(z_j)时取到,换言之:
    Q(z_j) \propto \exp \left( \sum_{z_{-j}} Q(z_{-j}) \log P(X,Z) \right)

  • 参考

    • 课程 1 2
    • Jensen's inequality wiki

相关文章

网友评论

      本文标题:Mean Field

      本文链接:https://www.haomeiwen.com/subject/fehddqtx.html