Mean Field

作者: myperl | 来源:发表于2019-02-13 01:42 被阅读0次

Mean Field
Principle of Locality I: Hacking
Mean-field approximation, convex
变分贝叶斯初探
learn R 学习笔记（一）
常用函数
2.14 数值和统计mean(）.unique() .isin(
Java中的搜索技术Lucene--Field域和索引维护技术详
2019-11-17 mysql插入前判断数据是否存在
目标检测中常用专用术语

摘要
本文从基础概念出发给出了平均场的推导介绍，包括以下三个部分。
- 预备基础： Jensen's Inequality, Kullback–Leibler divergence (KL散度)
- 模型相关：隐变量，联合概率及条件概率，观测量的对数似然性 $\log P(X)$
- 推导过程
K-L divergence
对于分布 $P(X)$ 和 $Q(X)$ ，有
$KL(P(X)||Q(X)) = - \sum_X{ P(X) \log \frac{Q(X)}{P(X)}} \ge - \log \sum_{X} P(X) \frac{Q(X)}{P(X)} = -\log 1 = 0$
注意不等号的地方，应用了函数 $-\log(x)$ 的凸凹性和Jensen's Inequality. 容易看出KL divergence 具有不对称性，也即一般地 $KL(P(X)||Q(X)) \neq KL(Q(X)||P(X))$ .
另外，K-L divergence的另一种常见形式:
$KL(P(X)||Q(X)) = \sum_X{ P(X) \log \frac{P(X)}{Q(X)}} =E_{P(X)} \left[ \log \frac{P(X)}{Q(X)} \right]$
Jensen's Inequality
If f is a probability density function and g is any real-valued measurable function and $\varphi$ is convex over the range of g, then
$\int _{-\infty }^{+\infty }\varphi (g(x))f(x)\,dx \ge \varphi \left(\int _{-\infty }^{+\infty }g(x)f(x)\,dx\right).$
Finite form:
$\sum_{i=1}^{n}\lambda_i \varphi (g(x_{i})) \ge \varphi \left(\sum_{i=1}^{n} \lambda_i g(x_i) \right)$ provided that $\lambda_i \ge 0$ and $\sum_{i=1}^n \lambda_i = 1.$
Generally,
$E[ \varphi(Y) ] \ge \varphi(E[Y])$ where $Y=g(x)$ and expectation $E$ with respect to some probability mesure of $X$ .
联合概率与条件概率
对于多元随机变量 $X$ 和 $Z$ , 一般情况，概率图模型容易给出联合概率 $P(X,Z)$ ，但是求解条件概率 $P(Z|X)$ 却比较困难，因为 $P(Z|X) = \frac{P(X,Z)}{P(X)}$ , 分母边际分布 $P(X)$ 涉及到联合概率 $P(X,Z)$ 对 $Z$ 求和（或是积分）运算。在隐变量模型中，一般约定 $X$ 表示观测值， $Z$ 表示模型的隐变量。按照贝叶斯理论，模型的参数、超参数等都可视为随机变量，在推导过程中也归到 $Z$ .
观测量的对数似然性
一般地，观测量的对数似然性 $\log P(X)$ 是机器学习模型目标函数的重要组成部分；以下给出 $\log P(X)$ 的下界和分解的推导。
- 推导1
  $\log P(X) = \log \sum_{z} P(X,Z) = \log \sum_{z} Q(Z) \frac{P(X,Z)}{Q(Z)} \ge \sum_Z Q(Z) \log\frac{P(X,Z)}{Q(Z)}$
  令下界 $L = \sum_Z Q(Z) \log\frac{P(X,Z)}{Q(Z)}$ 可得： $\log P(X) \ge L$
  容易看出，挑选不同的 $Q(Z)$ , 最大化观测量 $X$ 的概率，可以通过最大化下界 $L$ 获取, 其中 $L$ 被称为Evidence Lower Bound, 也称ELBO. 因为 $P(X) \in (0, 1)$ , $\log P(X) < 0$ , 所以 $L < 0$ . 注意，虽然 $X$ 为观测量、固定值，但是 $P(X,Z)$ 不是关于 $Z$ 的概率分布，因此 $L$ 不能看做 $Q(Z)$ 和 $P(X,Z)$ 的K-L散度。目前有一个问题： $\log P(X)$ 和 $L$ 之间的差异是多少？差值为 $KL(Q(Z) || P(Z|X))$ ，参考对数似然性的分解推导2。
- 推导2
  $\log P(X) = \sum_Z Q(Z) \log P(X) \\ = \sum_Z Q(Z) \log \left( \frac{P(X,Z)}{P(Z|X)} \cdot \frac{Q(Z)}{Q(Z)} \right) \\ = \sum_Z Q(Z) \log \frac{P(X,Z)}{Q(Z)} + \sum_Z Q(Z) \log \frac{Q(Z)}{P(Z|X)} \\ =E_{Q(Z)} \left[ \log \frac{P(X,Z)}{Q(Z)} \right] +E_{Q(Z)} \left[ \log \frac{Q(Z)}{P(Z|X)} \right]$
  也即是： $\log P(X) = L + KL(Q(Z)||P(Z|X))$
  由于观测量 $X$ 已知， $\log P(X)$ 是固定的，只有 $L$ 和 $KL(Q(Z)||P(Z|X))$ 与变量 $Q(Z)$ 有关，并且最大化 $L$ 和最小化 $KL(Q(Z)||P(Z|X))$ 是等价的。
  Remark: 借助了条件概率公式，并引入了辅助变量 $Z$ 和 $E_{Q(Z)}[\cdot]$
变分法和平均场
已知：为了从联合概率 $P(X,Z)$ 得到条件概率 $P(Z|X)$ , 假设Q(Z)可因子化，令 $Q(Z)= \Pi_i Q( z_i)$ ，最小化 $KL(Q(Z)||P(Z|X))$ , 等价于最大化 ELBO $L = \sum_Z Q(Z) \log\frac{P(X,Z)}{Q(Z)}$ .
假设从多元变量 $Z$ 中抽取一个变量 $z_j$ , $Z$ 中剩余的多个变量记为 $z_{-j}$ , 也即 $z_{-j} = Z \ \smallsetminus \{z_j\}$ . 当固定 $z_{-j}$ 时， $L$ 是变量 $z_j$ 的函数:
$L(z_j) = \sum_Z Q(z_j)Q(z_{-j}) \log\frac{P(X,Z)}{Q(z_j)Q(z_{-j})} \\= \sum_Z Q(z_j)Q(z_{-j}) \log P(X,Z) - \sum_Z Q(z_j)Q(z_{-j}) \log Q(z_j) - \sum_Z Q(z_j)Q(z_{-j}) \log Q(z_{-j}) \\= \sum_{z_j} Q(z_j) \sum_{z_{-j}} Q(z_{-j}) \log P(X,Z) - \sum_{z_j} Q(z_j) \log Q(z_j) - \sum_{z_{-j}} Q(z_{-j}) \log Q(z_{-j})$
上式第1项可通过引入辅助变量化简；第2项为分布 $Q(z_j)$ 的熵，可与第1项合并；第3项为分布 $Q(z_{-j})$ 的熵，由于z_{-j}固定值，第3项为常量。如果令
$R(z_j) = \frac{1}{C} \exp \left(\sum_{z_{-j}} Q(z_{-j}) \log P(X,Z) \right), \quad C = \sum_{z_j} \exp \left(\sum_{z_{-j}} Q(z_{-j}) \log P(X,Z) \right)$
可得：
$L(z_j) = \sum_{z_j} Q(z_j) (\log R(z_j) + \log C) - \sum_{z_j} Q(z_j) \log Q(z_j) - \sum_{z_{-j}} Q(z_{-j}) \log Q(z_{-j}) \\ = \sum_{z_j} Q(z_j) \log \frac{R(z_j)}{Q(z_j)} + \log C - \sum_{z_{-j}} Q(z_{-j}) \log Q(z_{-j}) \\ = \sum_{z_j} Q(z_j) \log \frac{R(z_j)}{Q(z_j)} + \mathbb{const.}$
所以 $L(z_j)$ 最大值在 $Q(z_j) = R(z_j)$ 时取到，换言之：
$Q(z_j) \propto \exp \left( \sum_{z_{-j}} Q(z_{-j}) \log P(X,Z) \right)$
参考
- 课程 1 2
- Jensen's inequality wiki

Mean Field
摘要本文从基础概念出发给出了平均场的推导介绍，包括以下三个部分。预备基础： Jensen's Inequality...
Principle of Locality I: Hacking
Outline What does "Continuum Mean-Field" mean ? From Dyna...
Mean-field approximation, convex
Mean-field approximation, convex hierarchies, and the opt...
变分贝叶斯初探
原题：A Beginner's Guide to Variational Methods: Mean-Field ...
learn R 学习笔记（一）
帮助和基础 ?mean help("mean") #打开mean函数的帮助页面?"+" help("+"...
常用函数
1.mean——均值 mean(A)求矩阵A各列的均值 mean(A)'求矩阵A各列的均值，再转置 mean(A,...
2.14 数值和统计mean(）.unique() .isin(
1--mean(） .mean(axis=1)) 和.mean(axis=1,skipna=False) #求'列...
Java中的搜索技术Lucene--Field域和索引维护技术详
一、Field域 1.Field属性 Field是文档中的域，包括Field名和Field值两部分，一个文档可以包...
2019-11-17 mysql插入前判断数据是否存在
INSERT INTOtable(field1, field2, fieldn)SELECT'field1', '...
目标检测中常用专用术语
mAP (mean average precision) mAP (mean average precision)...

Mean Field

相关文章

Mean Field

Principle of Locality I: Hacking

Mean-field approximation, convex

变分贝叶斯初探

learn R 学习笔记（一）

常用函数

2.14 数值和统计mean(）.unique() .isin(

Java中的搜索技术Lucene--Field域和索引维护技术详

2019-11-17 mysql插入前判断数据是否存在

目标检测中常用专用术语

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读