-
摘要
本文从基础概念出发给出了平均场的推导介绍,包括以下三个部分。- 预备基础: Jensen's Inequality, Kullback–Leibler divergence (KL散度)
- 模型相关: 隐变量,联合概率及条件概率,观测量的对数似然性
- 推导过程
-
K-L divergence
对于分布和
,有
注意不等号的地方,应用了函数的凸凹性和Jensen's Inequality. 容易看出KL divergence 具有不对称性,也即一般地
.
另外,K-L divergence的另一种常见形式:
-
Jensen's Inequality
If f is a probability density function and g is any real-valued measurable function andis convex over the range of g, then
Finite form:
provided that
and
Generally,
where
and expectation
with respect to some probability mesure of
.
-
联合概率与条件概率
对于多元随机变量和
, 一般情况,概率图模型容易给出联合概率
,但是求解条件概率
却比较困难,因为
, 分母边际分布
涉及到联合概率
对
求和(或是积分)运算。在隐变量模型中,一般约定
表示观测值,
表示模型的隐变量。按照贝叶斯理论,模型的参数、超参数等都可视为随机变量,在推导过程中也归到
.
-
观测量的对数似然性
一般地,观测量的对数似然性是机器学习模型目标函数的重要组成部分;以下给出
的下界和分解的推导。
- 推导1
令下界可得:
容易看出,挑选不同的, 最大化观测量
的概率,可以通过最大化下界
获取, 其中
被称为Evidence Lower Bound, 也称ELBO. 因为
,
, 所以
. 注意,虽然
为观测量、固定值,但是
不是关于
的概率分布,因此
不能看做
和
的K-L散度。目前有一个问题:
和
之间的差异是多少?差值为
,参考对数似然性的分解推导2。
- 推导2
也即是:
由于观测量已知,
是固定的,只有
和
与变量
有关,并且最大化
和最小化
是等价的。
Remark: 借助了条件概率公式,并引入了辅助变量和
- 推导1
-
变分法和平均场
已知:为了从联合概率得到条件概率
, 假设Q(Z)可因子化,令
,最小化
, 等价于最大化 ELBO
.
假设从多元变量中抽取一个变量
,
中剩余的多个变量记为
, 也即
. 当固定
时,
是变量
的函数:
上式第1项可通过引入辅助变量化简;第2项为分布的熵,可与第1项合并;第3项为分布
的熵,由于z_{-j}固定值,第3项为常量。如果令
可得:
所以最大值在
时取到,换言之:
-
参考









网友评论