交叉熵

作者: 不烫的热水袋 | 来源:发表于2020-02-26 21:56 被阅读0次

交叉熵, softmax和MSE
cross entropy交叉熵和ground truth总结
理解熵，交叉熵和交叉熵损失
【转】TensorFlow四种Cross Entropy算法实现
逻辑回归例子
交叉熵
交叉熵
交叉熵
交叉熵
交叉熵

1.信息量

信息量与事件发生的概率成反比。
如：
事件1：明天太阳正常升起。该事件发生的概率P=1，因此信息量为0。
事件2：天气预报说明天要下雨。本来我们不知道明天天气，但是通过这句话消除了部分不确定性，因此它具有一定的信息量。

信息量的计算：
$I(x)=-log(P(x))$
$其中I(x)表示信息量，log表示以e为底$ 。

2.信息熵

信息熵是所有信息量的期望。
$H(X)=\sum\limits_{i=1}^nP（x_i）*I(x_i)=-\sum\limits_{i=1}^nP（x_i）*log(P(x_i))$

事件序号	事件	概率	信息量
1	明天下雨	0.6	-log(0.6)
2	明天不下雨	0.4	-log(0.4)

$H(X)=-P(x)log(P(x))-(1-P(x))*log(1-P(x))$
$=-0.6*log(0.6)-0.4*log(0.4)$

3.相对熵（KL熵）

衡量同一变量在不同概率分布上的差异。比如随机变量X在测试集上的概率分布为 $P(x)$ ,验证集上的概率分布为 $Q(x)$ ,相对熵计算公式为：
$D_{KL}(p||q)=\sum\limits_{i=1}^np(x_i)log(\frac{p(x_i)}{q(x_i)})$

例如机器学习的分类问题：

事件序号	事件	预测概率	实际情况
1	明天下雨	0.6	1
2	明天不下雨	0.4	0

$D_{KL}(p||q)=1*log(\frac{1}{0.6})+0*log(\frac{0}{0.6})$
$=1*log(\frac{1}{0.6})$

4.交叉熵

拆分KL散度公式：
$D_{KL}(p||q)=\sum\limits_{i=1}^np(x_i)log(\frac{p(x_i)}{q(x_i)})$
$=\sum\limits_{i=1}^np(x_i)log(p(x_i))$ - $\sum\limits_{i=1}^np(x_i)log(q(x_i))$
= $-H(p(x))+[\sum\limits_{i=1}^np(x_i)log(q(x_i))]$

$H(p(x)）$ 即信息熵，后者为交叉熵。KL散度=信息熵-交叉熵。交叉熵公式为：
$H(p,q)=-\sum\limits_{i=1}^np(x_i)log(q(x_i))$

在机器学习训练网络时，输入数据与标签常常已经确定，那么真实概率分布P(x) 也就确定下来了，所以信息熵在这里就是一个常量。
由于KL散度的值表示真实概率分布P(x) 与预测概率分布Q(x) 之间的差异，值越小表示预测的结果越好，所以需要最小化KL散度，而交叉熵等于KL散度加上一个常量（信息熵），且公式相比KL散度更加容易计算，所以在机器学习中常常使用交叉熵损失函数来计算loss就行了。

事件序号	事件	预测概率	实际情况
1	明天下雨	0.6	1
2	明天不下雨	0.4	0

$loss=-1*log(0.6)-0*log(0.4)=-log(0.6)$

交叉熵在分类问题中常常与softmax是标配，softmax将输出的结果进行处理，使其多个分类的预测值和为1，再通过交叉熵来计算损失。

参考：https://blog.csdn.net/b1055077005/article/details/100152102

交叉熵, softmax和MSE
交叉熵从交叉熵的公式中可以看到交叉熵函数不是对称的(H(p, q) ≠ H(q,p))，它刻画的是通过概率分布q...
cross entropy交叉熵和ground truth总结
一.cross entropy 交叉熵交叉熵的概念得从信息熵的概念说起，我们都知道信息熵，简而言之就是信息量多少...
理解熵，交叉熵和交叉熵损失
交叉熵损失是深度学习中应用最广泛的损失函数之一，这个强大的损失函数是建立在交叉熵概念上的。当我开始使用这个损失函数...
【转】TensorFlow四种Cross Entropy算法实现
作者：陈迪豪来源：CSDNhttp://dataunion.org/26447.html 交叉熵介绍交叉熵（C...
逻辑回归例子
交叉熵推导过程交叉熵数损失推导 - 简书 (jianshu.com)[https://www.jianshu.c...
交叉熵
KL散度（相对熵）衡量两个分布之间的差异大小，KL散度是大于等于0，当越趋近于0，说明p、q两个分布越相似。
交叉熵
作者：Noriko Oshima 链接：https://www.zhihu.com/question/412528...
交叉熵
在非正式场合似然和概率几乎是对等的，但是在统计学中似然和概率却是两个不同的概念：似然与极大似然估计概率Proba...
交叉熵
1.信息熵 1948年，香农在他著名的论文“通信的数学原理”中提高了“信息熵”的概念，解决了信息度量问题，同时量化...
交叉熵
1.信息量信息量与事件发生的概率成反比。如：事件1：明天太阳正常升起。该事件发生的概率P=1，因此信息量为0。事...