大白话理解——熵和信息熵

作者: 小黄不头秃 | 来源:发表于2023-06-13 16:39 被阅读0次

各种熵，条件熵，KL
怎么理解信息熵
决策树算法
机器学习之决策树
机器学习相关的数学知识
熵、条件熵、信息增益（互信息）
熵之道
一文理解机器学习中的各种熵
信息熵相关知识总结
机器学习中的熵、条件熵、相对熵(KL散度)和交叉熵

在学习深度学习的时候，经常使用交叉熵损失函数。一开始将其笼统的理解为计算两个分布之间的距离或者相似度，但是对于交叉熵其中的原理并不清楚。那么交叉熵到底是怎么来的呢？首先我们就必须要知道熵的概念，并且理解其在信息论中上的定义和表示。这里我们浅浅的看一下熵和信息熵的定义和理解。

一、熵

在中学时代，我们在物理课的热力学知识中就学习过，熵(entropy)代表的是一个系统中的混乱程度。例如：熵增，就是指一个系统的混乱程度增加。熵减，就是一个系统趋于稳定。一碗开水逐渐变凉的过程就是熵减的过程。

这里呢我们从信息论的角度来讨论熵。那么什么是信息呢？信息怎么度量呢？

二、信息熵

【信息1】巴菲特昨天出门是左脚先迈出门槛的。（信息量少，与我无关）
【信息2】中国队进入世界杯决赛。（信息量爆炸！）
从上面两条信息中可以看出，信息量的大小与信息的长短无关，也与信息的正确性没有关系。信息量与其确定性有关系，即他能给你带来多少确定性。那么我们现在怎么去定义一个函数表述信息量呢？
$f(x) := 信息量$

现在我们拿世界杯比赛中，阿根廷夺冠这件事进行描述。

我们怎么描述阿根廷夺冠的信息量呢？阿根廷夺冠的信息量等于阿根廷进决赛的信息量+阿根廷赢了决赛的信息量。

与此同时，如果用数学中的概率学知识对此事件进行描述的话，阿根廷夺冠的概率等于阿根廷进决赛的概率*阿根廷赢得比赛的概率。

那么计算信息量的公式就变成了如下模样：

根据红色方框的函数，我们不难想到，这和我们中学学习的log函数很像吗？
$log_a(M·N）=log_aM+log_aN$
所以我们对于信息量的定义就可以变成如下形式：
$f(x) := ? * log _?x$
于是现在出现了一个问题，系数是多少？底是多少？
根据log函数，它是一个单调递增的函数。当x越大，函数值越大。但是在描述信息量的时候，我们发现一件事情发生的概率越小，当他发生时所包含的信息量越大。所以我们需要给上述定义中的系数加上一个负号，也就是说当x越小的时候，信息量越大。至于底数的选择，我们可以比较随意。因为其不影响对信息量的定义。于是我们对信息量的定义就可以变成了下面的样子:
$f(x) := -log_2x$
我们再去计算阿根廷夺冠的信息量就变成了：
$f(1/8) := -log2(1/8) = 3$

现在我们已经对信息量进行了一个定义，其具体含义为：一个事件，从确定到不确定之间的难度有多大。信息量大，就是说难度大，信息量小，就说明难度小。其实熵也是类似的，熵越大，系统越混乱，系统从混乱到稳定的难度也越大。熵和信息量都是来形容难度的，那么其实他们两个的单位也可以一样，这个单位可以是比特。
这里的转变有些复杂，我们假设一个事件发生的信息量为3比特，其相当于是三个比特组成一个随机数，这个随机数刚好是0的难度一样。

到这里似乎这个关于信息量理论已经很完善了。但其实我们对有关于信息熵的定义还不够准确。信息熵的概念是指一个系统中的信息量，难道一个系统的信息是单个子事件信息量的简单的累加吗？答案是非也。

再举一个例子，有两场比赛。
【比赛1】阿根廷对战比利时，两者赢球的概率均为0.5.
【比赛2】中国对战法国，法国赢球的概率为0.99，中国赢球的概率为0.01.