美文网首页
大白话理解——熵和信息熵

大白话理解——熵和信息熵

作者: 小黄不头秃 | 来源:发表于2023-06-13 16:39 被阅读0次

在学习深度学习的时候,经常使用交叉熵损失函数。一开始将其笼统的理解为计算两个分布之间的距离或者相似度,但是对于交叉熵其中的原理并不清楚。那么交叉熵到底是怎么来的呢?首先我们就必须要知道 的概念,并且理解其在信息论中上的定义和表示。这里我们浅浅的看一下熵和信息熵的定义和理解。

一、熵

在中学时代,我们在物理课的热力学知识中就学习过,熵(entropy)代表的是一个系统中的混乱程度。例如:熵增,就是指一个系统的混乱程度增加。熵减,就是一个系统趋于稳定。一碗开水逐渐变凉的过程就是熵减的过程。

这里呢我们从信息论的角度来讨论熵。那么什么是信息呢?信息怎么度量呢?

二、信息熵

【信息1】巴菲特昨天出门是左脚先迈出门槛的。(信息量少,与我无关)
【信息2】中国队进入世界杯决赛。(信息量爆炸!)
从上面两条信息中可以看出,信息量的大小与信息的长短无关,也与信息的正确性没有关系。信息量与其确定性有关系,即他能给你带来多少确定性。那么我们现在怎么去定义一个函数表述信息量呢?
f(x) := 信息量

现在我们拿世界杯比赛中,阿根廷夺冠这件事进行描述。

我们怎么描述阿根廷夺冠的信息量呢?阿根廷夺冠的信息量等于阿根廷进决赛的信息量+阿根廷赢了决赛的信息量。

与此同时,如果用数学中的概率学知识对此事件进行描述的话,阿根廷夺冠的概率等于阿根廷进决赛的概率*阿根廷赢得比赛的概率。

那么计算信息量的公式就变成了如下模样:

根据红色方框的函数,我们不难想到,这和我们中学学习的log函数很像吗?
log_a(M·N)=log_aM+log_aN
所以我们对于信息量的定义就可以变成如下形式:
f(x) := ? * log _?x
于是现在出现了一个问题,系数是多少?底是多少?
根据log函数,它是一个单调递增的函数。当x越大,函数值越大。但是在描述信息量的时候,我们发现一件事情发生的概率越小,当他发生时所包含的信息量越大。所以我们需要给上述定义中的系数加上一个负号,也就是说当x越小的时候,信息量越大。至于底数的选择,我们可以比较随意。因为其不影响对信息量的定义。于是我们对信息量的定义就可以变成了下面的样子:
f(x) := -log_2x
我们再去计算阿根廷夺冠的信息量就变成了:
f(1/8) := -log2(1/8) = 3

现在我们已经对信息量进行了一个定义,其具体含义为:一个事件,从确定到不确定之间的难度有多大。信息量大,就是说难度大,信息量小,就说明难度小。其实熵也是类似的,熵越大,系统越混乱,系统从混乱到稳定的难度也越大。熵和信息量都是来形容难度的,那么其实他们两个的单位也可以一样,这个单位可以是比特。
这里的转变有些复杂,我们假设一个事件发生的信息量为3比特,其相当于是三个比特组成一个随机数,这个随机数刚好是0的难度一样。

到这里似乎这个关于信息量理论已经很完善了。但其实我们对有关于信息熵的定义还不够准确。信息熵的概念是指一个系统中的信息量,难道一个系统的信息是单个子事件信息量的简单的累加吗?答案是非也。

再举一个例子,有两场比赛。
【比赛1】阿根廷对战比利时,两者赢球的概率均为0.5.
【比赛2】中国对战法国,法国赢球的概率为0.99,中国赢球的概率为0.01.


根据上面我们对信息量的描述,可以计算出每一个国家赢球的信息量。如果简单累加的话,左边系统的信息量是2,右边系统的信息量为6.65。

根据信息熵的理解,也就是说左边的系统更加稳定,右边的系统更加不稳定。然而在直观理解中并不是这样,左边系统中似乎更不稳定,谁是赢家,还真说不准。反观右边的系统,这个系统似乎挺稳定的。所以一个系统的信息熵等于单个子事件的信息量乘以它发生的概率的积的和。关于信息熵的定义变成了:

观察这个式子,我们也可以理解为对一个系统求信息熵,那就是对这个系统求信息量的期望。

好啦,学习到这里,我们就完成了对信息熵的介绍。

如果你还想接下来了解KL散度和交叉熵,大家可以参考我的另外两篇文章:
【1】大白话理解——KL散度和交叉熵 - 简书 (jianshu.com)
【2】大白话理解——交叉熵 - 简书 (jianshu.com)

本文参考视频内容:“交叉熵”如何做损失函数?打包理解“信息量”、“比特”、“熵”、“KL散度”、“交叉熵” 去给up主点个赞吧!

相关文章

  • 各种熵,条件熵,KL

    熵、条件熵、交叉熵、相对熵 参考《统计学习方法》李航 通俗理解信息熵 - 忆臻的文章 - 知乎 https://z...

  • 怎么理解信息熵

    信息熵的定义很简单,怎么理解和运用信息熵还是有点头疼; 首先,我们看一下定义:信息熵:有离散随机变量及其分布:则随...

  • 决策树算法

    一、通俗理解熵和基尼不纯度 1.信息熵 熵度量事物的不确定性,越不确定的事物,它的熵就越大。随机变量的熵的表达式如...

  • 机器学习之决策树

    信息熵: 信息熵描述信息源的不确定程度,信息熵越大、越不确定. 信息熵公式: 例子: 假设中国乒乓球队和巴西乒乓球...

  • 机器学习相关的数学知识

    知识点理解: 信息量->熵->相对熵(KL散度)->交叉熵->分类的loss 信息量:I(x0)=−log(p(x...

  • 熵、条件熵、信息增益(互信息)

    信息增益 首先明确一点,信息熵是信息量的期望!期望!期望!(各种信息熵都是如此,像熵、条件熵、信息增益)熵:表示随...

  • 熵之道

    熵的定义如下: 互信息 = H(D) - H(D|A) 信息增益 = 经验熵 - 经验条件熵; 互信息和信息增益理...

  • 一文理解机器学习中的各种熵

    本文的目录组织如下: 【1】自信息【2】熵(香农熵)【3】联合熵【4】条件熵【5】互信息(信息增益)【6】 熵、联...

  • 信息熵相关知识总结

    前言 学习决策树时会接触到一些信息熵,条件熵和信息增益的知识,此外还有互信息,相对熵,交叉熵和互信息,KL散度等等...

  • 机器学习中的熵、条件熵、相对熵(KL散度)和交叉熵

    GitHub简书CSDN 该文章转载自详解机器学习中的熵、条件熵、相对熵和交叉熵 1、信息熵 (informati...

网友评论

      本文标题:大白话理解——熵和信息熵

      本文链接:https://www.haomeiwen.com/subject/ezzyedtx.html