01
什么是“信息熵”
香农提出“信息熵”的概念,解决了对信息的量化度量问题。热力学中的热熵是表示分子状态混乱程度的物理量。香农用信息熵的概念来描述信源的不确定度:一个系统越是有序,信息熵就越低;反之,一个系统越是混乱,信息熵就越高。
信息熵理解为一个随机变量出现的期望值;信息熵衡量了一个系统的复杂度,比如当我们想要比较两门课哪个更复杂,信息熵大的就说明那门课的信息量大,更加复杂。
02
信息熵计算公式
信息熵用数学语言阐明了概率与信息冗余度的关系
一个信源发送出什么符号是不确定的,衡量它可以根据其出现的概率来度量。概率大,出现机会多,不确定性小;反之不确定性就大。

03
机器学习中的信息熵
信息熵一个很重要的应用,就是做决策时根据熵来往下设置分枝(branch)。
04
相对熵
又称互熵,K-L 散度等。设 p(x) 和 q(x) 是X 取值的两个概率分布,则 p 对 q 的相对熵为:

在一定程度上,熵可以度量两个随机变量的距离。KL 散度是两个概率分布 P 和 Q 差别的非对称性的度量。KL 散度是用来度量使用基于 Q 的编码来编码来自 P 的样本平均所需的额外的位元数。
典型情况下,P 表示数据的真实分布,Q 表示数据的理论分布,模型分布,或 P 的近似分布。
05
问题
这些熵的含义,以及在数据挖掘中的应用,好像还不是很清楚,只是看到数学公式,但是难以真正理解把握。
后续还需要继续了解并更新本文。
网友评论