归一化(softmax)、信息熵、交叉熵

归一化(softmax)、信息熵、交叉熵

作者: shaolin79 | 来源:发表于2020-09-28 16:00 被阅读0次

归一化(softmax)、信息熵、交叉熵
数学
UD机器学习 - C5 深度学习
cross entropy交叉熵和ground truth总结
机器学习值softmax
ID3与C4.5算法
softmax与交叉熵
信息熵、交叉熵、相对熵
信息熵/相对熵/交叉熵
Udacity.深度学习.从机器学习到深度学习.2017-11-

归一化(softmax)、信息熵、交叉熵

机器学习中经常遇到这几个概念，用大白话解释一下：

一、归一化

把几个数量级不同的数据，放在一起比较（或者画在一个数轴上），比如：一条河的长度几千甚至上万km，与一个人的高度1.7m，放在一起，人的高度几乎可以被忽略，所以为了方便比较，缩小他们的差距，但又能看出二者的大小关系，可以找一个方法进行转换。

另外，在多分类预测时，比如：一张图，要预测它是猫，或是狗，或是人，或是其它什么，每个分类都有一个预测的概率，比如是猫的概率是0.7，狗的概率是0.1，人的概率是0.2... , 概率通常是0到1之间的数字，如果我们算出的结果，不在这个范围，比如：700，10，2 ，甚至负数，这样就需要找个方法，将其转换成0-1之间的概率小数，而且通常为了满足统计分布，这些概率的和，应该是1。

image

最常用的处理方法，就是softmax，原理如上图（网上淘来的）。

点击看原图

类似的softmax(1)=0.12，softmax(-3)=0，这个方法在数学上没毛病，但是在实际运用中，如果目标值x很大，比如10000，那e的10000次方，很可能超出编程语言的表示范围，所以通常做softmax前，要对数据做一下预处理（比如：对于分类预测，最简单的办法，所有训练集整体按比例缩小）

二、信息熵

热力学中的热熵是表示分子状态混乱程度的物理量，而且还有一个所谓『熵增原理』，即：宇宙中的熵总是增加的，换句话说，分子状态总是从有序变成无序，热量总是从高温部分向低温部分传递。香农借用了这个概念，用信息熵来描述信源的不确定度。

简单点说，一个信息源越不确定，里面蕴含的信息量越大。举个例子：吴京《战狼2》大获成功后，说要续拍《战狼3》，但是没说谁当女主角，于是就有各种猜测，各种可能性，即：信息量很大。但是没过多久，吴京宣布女主角确定后，大家就不用再猜测女主角了，信息量相比就没这么大了。

这个例子中，每种猜测的可能性其实就是概率，而信息量如何衡量，可以用下面的公式来量化计算，算出来的值即信息熵：

image

这里p为概率，最后算出来的结果通常以bit为单位。

举例：拿计算机领域最常现的编码问题来说，如果有A、B、C、D这四个字符组成的内容，每个字符出现的概率都是1/4，即概率分布为{1/4，1/4，1/4，1/4}，设计一个最短的编码方案来表示一组数据，套用刚才的公式：

image

即：2个bit，其实不用算也能想明白，如果第1位0表示A，1表示B；第2位0表示C，1表示D，2位编码搞定。

如果概率变了，比如A、B、C、D出现的概率是{1，1，1/2，1/2}，即：每次A、B必然出现，C、D出现机会各占一半，这样只要1位就可以了。1表示C，0表示D，因为AB必然出现，不用表示都知道肯定要附加上AB，套用公式算出来的结果也是如此。

image

三、交叉熵

image

这是公式定义，x、y都是表示概率分布（注：也有很多文章喜欢用p、q来表示），这个东西能干嘛呢？

假设x是正确的概率分布，而y是我们预测出来的概率分布，这个公式算出来的结果，表示y与正确答案x之间的错误程度（即：y错得有多离谱），结果值越小，表示y越准确，与x越接近。

比如：

x的概率分布为：{1/4 ，1/4，1/4，1/4}，现在我们通过机器学习，预测出来二组值：

y1的概率分布为 {1/4 , 1/2 , 1/8 , 1/8}

y2的概率分布为 {1/4 , 1/4 , 1/8 , 3/8}

从直觉上看，y2分布中，前2项都100%预测对了，而y1只有第1项100%对，所以y2感觉更准确，看看公式算下来，是不是符合直觉：

image

image

对比结果，H(x,y1)算出来的值为9/4，而H(x,y2)的值略小于9/4，根据刚才的解释，交叉熵越小，表示这二个分布越接近，所以机器学习中，经常拿交叉熵来做为损失函数(loss function)。

相关文章

归一化(softmax)、信息熵、交叉熵
归一化(softmax)、信息熵、交叉熵[https://www.cnblogs.com/yjmyzz/p/782...
数学
方差 softmax 梯度下降算法交叉熵霍夫曼树学习率
UD机器学习 - C5 深度学习
1 神经网络 sigmod函数和softmax函数最大似然概率和交叉熵和多类别交叉熵Logistic回归和梯度下降...
cross entropy交叉熵和ground truth总结
一.cross entropy 交叉熵交叉熵的概念得从信息熵的概念说起，我们都知道信息熵，简而言之就是信息量多少...
机器学习值softmax
softmax这个函数用于多分类任务，在我们使用中经常和交叉熵联合起来，至于交叉熵计算loss，以后看到了会写， ...
ID3与C4.5算法
写在开始在开始决策树算法之前，我们需要准备一些信息论的知识：信息熵条件熵信息增益交叉熵相对熵信息熵 ...
softmax与交叉熵
机器学习中经常遇到这几个概念，用大白话解释一下：一、归一化把几个数量级不同的数据，放在一起比较（或者画在一个数...
信息熵、交叉熵、相对熵
1 信息熵信息熵代表的是随机变量或整个系统的不确定性，熵越大，随机变量或系统的不确定性就越大。 1.1 举例题...
信息熵/相对熵/交叉熵
信息熵信息熵也被称为熵，用来表示所有信息量的期望。其中X是一个离散型随机变量。相对熵相对熵即KL散度。如果...
Udacity.深度学习.从机器学习到深度学习.2017-11-
1. 练习-softmax模型测试样例 2. 交叉熵 Multinomial logistic classifi...

网友评论

本文标题：归一化(softmax)、信息熵、交叉熵

本文链接：https://www.haomeiwen.com/subject/htoduktx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|归一化(softmax)、信息熵、交叉熵|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！