softmax常用来进行多分类,假如有一个4x1向量=[5,2,-1,3],softmax的计算过程如下所示


下式中是标签,
是输出预测值。假设
=[0,1,0,0],
=[0.3,0.4,0.1,0.2]
单个训练样本损失函数
(
,
) = —
根据上面的例子,在
2时,式子值为0,
=2时,
=1,综上L(
,
)=
,损失函数通过学习变小,
则变大,又softmax输出的所有概率和为1,所以理想状态下
会趋近于1
下式的,
是softmax需要学习的权重和偏移。
训练集的损失函数
(
,
,... )=
(
,
)
整个训练集损失就是把训练算法对所有训练样本的预测都加起来,再除以样本数。
网友评论