美文网首页
由知识蒸馏的论文想到一个idea

由知识蒸馏的论文想到一个idea

作者: 半笔闪 | 来源:发表于2019-12-31 14:52 被阅读0次

老师模型的输出提供了比目标数据集更加丰富的信息,如下图所示,老师模型的输出,不仅提供了输入图片上的数字是数字1的信息,而且还附带着数字1和数字7和9比较像等额外信息。

从上面的说明可以看出,其实知识蒸馏的本质是老师模型从数据中学出了一些dark knowledge,比如在mnist数据集上,数字1可能和7更加像,而和其他数字相像的程度就不太高,这体现在老师模型输出的各个数字的概率上。如果直接用学生模型在数据集上训练,可能也可以一点程度学到dark knowledge,但学生模型的学习能力比老师模型的弱,所以老师模型能学到的更多。由老师模型把这些dark knowledge指明给学生模型学习,让学生模型达到更好的效果。
好,那么问题来了,两个结构不同的模型,是否可以相互作为老师模型,以抓取不同的结构可以学到的不同特征。

相关文章

网友评论

      本文标题:由知识蒸馏的论文想到一个idea

      本文链接:https://www.haomeiwen.com/subject/jwiboctx.html