老师模型的输出提供了比目标数据集更加丰富的信息,如下图所示,老师模型的输出,不仅提供了输入图片上的数字是数字1的信息,而且还附带着数字1和数字7和9比较像等额外信息。
从上面的说明可以看出,其实知识蒸馏的本质是老师模型从数据中学出了一些dark knowledge,比如在mnist数据集上,数字1可能和7更加像,而和其他数字相像的程度就不太高,这体现在老师模型输出的各个数字的概率上。如果直接用学生模型在数据集上训练,可能也可以一点程度学到dark knowledge,但学生模型的学习能力比老师模型的弱,所以老师模型能学到的更多。由老师模型把这些dark knowledge指明给学生模型学习,让学生模型达到更好的效果。
好,那么问题来了,两个结构不同的模型,是否可以相互作为老师模型,以抓取不同的结构可以学到的不同特征。
网友评论