背景

类似于智能手表等移动设备，资源、空间有限，大而深的网络显然不能直接应用，因此需要Network Compression。

OUTLINE

Network Pruning

Knowledge Distillation

Parameter Quantization

Architecture Design

Dynamic Computation

Network Pruning

神经网络很多都是over-parameters，很多neuron没有起作用（输出为0）、很多weight接近0，对输出结果影响不大，因此可以将神经网络简化（prune）。

Pruning 的步骤

Pruning的步骤

将不太重要的结点（neuron）删掉，会导致准确度有所下降，然后再用训练集进行fine-tuning（微调），帮助神经网络恢复准确度。

为什么不直接用小的神经网络呢？

大型的神经网络比小型的神经网络更容易optimize（梯度下降过程更容易调整参数从而找到全局最优解）。

实际问题

实际问题1

对weight进行prune后，网络结构变得不太规则，因此会比较难加速。

实际问题2

但是对neuron进行prune，直接将某个neuron拿掉，前后的weight直接去掉，network还是规则的，比较容易加速。

Knowledge Distillation

Knowledge distillation是先训练一个较大的网络（Teacher Net），然后再用这个较大的网络去训练一个较小的网络（Student Net）。

Knowledge Distillation 1

Why？

1.Student Net可以从Teacher Net处学习到更多的知识。比如上图，若用数字“1”去训练网络，那么最后网络只知道这是数字“1”。但是用Teacher Net的结果去训练，Student Net则不仅知道是数字“1”，还知道数字“7”、“9”和“1”很接近，这样即使没有见过“7”、“9”，也能识别出来；

2.可以以较小的网络架构学习到复杂的关系。如下图所示，若Teacher Net是多层网络ensemble的，Student Net可以凭借着简单的网络结构来学习到复杂的关系。

Knowledge Distillation 2

3.通过控制蒸馏温度T，Student Net学习的效果与gound truth更加接近，如下图所示。

Knowledge Distillation 3

Parameter Quantization

Architecture Design

low rank approximation

在hidden layer中，从N到M层的（fully-connected）参数可以表示为W。Low rank approximation的方法就是在M和N层之间引入一个线性的hidden layer K，当K的值不算太大时，参数就会由原来的M*N显著下降到K*(M+N)。但是这样也有一定的不足，就是rank会变小，而且M*K和K*N不完全能够实现M*N的所有功能。