
relu理论上可以拟合任何复杂的函数,piece-wide function

shallow vs. deep: Deep needs fewer neurons
In shallow network, each neuron only provides one linear piece.
piece-wide function 折线的上限是
,其中n是relu的个数

deep
DNN的前面的layer更重要

DNN的损失函数不是凸函数,局部最小值基本就是全局最小,梯度为0的点叫做critical point

h是Hessian矩阵, g是梯度, Hessian矩阵用来帮助判断当前的critical point的性质

绿线是指包含g的曲线,红线是包含H的曲线

牛顿法通过H^-1一步可以直接计算到极致点

H能够告诉我们当前critical point的种类

正定矩阵

Hessian矩阵与极值点的关系

theta不管往哪个方向走,都是H特征向量的线性组合

Hessian例子

两个神经元连接的损失函数不是凸函数(一个神经元是凸函数,就是linear regression)
只要所有的hidden layer的size大于输入输出的size,找到的局部最小值一定是全局最小值
参数越多,critical point是saddle point(鞍点)的概率越大

BN的作用

skip connection的作用
sharpness
小batch训练的效果更好, 可能和sharpness有关

SELU, 输入输出的miu和方差趋近
best practice: standardscaler + selu + lecun_normal

SELU性能很好
GAN
DCGAN的技巧:使用leaky relu, BN, Generator最后一层的激活函数使用tanh
,优化器使用Adam
网友评论