正文共: 2919字 6图
1.概览
-
嵌入,矩阵乘积内的一环,拆解后可改造,加入Bias,然后提高准确率
-
反向传播,训练一波数据的过程(根据loss func 调整 parameters的过程)
-
从零开始创建CNN,通过Adam算法加速SGD
2.1 机器学习概念
-
-
Parameters:相当于烹饪手法,也叫Weights
-
Activations:相当于食材
-
Affine Function 仿射函数:相当于炒菜的过程,约等于矩阵乘积,因为用Activations与Parameters进行矩阵乘积时,准说说是Affine Function在工作
-
Activation Function 激活函数:相当于装盘的过程,把原有的食材位置不变,换一种展示方式,比如ReLU= max(0,x)就是把小于零的部分直接转化成0;Sigmoid,将所有数转化到0,1区间
-
Universal Approximation Theorem 通用逼近定理:核心构成要素是Affine Function和Activation Function,可以定义任意函数
-
-
Bias:一种特殊的Factor,反应的是一种客观事实,比如这个电影就是很多人都喜欢,而这个参数不会受到反向传播的影响
-
Factors:用户喜欢一个电影的原因,比如有xx明星,是喜剧,是新电影
-
2.2 FastAI概念
-
ResNet34:能区分1000种物体的图像分类模型
-
Create_CNN:就是一个迁移学习的过程,把最后一层的Weight,拆成2个,中间放个ReLU,因为不需要识别那么多物种,可能只需要3-5种;然后把之前的Weight都Freeze,这样反向传播的时候不会影响到之前的层
-
Unfreeze:解冻整个模型,就是反向传播可以作用在所有层的Weights上
-
Freeze_to:冻结到倒数第几层
-
Discriminative Learning Rates 有差别的学习率:learn.fit_one_cycle(1, lr=1e-3))
-
只有一个lr,就所有层都应用这个
-
slice(1e-3):最后一层是1e-3,之前都是1e-3/3
-
slice(1e-5,1e-3):最后一层1e-3,第一层1e-5,中间等间距分布
-
Adam :就像股票中买a,b两只股票,假设长期市值是趋于稳定的,希望通过合理的资产配置,来达到收益最大化,Adam同时使用Momentum和RMSProp两种策略
-
原始SGD:跌了就抛,涨了就买,于是频繁的在a,b股票中移动资金,到最后没挣几个钱
-
Momentum:将本次涨跌只作为10%的因素,剩下90%是基于上次的判断,于是会更快找到合理的配置比例
-
RMSProp:累积变化幅度,如果a的梯度每次都很大,则a少变一点,就像有些股票每次涨跌幅度都很大
-
-
-
softmax:一种激活函数,让所有数字相加等于1,换句话说就是求每个值的占比
2.3 Python命令
-
a.sub_:a = a - x
-
pickle.load:ptyhon的一种文件格式,通过load读取
-
open_image(path/'black'/'00000021.jpg’):显示图像,还有如下3种常见的
-
data.show_batch(rows=3, figsize=(7,6))
-
plt.imshow(x_train[0].reshape((28,28)), cmap="gray") x_train.shape
-
interp.plot_top_losses(9, figsize=(15,11))
2.4 Pytorch命令
x,y = next(iter(data.train_dl)):获取DataLoader里的下一个mini-batch
3 如何从头创建一个神经网络,通过3个例子来演示,主要包含forward和backward两部分:
L1 最原始的线性拟合SGD
Forward:
y_hat = x @ a
Backward:
def update():loss = mse(y, y_hat)if t % 10 == 0: print(loss)loss.backward()with torch.no_grad():a.sub_(lr * a.grad)a.grad.zero_()
L2 手写数字拟合 Mnist_Logistic
Forward:
class Mnist_Logistic(nn.Module):def __init__(self):super().__init__()self.lin = nn.Linear(784, 10, bias=True)def forward(self, xb): return self.lin(xb)
Backward:
def update(x,y,lr):wd = 1e-5y_hat = model(x)# weight decayw2 = 0.for p in model.parameters(): w2 += (p**2).sum()# add to regular lossloss = loss_func(y_hat, y) + w2*wdloss.backward()with torch.no_grad():for p in model.parameters():p.sub_(lr * p.grad)p.grad.zero_()return loss.item()
L3 多层加速手写数字拟合 Mnist_NN
Forward:
class Mnist_NN(nn.Module):def __init__(self):super().__init__()self.lin1 = nn.Linear(784, 50, bias=True)self.lin2 = nn.Linear(50, 10, bias=True)def forward(self, xb):x = self.lin1(xb)x = F.relu(x)return self.lin2(x)
def update(x,y,lr):opt = optim.Adam(model.parameters(), lr)y_hat = model(x)loss = loss_func(y_hat, y)loss.backward()opt.step()opt.zero_grad()return loss.item()








网友评论