Regression:系统的输出是一个标量
Classification:在输出中多选一
- 线性
- 非线性:DeepLearning SVM decision-tree KNN...
Transfer Learning:训练过的系统可以分类大象、猴子。那么它对识别猫狗有什么帮助
Unsupervised Learning:Machine Drawing
Structured Learning:
Reinforcement Learning:从评价中去学习,没有数据去做supervised learning的时候做
Regression
天气预测,股价预测,自动驾驶等等
bias 偏差 模型对于数据的拟合度 欠拟合的模型 高偏差
variance 方差 对于数据改变的敏感性 过拟合的模型 高方差
bias vs. variance
AdaGrad自适应学习率的梯度下降
核心思想:每个参数第t次的学习率都会除以之前所有微分的均方根
Stochastic Gradient Descent 随机梯度下降
半监督学习
概念:部分数据没有label
自学习
训练的时候,先用有label的数据进行模型训练,然后将模型用于没有label的测试数据。然后将部分训练数据放回训练集重新训练模型(放回的规则自定义)
这种方法不适用于回归问题,原因是哪些放进训练集的数据对模型不会有任何影响。(是不是显而易见)
hard label vs soft label, NN中用hard label
没有label的数据,用作熵正则项,对模型进行训练
loss function
Smoothness Assumption
x2,x3虽然比较近,但是x1,x2之间有high density path
方法:cluster and then label (聚类)
对于图像,先用deep autoencoder抽取特征,再做聚类
定义相似度函数 e-neighborhood表示达到相似度阈值了才能算是邻居
如何计算平滑度
平滑度数学表达
如果xi,xj距离很近,我们希望他们的label yi, yj距离也很近
非监督学习
- 聚类、降维
- generation生成
PCA
W的2norm等于1,则点积的值就是投影
w的个数是要降到的维数吗,求解W用
数学推演,w1是x的协方差矩阵最大特征值所对应的的特征向量
PCA可以用奇异值分解SVD来求解
LLE
xi是多个邻接点xj的线性组合
xi降维到zi,xj降维到zj,保持wij不变
对zi的限制
上面这些算法的问题是没有定义如果xi,xj距离很远,zi,zj应该是什么关系
t-SNE
P和Q相当于把相似度做了归一化,tSNE的想法就是降维前后的相似度分布元接近越好
常用于高维数据在低维空间的可视化
AutoEncoder
降维
PCA的神经网络版本
image.png
关键是code有多好,能不能进行区分,上面是PCA,下面是auto encoder
为了encode更好,可以在数据上加一些噪声
unpooling
deconvolution
图像生成
Pixel RNN
VAE
VAE可以控制输出,学习出来的code中,每一项都在图中都有实际意义,比如头发长度,眼睛大小等等。
最小化输入输出差异的同时,还需要最小化下面这一项,为了限制训练出来的方差不能太小,否则都是0了
VAE与高斯混合模型的关系
VAE的局限:始终没有学着生成新的图片
GAN generative adversarial network
generator(decoder in VAE)
discriminator
调参很困难 没有明确的信号告诉你目前的generator是不是足够好
Transfer Learning
target data (与Task相关的数据)
source data (与Task没有直接关系的数据)
one shot learning (target data很少)
transfer learning 分类
fine tune
- fine tune的时候加regularization (比如新模型和旧模型差异的L2)
- fine tune 部分层 (语音辨识一般fine tune 前面几层,图像识别一般是fine tune后面几层)
Multitask Learning
Multitask
Domain-adversarial training (GAN的一种)
task description
如果用传统的神经网络,source和targetd的feature分布可能是完全不相干的,如图中的蓝色和红色,我们希望有一种办法,让两者的分布尽量相同
引入domain classifier
feature extractor 要对抗domain classifier, 尽量让domain classifier分不清输入的图像是来自哪个domain
核心优化算法
Zero shot learning
task description
一种思想:找到比分类本身更小的元素(特征)
image.png
SVM
SVM=hinge loss + kernel method
delta不可微分,所以不能GD
ideal loss是不可微分的,hinge loss (60分就好, 超过margin1 就好)
Linear SVM
SVM可以用GD的
训练出来的模型参数W其实就是所有训练数据的线性组合。由于hingeloss的特性,alfa是一个稀疏矩阵(不是所有的xn都会加到w里去),不为0的那些训练数据就是支持向量
kernel function
K相似度函数,不同的kernel,即不同的相似度函数,x_test与每一个x_train计算相似度
rbf kernel
Regression:
SVR: 在某个距离范围内loss就是0
Structured Learning
例子:目标检测的bounding box
image.png
举个栗子
RNN
RNN结构
举个栗子
xt做线性变换成z 每个z都是Vector,z的每个维度操控LSTM每个cell的输入
image.png
Attention based model
image.png
image.png
Speech Question Answering










网友评论