美文网首页
机器学习面试004—正则化

机器学习面试004—正则化

作者: Silence_Dong | 来源:发表于2018-08-15 00:00 被阅读0次

1. L1范数和L2范数的区别是什么?

imageimage

Ans:①L1范数——指向量中各个元素的绝对值之和,又叫“稀疏规则算子”(Lasso regularization)。它可以实现特征的自动选择,一般,大部分特征xy没有多大关系,在最小化目标函数时,考虑这些额外的特征虽然能减少训练误差,但是在预测新样本时,会干扰模型对正确结果的预测。L1算子可以学习去掉这些没有信息的特征,让其对应的权重为0。
L2范数——在回归里面,又称“岭回归”(Ridge Regression),有时也被称为“权值衰减”(weight decay)。它可以解决过拟合,使得w的每个元素都很小(接近0),但不会置为0.
③加入正则相当于加入了一种先验L1相当于加入了Laplacean先验;L2相当于加入了Gaussian先验。

2. 机器学习中,为何要常对数据进行归一化?

2.1归一化能够提高梯度下降的最优解求解速度。

详细参考斯坦福视频:https://class.coursera.org/ml-003/lecture/21

imageimage

如上图所示,蓝色线代表特征等高线,X1和X2的特征区间相差很大,当使用梯度下降法求解时,很可能走“之字型”路线(垂直等高线),从而需要迭代很多次才能收敛;
归一化后,等高线显得很圆,梯度下降能很快收敛。

2.2 归一化,有可能提高精度

一些分类器需要计算样本之间的距离(如kNN中的欧式距离)。如果一个特征值范围非常大,那么距离计算就主要取决于这个特征。

  • 线性归一

x = x - min(x) / max(x) - min(x)

  • 标准化归一

x = x - μ / σ

  • 非线性归一化
    经常用在数据分化比较大的情况,如log2,log10

3. 哪些机器学习算法不需要做归一化

概率模型(或树形模型),如决策树,随机森林

3.1为什么树形结构不需要归一化?

数值缩放,不影响分裂点的位置。

因为第一步都是按照特征值进行排序,排序不变,所属的分支和分裂点就不会不同。一般树形结构不能进行梯度下降
因为树模型是阶跃的,阶跃点不可导,所以树模型寻找最优点是通过寻找最优分裂点完成的。

相关文章

网友评论

      本文标题:机器学习面试004—正则化

      本文链接:https://www.haomeiwen.com/subject/tjaybftx.html