美文网首页
sklearn学习笔记——稳健回归分析

sklearn学习笔记——稳健回归分析

作者: 龙鹰图腾223 | 来源:发表于2019-10-10 12:07 被阅读0次

1、零碎的概念学习

Stochastic Gradient Descent   随机梯度下降法

Perceptron  感知机

Hinge Loss (折页损失函数、铰链损失函数)

Hinge Loss是一种目标函数(或者说损失函数)的名称,有的时候又叫做max-margin objective。其最著名的应用是作为SVM的目标函数。

其二分类情况下,公式如下: 

l(y)=max(0,1−t⋅y)

其中,y是预测值(-1到1之间),t为目标值(±1)。

其含义为,y的值在-1到1之间就可以了,并不鼓励|y|>1,即并不鼓励分类器过度自信,让某个可以正确分类的样本距离分割线的距离超过1并不会有任何奖励。从而使得分类器可以更专注整体的分类误差。

【1】https://www.cnblogs.com/yymn/p/8336979.html    损失函数:Hinge Loss(max margin)

2、Robustness regression

Robustness regression: outliers and modeling errors

稳健拟合的一个重要概念是分解点(breakdown point):在拟合开始丢失内联数据时,可能偏离的数据部分。

一般来说,在高维设置(大n_特征)中进行稳健拟合非常困难。这里的健壮模型可能在这些设置中不起作用。

RANSAC: RANdom SAmple Consensus  样本随机一致性

ransac是一种不确定的算法,只产生一个具有一定概率的合理结果,这取决于迭代次数(见max_trials参数)。它通常用于线性和非线性回归问题,特别是在摄影测量计算机视觉领域。

该算法将完整的输入样本数据分割成一组可能受到噪声影响的内联和异常值,这些异常值例如由错误的测量或无效的数据假设引起的。然后,只根据确定的内联函数来估计得到的模型。

泰尔森回归:与ols相比,theil-sen是一种非参数方法,这意味着它不假设数据的潜在分布。由于theil-sen是一种基于中值的估计量,因此它对损坏的数据(也就是离群值)更为稳健。在单变量设置中,如果是简单的线性回归,Theil-Sen的崩溃点约为29.3%,这意味着它可以容忍高达29.3%的任意损坏数据。

由于theil-sen的计算复杂性,建议使用它只针对小问题的样本数量和特征。

HuberRegressor与Ridge不同,因为它对分类为异常值的样本应用线性损失。如果样本的绝对误差小于某个阈值,则将该样本分类为内联样本。它不同于TheilsenRegressor和RansacRegressor,因为它不忽略异常值的影响,但给予它们较小的权重。

相关文章

网友评论

      本文标题:sklearn学习笔记——稳健回归分析

      本文链接:https://www.haomeiwen.com/subject/gcjwuctx.html