Feature Scaling-特征缩放

作者: 博士伦2014 | 来源:发表于2018-09-29 10:08 被阅读0次

Feature Scaling-特征缩放
Batch Normalization
Spark -- 数据的特征缩放
Feature Scaling(特征缩放)
特征缩放 Feature Scaling
数据预处理常见问题
2018-12-06梯度下降运算中的实用技巧
数据清洗和特征选择：特征放缩与One Hot编码
3. 机器学习之特征选择
机器学习笔记6-特征选择和特征提取

特征缩放

机器学习项目中，我们需要应用于数据的最重要的转换之一是特征缩放。除了少数例外，当输入数字属性具有非常不同的比例时，机器学习算法表现不佳。住房数据就是这种情况：房间总数在6到39,320之间，而收入中位数的范围只有0到15.请注意，通常不需要缩放target values。有两种常用方法可以使所有属性具有相同的比例：min-max缩放和标准化

最小-最大缩放-Min-max scaling（许多人称之为normalization）：移动和重新调整值，使它们范围变成[0,1]。我们通过(X-Xmin)/(Xmax-Xmin)来实现。为此，Scikit-Learn提供了一个名为MinMaxScaler的transformer。它有一个feature_range超参数，如果由于某种原因你不想要[0,1]，它可以让你改变范围。
标准化-Standardization是完全不同的：它首先减去平均值（如此标准化值总是具有零均值），然后它除以方差，以便得到的分布具有单位方差。与最小-最大缩放不同，标准化不将值缩放到特定范围，这对于某些算法可能是一个问题（例如，神经网络通常期望输入值范围是从0到1）。但是，标准化受异常值的影响要小得多。例如，假设一个地区的收入中位数等于100（错误地）。然后，最小-最大缩放将所有其他值从0-15压缩到0-0.15，而标准化不会受到太大影响。 Scikit-Learn提供了一个名为StandardScaler的transformer用于标准化。