美文网首页
2019-04-03

2019-04-03

作者: AliceGYY | 来源:发表于2019-04-03 10:39 被阅读0次

一、数据清洗

1.1对缺失值的处理

定范围

定量:了解数据库中哪些字段有缺失,缺失比例如何。

定性:明确有缺失数据的字段重要性如何。

删字段

补数据

业务知识/经验填充。

使用均值、中位数、众数进行填充和补全。

1.2异常值

unix时间戳

1.3归一化

为何需要归一化

避免极值问题。一些算法模型需要将数据进行归一化作为输入。

如何进行归一化

最值归一化

最值化归一是使用一组数据中的最大值和最小值进行归一化的策略。这样的方式适用于有限定范围的数据,所采用的公式如下:

X归一化后=(X归一化前-X最小值)/X(最大值-X最小值)

均值方差归一化

均值方差归一化适用于没有明显边界的数据,而且最好是正态分布的数据。

X归一化后=(X归一化前-均值)/标准差

标准差:方差的算术平方根。所有数减去其平均值的平方和,所得结果除以该组数之个数(或个数减一,即变异数),再把所得值开根号,所得之数就是这组数据的标准差。

方差:s^2=\frac{1}{n}[(x_{1} -x)^2+(x_{2} -x)^2+...+(x_{n} -x)^2]

非线性归一化

非线性化归一适用于处理极值情况,如展示10与100000的情况,当我们采用log运算进行非线性归一化的时候,就变成了log(10)=1<log(100000)=5,这样两个数在表格上就可以等量齐观地进行展示了。

log:对数是对求幂的逆运算。

相关文章

网友评论

      本文标题:2019-04-03

      本文链接:https://www.haomeiwen.com/subject/pffabqtx.html