一、数据清洗
1.1对缺失值的处理
定范围
定量:了解数据库中哪些字段有缺失,缺失比例如何。
定性:明确有缺失数据的字段重要性如何。
删字段
补数据
业务知识/经验填充。
使用均值、中位数、众数进行填充和补全。
1.2异常值
unix时间戳
1.3归一化
为何需要归一化
避免极值问题。一些算法模型需要将数据进行归一化作为输入。
如何进行归一化
最值归一化
最值化归一是使用一组数据中的最大值和最小值进行归一化的策略。这样的方式适用于有限定范围的数据,所采用的公式如下:
均值方差归一化
均值方差归一化适用于没有明显边界的数据,而且最好是正态分布的数据。
标准差:方差的算术平方根。所有数减去其平均值的平方和,所得结果除以该组数之个数(或个数减一,即变异数),再把所得值开根号,所得之数就是这组数据的标准差。
方差:
非线性归一化
非线性化归一适用于处理极值情况,如展示10与100000的情况,当我们采用log运算进行非线性归一化的时候,就变成了log(10)=1<log(100000)=5,这样两个数在表格上就可以等量齐观地进行展示了。
log:对数是对求幂的逆运算。
网友评论