Python主要数据预处理函数

要介绍的Python中的插值、数据归一化、主成分分析等与数据预处理相关的函数。

Python主要数据预处理函数

函数名	函数功能	所属扩展库
interpolate	一维、高维数据插值	Scipy
unique	去除数据中的重复元素，得到单值元素列表，它是对象的方法名	Pandas/Numpy
isnull	判断是否空值	Pandas
notnull	判断是否非空值	Pandas
PCA	对指标变量矩阵进行主成分分析	Scikit-Leam
random	生成随机矩阵	Numpy

(1) interpolate

1)功能：interpolate是Scipy 的一个子库，包含了大量的插值函数，如拉格朗日插值、样条插值、高维插值等。使用前需要用 from scipy.interpolate import * 引入相应的插值函数，读者应该根据需要到官网查找对应的函数名。
2)使用格式：f = scipy.interpolate.lagrange(x, y)。这里仅仅展示了一维数据的拉格朗日插值的命令，其中 x,y 为对应的自变量和因变量数据。插值完成后，可以通过 f(a)计算新的插值结果。类似的还有样条插值、多维数据插值等，此处不一一展示。

(2) unique

1)功能：去除数据中的重复元素，得到单值元素列表。它既是 Numpy 库的一个函数(np.unique()),也是 Series 对象的一个方法。
2)使用格式：
□ np.unique(D), D 是一维数据，可以是 list、array、Series；
□ D.unique(), D 是 Pandas 的 Series 对象。
3)实例：求向量 A 中的单值元素，并返回相关索引。

import pandas as pd
import numpy as np
D=pd.Series([1,1,2,3,5])
print(D.unique())
print(np.unique(D))

[1 2 3 5]
[1 2 3 5]

(3)isnull/ notnull

1)功能：判断每个元素是否空值/非空值。
2)使用格式：D.isnull()/D.notnull()。这里的D要求是Series对象，返回一个布尔Serieso可以通过D[D.isnull()]或 D[D.notnull()]找出D中的空值/非空值。

(4) random

1)功能：random是Numpy的一个子库(Python本身也自带了random,但Numpy的更加强大)，可以用该库下的各种函数生成服从特定分布的随机矩阵，抽样时可使用。
2)使用格式：
□ np.random.rand(k,m,n,...)生成一个 $k\times m \times n \times …$ 随机矩阵，其元素均匀分布在区间(0,1)上；
□ np.random.randn(k,m,n,...)生成一个 $k\times m \times n \times …$ 随机矩阵,其元素服从标准正态分布。

(5)PCA

1)功能：对指标变量矩阵进行主成分分析。使用前需要用 from skleam.decomposition import
PCA引入该函数。
2)使用格式：model=PCA()。注意，Scikit-Leam下的PCA是一个建模式的对象，也就是说，一般的流程是建模，然后是训练 model.fit(D), D 为要进行主成分分析的数据矩阵，训练结束后获取模型的参数，如.components_获取特征向量，以及.explained_variance_ratio_ 获取各个属性的贡献率等。
3)实例：使用PCA()对一个 10x4 维的随机矩阵进行主成分分析。

from sklearn.decomposition import PCA
D = np. random. rand (10,4)
pca = PCA()
pca. fit (D)
print("模型的各个特征向量:")
print(pca.components_) #返回模型的各个特征向量
print("各个成分各自的方差百分比:")
print(pca.explained_variance_ratio_)  #返回各个成分各自的方差百分比

小结

数据预处理的4个主要任务：数据清洗、数据集成、数据变换和数据规约。

处理缺失值的方法分为3类：删除记录、数据插补和不处理，处理异常值的方法有删除含有异常值的记录、不处理、平均值修正和视为缺失值；数据集成是合并多个数据源中的数据，并存放到一个数据存储的过程，对该部分的介绍从实体识别问题和冗余属性两个方面进行；
数据变换介绍了如何从不同的应用角度对已有属性进行函数变换；
数据规约从属性（纵向）规约和数值（横向）规约两个方面介绍了如何对数据进行规约，使挖掘的性能和效率得到很大的提高。

通过对原始数据进行相应的处理，将为后续挖掘建模提供良好的数据基础。