数据预处理目的
保证数据的质量,包括确保数据的准确性、完整性和一致性
主要任务
数据清理
填写缺失的值、光滑噪声数据、识别或者删除离群的点,先解决这些脏数据,否者会影响挖掘结果的可信度
噪声数据:所测量数据的随机误差或者方差
数据集成
比如,将多个数据源上的数据合并,同一个概念的数据字段可能名字不同,导致不一致和冗余,这里需要处理
数据规约
将巨大的数据规模变小,又不损害数据的挖掘结果,比如在数学建模里通过SPSS来降维,包括维规约(主成分分析法)和数值规约(数据聚集或者是回归)
回归:用一个函数拟合数据来光滑数据
离群点分析:通过聚类来检测离群点,聚类将类似的值组织成一个群或者簇,落在群或者簇的值视为离群点
数据清理是一个过程
数据清理第一步就是偏差检测
元数据:使用任何你可能具有的相关数据性质的知识,这种知识或“关于数据的数据”就是元数据
可以使用数据清洗工具(比如简单的拼写错误)和数据审计工具(分析数据发现规则和联系)进行偏差检测,使用数据迁移工具进行数据变换
合并来自多个数据存储的数据
冗余和相关分析
一个属性(例如,年收入)如果能由另一个或另一组属性“导出”,则这个属性可能是冗余的。属性或维命名的不一致也可能导致结果数据集中的冗余
有些冗余可以被相关分析检测到。给定两个属性,这种分析可以根据可用的数据,度量一个属性能在多大程度上蕴涵另一个。对于标称数据,我们使用χ2(卡方)检验。对于数值属性,我们使用相关系数(correlation coefficient)和协方差(covariance),它们都评估一个属性的值如何随另一个变化。
1.标称数据的χ2相关检验
概率论数理统计那一块的知识
举个例子
(点击图片链接查看)















网友评论