美文网首页selector
数据清洗的步骤是什么(上)

数据清洗的步骤是什么(上)

作者: CDA数据分析师培训 | 来源:发表于2019-03-25 17:32 被阅读0次

数据清洗工作是数据分析工作中不可缺少的步骤,这是因为数据清洗能够处理掉肮脏数据,如果不清洗数据的话,那么数据分析的结果准确率会变得极低。另外数据清洗工作占据数据分析工作整个过程的七成以上的时间,所以说我们要格外的重视数据清洗工作,那么数据清洗的步骤是什么呢?下面我们就给大家解答一下这个问题。

数据分析工作之前,需要对数据进行预处理,在数据预处理阶段,我们需要做两件事情,第一就是吧数据导入处理工具。通常来说,建议使用数据库,单机跑数搭建MySQL环境即可。如果数据量大,可以使用文本文件存储+Python操作的方式。第二就是看数据。看数据包含两个部分,第一就是看元数据,包括字段解释、数据来源、代码表等等一切描述数据的信息,第二就是抽取一部分数据,使用人工查看方式,对数据本身有一个直观的了解,并且初步发现一些问题,为后面的处理工作做准备。

数据清洗的第一步就是对缺失值进行清洗,一般来说,缺失值是最常见的数据问题,处理缺失值也有很多方法,我们需要按照步骤来做,第一就是确定缺失值范围:对每个字段都计算其缺失值比例,然后按照缺失比例和字段重要性,分别制定策略。第二就是去除不需要的字段,实际操作中是十分简单的,我们直接删掉就可以了,不过需要提醒大家的是,清洗数据的时候每做一步都备份一下,或者在小规模数据上试验成功再处理全量数据,如果删错数据就会追悔莫及。第三步就是填充缺失内容,这是因为某些缺失值可以进行填充,方法有三种,分别是以业务知识或经验推测填充缺失值、以同一指标的计算结果(均值、中位数、众数等)填充缺失值、以不同指标的计算结果填充缺失值。第四个步骤就是重新取数,这是由于某些指标非常重要又缺失率高,那就需要和取数人员或业务人员了解,是否有其他渠道可以取到相关数据。这就是缺失值清洗的步骤。

在这篇文章中我们给大家介绍了关于数据清洗的相关知识,具体就是对缺失值的清洗方法。当然,数据清洗的数据类型还有两种,由于篇幅原因我们就给大家介绍到这里了,我们会在后面的文章中继续为大家介绍。

相关文章

  • 数据清洗的步骤是什么(上)

    数据清洗工作是数据分析工作中不可缺少的步骤,这是因为数据清洗能够处理掉肮脏数据,如果不清洗数据的话,那么数据分析的...

  • 2. SPSS基本使用:数据清洗

    一、数据清洗的总体步骤 打开telco.sav文件 看下数据清洗的步骤,要拷贝(因为这里是样本,所以不用做这一步)...

  • 缺失值处理1

    数据预处理步骤有数据清洗、数据集成、数据变换、数据规约。实际工作中不是每一步都必须。 数据清洗包括缺失值和异常值,...

  • 20190811各模型建立流程归纳

    一、线性回归模型建立流程 九大步骤: 1、明确需求(确定因变量Y是什么) 2、数据清洗,并不是删除数据 2...

  • TorchText数据清洗与加载

    流程:1、数据清洗2、数据加载 基本步骤1、Load2、Split -> (train, validation, ...

  • 数据清洗的步骤和方法

    数据清洗主要是把有用的数据留下,无用的数据删掉。 1.去除重复的数据 Pandas库:duplicated():找...

  • 数据预处理

    总 数据预处理包括数据清洗、无量纲化、特征分桶、统计变换和特征编码等步骤, 数据清洗 无量纲化 说明 一般而言,原...

  • 大数据进行数据清洗的基本流程【详细讲解】

    数据清洗的基本流程一共分为5个步骤,分别是数据分析、定义数据清洗的策略和规则、搜寻并确定错误实例、纠正发现的错误以...

  • 大数据进行数据清洗的基本流程

    数据清洗的基本流程一共分为5个步骤,分别是数据分析、定义数据清洗的策略和规则、搜寻并确定错误实例、纠正发现的错误以...

  • 机器学习算法之交叉验证

    我们一般解决机器学习问题的步骤如下:1.拿到数据集,对数据集进行清洗。数据集清洗一般包括以下几个方面:重复值处理,...

网友评论

    本文标题:数据清洗的步骤是什么(上)

    本文链接:https://www.haomeiwen.com/subject/wepbvqtx.html