数据质量

作者: 严国华 | 来源:发表于2021-02-25 15:41 被阅读0次

浅谈数据质量管理:为了更清醒的数据

数据质量管理的一些思考

大数据Clouder认证:使用MaxCompute进行数据质量核查

度量的两个方面:

1、设计质量度量

数据资产目录 数据标准 数据模型 数据分布

2、执行质量度量

完整性 准确性 唯一性 一致性 及时性 有效性  (单列、跨列、跨行、跨表)

数据质量设计原则

1、关键环节注入监控流程 比如数据源接入、多维模型等

2、重要数据:事务数据、主数据、基础数据(数据字典)要进入监控流程;持续稳定的数据可以退出监控流程;价值密度低可以退出监控流程;

数据质量四部曲

策划、控制、度量、改进

扩展知识,实践经验:

打分机制:

指定表的质量KPI,针对表的故障率进行数据质量运营。

最主要的数据质量度量:

1、完整性:空值,数据量(是否漏传)等;

2、一致性:各层前后结果是否一致;

3、是否重复性:数据在单层是否重复

工具:

Griffin 功能有Bug 

Shell+Hive 建议(通过Web界面化)

各层校验规则:

ods层:

- 增量数据记录数(短期)设置合理值

- 全量数据记录数(长期)设置合理值

- 空值:

-重复值:使用不为空的字段校验

dwd层:

- 一致性 将需要一致性检测的字段,与ods层做关联join

- 重复性 使用不为空的字段校验

- 空值不需要检验:因为已经做了一致性校验了

dws/dwt层:

- 思路跟ods层一样

ads层:

- 判定指标是否在合理范围内,需设置合理值,与之对比,如超预期,展现层不体现该指标,并触发质量问题排查追踪(atlas追踪血缘关系,触发ETL流程)

数据质量修复:

1、数据丢失:按DT分区,重新导入

2、数据重复:分区表:按DT分区,删除分区所有数据,重新导入;全量表:重导一次

3、指标不符合正常规律:atlas追踪血缘关系,触发ETL流程

相关文章

  • 使用MaxCompute进行数据质量核查

    数据质量基本介绍 什么是数据质量? 数据质量顾名思义就是数据的质量 数据质量是数据分析结论有效性和准确性的基础,也...

  • 使用MaxCompute进行数据质量核查

    数据质量基本介绍 什么是数据质量? 数据质量顾名思义就是数据的质量 数据质量是数据分析结论有效性和准确性的基础,也...

  • 大数据Clouder认证:使用MaxCompute进行数据质量核

    数据质量基本介绍 什么是数据质量? 数据质量顾名思义就是数据的质量 数据质量是数据分析结论有效性和准确性的基础,也...

  • CDMP(Data Quality Management)

    数据质量管理 数据质量管理的思考 元数据为什么对数据质量管理如此重要 演进在数据质量问题中扮演什么角色 数据质量改...

  • 数据质量

    1.修正有效性 审查DBPedia 数据文件autos.csv中字段"productionStartYear" 的...

  • 数据质量

    浅谈数据质量管理:为了更清醒的数据[https://www.jianshu.com/p/931db6f8f12a]...

  • 数据质量

    Encoding Sanger / Illumina 1.9 [测序平台的版本和相应的编码版本号]Total...

  • 数据质量

    保障目标 准确、及时、完整、一致准确性:正确的描述对象;合规性:以标准、合规格式存储数据;一致性:同一指标数据值保...

  • 数据预处理

    一、引述 低质量的数据导致低质量的数据挖掘结果,因此需要对数据进行预处理,提高数据质量,提高数据挖掘结果。预处理技...

  • Enterprise Data At HUAWEI(六)

    基于PDCA的数据质量管理框架 什么是数据质量 华为数据质量指“数据满足应用的可信程度”,有以下6个维度 完整性:...

网友评论

    本文标题:数据质量

    本文链接:https://www.haomeiwen.com/subject/ookufltx.html