• 大数据之数据质量检查


    数据质量常从八大基本要素(准确性、及时性、即时性、真实性、准确性、完整性、安全性和扩展性)入手,制定全集团范围内的数据质量度量标准,而八大基本要素又可以分别从单列、跨列、跨行和跨表几个角度进行分析

    检查类型说明单列跨列跨表跨行
    完整性主要包括实体缺失、属性缺失、记录缺失和字段值缺失四个方面---主外键完整性检查
    例如:楼盘表中的城市代码地行政区划主数据表中不存在
    不可为空类1.应为空值类,属性满足某些条件下不可维护值
    2.不应为空值,属性满足某些条件下必须维护值
    1.外关联约束类,如楼盘表中的城市必须在城市维表中存在
    及时性指数据提取、传送、处理、装载、展现的及时和快速性
    有效性主要包括值域和业务规则的有效性1.语法约束类,如,身份证号符合国家标准要求
    2.格式规范类,如,日期格式检查
    3.长度约束类,如,楼盘ID长度8位以上
    4.值域约束类,如:楼栋高度在0-100之间
    1.业务规则约束类,
    唯一性指主键唯一和候选键唯一两个方面记录唯一类,如:楼盘ID不可重复出现
    一致性指统计口径上数据使用的一致性,系统间,表与表之间数据的一致性(可以扩展为数据波动性检查)1.单表等值一致约束类,如上刊率=上刊时长/可用上刊时长
    2.单表逻辑一致约束类,如合同的结束日期不能早于开始日期
    1.跨表等值一致约束类,如:同一指标在多表中存在,需要保持数据值一致
    准确性指计量误差、度量单位等方面的精确度
    内容正确、格式合法、数据唯一、脏数据
    准确性--波动性数据量在不同时间段的波动,根据设置的阈值,来判断合理性。
    全安性主要包括数据在传输、使用过程中的安全性
    扩展性该系统数据体系在不满足业务需求时进行扩展的可能性与复杂度
  • 相关阅读:
    【云原生之Docker实战】使用docker部署IT资产管理系统GLPI
    RxJava操作符
    SpringBoot主启动类使用@ComponentScans、@ComponentScan扫描组件类,注意避坑
    cuda和cudnn和tensorrt的理解
    mybatis实现插入数据时获取主键
    vue2,3生命周期
    【开源】课程管理平台 JAVA+Vue.js+SpringBoot+MySQL
    mybatis <if>标签判断“0“不生效
    【Autopsy数字取证篇】Autopsy案例创建与镜像分析详细教程
    创建简单的 Docker 数据科学映像
  • 原文地址:https://blog.csdn.net/sdl_ok/article/details/127692149