数据质量常从八大基本要素(准确性、及时性、即时性、真实性、准确性、完整性、安全性和扩展性)入手,制定全集团范围内的数据质量度量标准,而八大基本要素又可以分别从单列、跨列、跨行和跨表几个角度进行分析
检查类型 | 说明 | 单列 | 跨列 | 跨表 | 跨行 |
完整性 | 主要包括实体缺失、属性缺失、记录缺失和字段值缺失四个方面---主外键完整性检查 例如:楼盘表中的城市代码地行政区划主数据表中不存在 | 不可为空类 | 1.应为空值类,属性满足某些条件下不可维护值 2.不应为空值,属性满足某些条件下必须维护值 | 1.外关联约束类,如楼盘表中的城市必须在城市维表中存在 | |
及时性 | 指数据提取、传送、处理、装载、展现的及时和快速性 | ||||
有效性 | 主要包括值域和业务规则的有效性 | 1.语法约束类,如,身份证号符合国家标准要求 2.格式规范类,如,日期格式检查 3.长度约束类,如,楼盘ID长度8位以上 4.值域约束类,如:楼栋高度在0-100之间 | 1.业务规则约束类, | ||
唯一性 | 指主键唯一和候选键唯一两个方面 | 记录唯一类,如:楼盘ID不可重复出现 | |||
一致性 | 指统计口径上数据使用的一致性,系统间,表与表之间数据的一致性(可以扩展为数据波动性检查) | 1.单表等值一致约束类,如上刊率=上刊时长/可用上刊时长 2.单表逻辑一致约束类,如合同的结束日期不能早于开始日期 | 1.跨表等值一致约束类,如:同一指标在多表中存在,需要保持数据值一致 | ||
准确性 | 指计量误差、度量单位等方面的精确度 内容正确、格式合法、数据唯一、脏数据 | ||||
准确性--波动性 | 数据量在不同时间段的波动,根据设置的阈值,来判断合理性。 | ||||
全安性 | 主要包括数据在传输、使用过程中的安全性 | ||||
扩展性 | 该系统数据体系在不满足业务需求时进行扩展的可能性与复杂度 |