(一)数据质量校验流程
数据仓库每天都有很多ETL任务定时执行加载数据,确保ETL加载数据的完整性、准确性是数据质量管理的基本要求。
1)日常数据校验
数据质量管理人员每天要对ETL加载任务执行情况进行检查。
数据校验方法选择
ETL任务数据质量校验要求必须采用以下三类方法中的至少一种来进行判断:记录数检查法;关键指标总量验证法;值域判断法。
数据校验周期
每天ETL加载任务比较多,如果全部执行数据校验需要的时间过长,因此根据每个主题数据的可信等级确定校验频率。
可信等级与校验频率的对应关系如下:
一级:每次加载都必须执行数据校验
二级:每三次加载执行一次数据校验
三级:每六次加载执行一次数据校验
对于需要特别保障的主题数据,可调整校验频率并额外增加经验审核法。
2)定时数据抽查
数据校验确保每天加载的增量数据的完整性、准确性,在此基础上,数据质量管理小组必须每季度组织一次数据仓库的定期抽查。
定期抽查的范围必须包括可信等级为一级的所有主题数据,可信等级为二级的二个主题的数据,可信等级为三级的一个主题的数据。
定期抽查必须采用数据质量评估方法中定义的所有方法。
3)全面数据检查
数据质量管理小组必须每年组织一次数据仓库的全面检查。
全面检查的范围包括企业数据中心平台所有主题的数据。
全面检查必须采用数据质量评估方法中定义的所有方法。
(二)数据异常处理流程
(1)数据质量管理人员发现数据差错应及时核对核实,根据核对核实情况填写数据问题处理单,描述数据质量问题的现状、原因和改正、预防措施。
(2)数据质量管理小组组长审批后,报数据中心主管部门批准后执行数据修正任务。
(三)数据质量的评估报告
最终根据数据质量检查的情况,数据质量管理小组会定期或不定期的生成相关的数据质量评估报告,数据质量报告分为两类:
每月定期提交的数据质量报告,即每月数据质量问题的陈述。
数据质量抽查或全面检查后提交的数据质量报告。
1.每月数据质量评估报告
每月的数据质量报告是在每月月末或者下月月初时编制的月度执行报告,数据质量管理小组会对当月数据质量情况进行汇总统计,并根据“数据质量问题频率”的变化情况对各个主题的等级进行检查策略的调整,报告格式如下:
A、非系统问题
(1)数据质量问题的现象
(2)业务数据范围
(3)问题陈述
B、系统问题
(1)数据质量问题的现象
(2)业务数据范围
(3)问题陈述
2.数据质量抽查或全面检查后提交的数据质量报告
数据质量抽查或全面检查报告是在每次进行完整个企业数据中心抽查或全面检查后编制的质量报告,同每月数据质量报告相比,除了要统计数据质量情况并重新划分主题等级外,还需要对整个质量体系运作的情况进行评估和改进,报告格式如下:
A、基本概况
包括:参与数据质量检查的相关组织与人员;数据质量检查的时间;数据质量检查的地点;数据质量检查的形式;数据质量检查的范围等方面的内容。
B、数据质量的检查与评价
(1)评价过程与步骤
(2)数据检查方式
主要分为全部检查和抽查。全检必须说明检查的范围、内容及方法。抽查必须说明抽样方案、过程及数据检查的范围、内容及方法。
(3)数据质量评价方法
C、数据质量评述与结论
(1)评述
对数据质量进行的综合描述(包括存在问题)。
(2)结论与建议
包括检查结果、可信等级调整建议等。