• 软信天成:如何提高云数据仓库的数据质量?


    随着云计算的深入普及、5G和边缘计算等技术带来了数据量的爆发增长,数据驱动商业运作向实时化和自动化迈进,越来越多的企业开始考虑嵌入基于云计算的企业数据仓库,以Snowflake、Microsoft Synapse Analytics、Google BigQuery、Amazon Redshift等为代表的云数据仓库或成为数据时代的核心基础设施。

    对于企业而言,云数据仓库能够提供大数据所需的快速供给、无限可扩展性、分析处理所需的高性能、即用即付的定价模式、低基础设施和IT成本、无缝升级和快速技术创新等众多优势。然而,要想支撑组织管理层做出关键决策,云数据仓库中存储的数据就必须及时、可信。

    优质的数据一直是企业开展个性化、人工智能推动的预测分析、自助分析等各项业务活动的先决条件。近年来,云数据仓库变得更加复杂,数据和数据类型也在日益增长,数据质量维护工作面临巨大挑战。IDC的研究报告指出,有60%的组织认为,在数字化转型过程中,数据质量是企业面临的主要挑战之一。卓越的优质数据是企业从云数据仓库中获得最佳投资回报率的基础前提,因此,针对如何提高云数据仓库的数据质量,确保数据优质适用,软信天成将在下文提供详细的实践指南。

    一、找出受劣质数据影响的业务流程

    解决对业务影响最深的问题一直是数据质量方案的核心。企业需要详细罗列出业务运营过程中因劣质数据而面临的挑战。包括但不限于:

    • 由于无意中与受制裁实体进行交易而受到监管机构罚款;

    • 由于误述产品功能而导致声誉受损;

    • 由于客户厌烦糟糕的服务后取消服务而导致客户流失;

    • 由于库存、运输和交付数据不准确而导致缺货;

    • 管理报告和分析方面的效率和信心低下;

    • 无法在紧急或危机情况下采取行动;

    二、梳理劣质数据产生的影响/成本

    低质量数据所带来的消极后果将显著影响企业收益。只有量化成本和从计划中获得的收益,数据质量方案才能得到组织内部更多利益相关者的认可,从而获得支持。因此,在估算劣质数据产生成本时,软信建议您可以从以下维度进行梳理:

    • 因为数据的哪些方面导致了问题的发生?

    • 问题的严重性。

    • 问题之前是否发生过?

    • 之前发生过几次?

    • 之前是何时发生的?当时的补救流程是什么?

    • 事后采取哪些措施来防止问题再次发生?

    • 补救成本预计是多少?

    • 可以通过哪些方式取得跨源和数据域的规模经济?

    三、引导合适的人员参与其中

    众所周知,制定数据质量方案的工作需要一个团队来配合完成。无论是业务还是技术方面的利益相关者,几乎每一个处理数据的人都需要通过合作以确保数据经过审查,从而符合严格的质量标准并受到适当的治理。软信认为,要想确定数据质量问题的衡量标准、制定数据质量规则并确定优先的数据质量补救措施,需要与这些角色达成合作:

    • IT人员:找到数据源并将数据迁移到云数据仓库;

    • 数据拥有者和主题专家:决定待审查的数据并可更改数据集;

    • 数据架构师:负责分析源数据和目标数据;

    • 数据管理者:执行质量控制分析、验证数据质量操作的结果并监测数据合规情况;

    • 业务分析师:将业务要求转换为技术要求;

    • 数据分析师:帮助公司使用数据做出更明智的决策;

    • 临时用户:使用分析工具并具有不同的技能水平。

    当然,随着企业中利用数据执行分析的数据使用者数量的增多,企业必须提供符合数据使用者自身需求和技术技能水平的自助式工具,协助他们更轻松地查找和访问所需数据。

    四、遵循一致的数据改进方法

    在数据质量计划中,获得认同、确定优先事项并分配角色后,便可通过剖析现有数据质量、制定数据质量规则、应用数据质量规则、持续衡量和检测数据质量等方式记录并提升云数据仓库中的数据质量。

    • 剖析现有数据质量:利用数据剖析工具评估所有相关数据源的质量,包括外部数据源。通过数据剖析分析全面了解企业数据与数据质量的关键衡量标准(包括数据的准确性、完整性、时效性、符合性、一致性、连续性、时限性、唯一性、重复性和引用完整性)的符合度,识别表示嵌入数据中的业务规则的相关性,创建初始数据质量报告。

    • 制定数据质量规则:掌握企业数据质量的基础情况后,与业务主题专家(SME)合作,确定部门或业务流程需要清理的字段/数据元素,创建验证规则、数据清理规则,形成包含预置规则且可重复使用的规则库,提高整个组织的一致性。

    • 应用数据质量规则:采用自动化质量控制方式,覆盖本地或多云环境中的所有数据源,在数据管道和业务流程中最适合的位置执行数据质量规则,支持企业用例,帮助大型企业或依赖大数据的企业加快项目交付并确保以一致的方式应用规则。

    • 持续衡量和检测数据质量:维护数据质量是一个长期持续的过程,如不积极管理数据,数据质量就会下降。管理数据的前提在于衡量数据,企业需要检测数据质量、捕获指标并将其呈现给用户,以便在数据质量计分卡中进行分析,并追踪周期内的数据质量,实时了解数据质量改进成效,前瞻性发现并补救质量问题,从而提高整体数据质量。

    五、将数据质量纳入更广泛的数据治理工作中

    事实上,数据质量仅仅只是为确保企业云数据仓库成为可信业务资产,继而推动企业获得积极成果的整体数据治理策略的一部分。完善的数据治理涵盖确保企业数据资产可用性、易用性、完整性和安全性的各项实践和流程,通过定义访问、保留和删除、提交合规报告方面的规则等方式,为所有类型的业务用户提供可信数据,并帮助企业遵守全球范围内新出台的隐私政策和法规。

    在任何企业中,数据都必定会持续扩展和演变。要管理这些快速变化的海量数据,运行于云原生数据质量平台之上的人工智能驱动的自动化功能必不可少。与企业数据质量工具无缝协同工作的模块化、可扩展的集成自动化数据治理解决方案将简化和加快配置、部署和维护数据质量和整体数据治理的流程,并帮助:

    • 制定通用数据词典,为不同业务语境提供统一来源;

    • 基于数据治理策略自动生成数据质量规则;

    • 创建端到端业务流,以查看和揭示影响和重复情况;

    • 实现数据民主化,从而让整个企业内越来越多的用户自助使用数据;


    近年来,数字化转型的浪潮彻底改变了市场期望:服务更佳、交付更快、成本更低。当代企业必须通过转型才能跟上趋势,而这一切都需要依赖数据实现。可信数据是高质量数字化转型的关键,合适的云数据质量计划将保障企业的云数据仓库提供可信数据,进而满足组织内部从执行临时分析的终端用户到创建机器学习算法的数据科学家在内的的所有利益相关者的需求,提高业务效率、加快工作流的同时,还将提升组织利用数据推动业务转型的能力,从而降低风险并创造新的机遇。

  • 相关阅读:
    线程常用方法与守护线程
    windows下的strace
    致 喷子们
    使用微信公众号给指定微信用户发送信息
    学习 RabbitMQ 这一篇就够了
    Pytorch中模型之间的参数共享
    问题杂谈(三十八)处理Cesium双击定位后无法平移视角,只能旋转的问题
    解密Docker容器网络
    论文解读(DAGNN)《Towards Deeper Graph Neural Networks》
    计算机毕业设计JAVA大学生兼职平台mybatis+源码+调试部署+系统+数据库+lw
  • 原文地址:https://blog.csdn.net/weixin_39537971/article/details/132895111