• 【大禹DGC】1-基本介绍


    1. 数据治理体系

     1.1 背景

            > 数据治理是大数据的基础

            > 数据应用未得到有效管理(标准不统一)

            > 数据安全问题

            > 数据孤岛

     1.2 数据治理的定义

    • 指对数据质量的管理、专注在数据本身。
    • 数据治理是对数据的全生命周期进行管理,包含数据采集、清洗、转换等传统数据集成和存储环节的工作、同时还包含数据资产目录、数据标准、质量、安全、数据开发、数据价值、数据服务与应用等,整个数据生命期而开展开的业务、技术和管理活动都属于数据治理范畴。

    1.3 数据治理的价值

            从数据产生、采集、加工、存储、应用到销毁的过程中,可能在各个环节引入各种问题。而数据治理就是要不断消除引入的问题,以高质量、高可用、高安全的方式为业务、决策提供数据,有效管理企业数据资产,实现数据价值的最大化

            

    [数字化转型]  即利用新一代信息技术,构建数据的采集、传输、存储、处理和反馈的闭环,打通不同层级与不同行业间的数据壁垒,提高行业整体的运行效率,构建全新的数字经济体系。

    [问题]  数据无法匹配,数据不可识别,数据不一致,数据沉余重复,实效性不强,精度不够,没有统一的数据标准,各业务系统间数据无法充分共享,跨系统无法拉通,关键核心数据无法识别,成本高,安全问题,效率低

    1.4 数据治理目标

    • 高质量

      通过数据治理,确保数据完整性、有效性、及时性、一致性、准确性、唯一性,是数据产生价值的基础保障
    • 高可用

      数据治理创造一个开放的生态系统,依靠多方资源的协同,推动多主体、多领域、数据多要素等的整合、互补,进一步提升数据价值
    • 高安全

      通过严谨可控的数据治理措施,数据治理和分享的过程是安全可控的,这个过程不会侵犯用户隐私,不会给组织本身留下安全隐患,控制风险

    (持续提升数据质量和数据全流程打通;提升运营效率,降低成本,减少风险)

    1.5  内容构成

            数据治理流程:建组织、定标准、管流程、搭平台、做衡量

            

    2 大禹-DGC平台

            数据湖治理中心(DGC)是数据全生命周期一站式开发运营平台,提供数据集成、数据开发、数据治理、数据服务、数据可视化等功能,支持行业知识库智能化建设,支持大数据存储、大数据计算分析引擎等数据底座,帮助企业客户快速构建数据运营能力。

     

    对于数据治理的思考:

    • 管理有用、高质量的数据,让数据清洁有序,释放千行百业数据的价值;

    2.1 规范设计

    DGC规范设计以关系建模、维度建模理论支撑,实现规范化、可视化、标准化数据模型开发,定位于数据治理流程设计落地阶段,输出成果用于指导开发人员实践落地数据治理方法论。

    • 主要模块
    主要模块作用
    流程设计流程架构基于价值流产生,属于业务架构的流程处理模块,指导并规范BT&IT需求的管理,确保业务需求受理、分析、交付等过程的高效运作;并聚焦高价值需求,实现业务价值最大化,支撑业务运作及目标的达成。
    主题设计主题设计是通过分层架构表达对数据的分类和定义,帮助厘清数据资产,明确业务领域和业务对象的关联关系。
    数据标准数据标准是用于描述公司层面需共同遵守的数据含义和业务规则,它描述了公司层面对某个数据的共同理解,这些理解一旦确定下来,就应作为企业层面的标准在企业内被共同遵守。
    关系建模逻辑模型:利用实体及相互之间的关系,准确描述业务规则的实体关系图物理模型:指按照一定规则和方法,将逻辑模型中所定义的实体、属性、属性约束、关系等要素转换为数据库软件所能够识别的表关系图的一种物理描述。<!--去除冗余、三范式-->
    维度建模维度是用于观察和分析业务数据的视角,支撑对数据汇聚、钻取、切片分析,用于SQL中的GROUP BY条件。
    业务指标经过数据调研和需求分析之后,您需要根据需求落地指标。指标是衡量目标总体特征的统计数值,是能表征企业某一业务活动中业务状况的数值指示器。
    技术指标技术指标是对业务指标的具体实现。

    (1)主题设计

    主题设计也是业务分层设计,用于指导后续针对指标维度、事实表模型的构造。首先我们来了解一

    下什么是业务分层:业务分层是华为定义的一套数据资产的分层,共分为 L1-L5 五层,每层概念如

    下:

    • 主题域分组(L1):大的信息分类,每个主题域分组对应一个公司关注的业务领域的数据。

      例:智慧园区整体【多个数据库多个系统】。

    • 主题域(L2):大信息分类下的子系统。例:大合同(划分管辖范围)、子系统数据库【(多)个数据库一个系统】。

    • 业务对象(L3):一般具有身份、状态、管理、内部结构等属性。例:客户合同(合同下有好几张Order表、合同双方的Person表等)、购物车模块(Cart里有多个仓库,仓库下有多个产品)【一个业务模块,多张表的整合】。

    • 逻辑数据实体/逻辑实体(L4):将业务对象的属性进行分组。例:一个订单(Order表)、一个购物车(Cart表)【数据库里的一张表】。

    • 属性(L5):表里的一个属性。例:一个订单里的PO#(Order表中的po属性)【一张表中的一个字段】。

    2.技术指标

    • 原子指标是最基础的算子,是维度模型下表的某个属性或针对该属性简单的运算,不包含统计维度的限定。

    • 衍生指标则针对原子指标添加了维度的限定,使之具有参考价值。

    • 复合指标则是多个衍生指标的聚合。

    (3)规范设计

            构建统一的数据分类标准、数据标准体系、指标体系、数据模型体系。

    2.2 数据集成

    云数据迁移(Cloud Data Migration, 简称CDM),是一种高效、易用的批量数据迁移服务。 CDM围绕大数据迁移上云和智能数据湖解决方案,提供了简单易用的迁移能力和多种数据源到数据湖的集成能力,降低了客户数据源迁移和集成的复杂性,有效的提高您数据迁移和集成的效率。

    • 功能
    功能场景
    表/文件/整库迁移支持批量迁移表或者文件,还支持同构/异构数据库之间整库迁移,一个作业即可迁移几百张表。
    增量数据迁移支持文件增量迁移、关系型数据库增量迁移、HBase/CloudTable增量迁移,以及使用Where条件配合时间变量函数实现增量数据迁移。
    事务模式迁移支持当CDM作业执行失败时,将数据回滚到作业开始之前的状态,自动清理目的表中的数据(目标端为关系型数据库)。
    字段转换支持去隐私、字符串操作、日期操作等常用字段的数据转换功能。
    文件加密在迁移文件到文件系统时,CDM支持对写入云端的文件进行加密。源端支持:OBS、FTP、SFTP、NAS、SFS、HDFS、HTTP。目的端支持:OBS、FTP、SFTP、NAS、SFS、HDFS
    MD5校验一致性支持使用MD5校验,检查端到端文件的一致性,并输出校验结果。源端支持:OBS、HDFS、FTP、SFTP、NAS、SFS、HTTP。目的端支持:OBS

    2.3 数据

    数据开发是一个一站式的大数据协同开发平台,提供全托管的大数据调度能力。它可管理多种大数据服务,极大降低用户使用大数据的门槛,帮助您快速构建大数据处理中心。

    功能场景
    数据管理支持管理DWS、DLI、MRS Hive等多种数据仓库。支持可视化和DDL方式管理数据库表。
    脚本开发提供在线脚本编辑器,支持多人协作进行SQL、Shell、Python脚本在线代码开发和调测。支持使用变量和函数。
    作业开发提供图形化设计器,支持拖拉拽方式快速构建数据处理工作流。预设数据集成、SQL、Shell等多种任务类型,通过任务间依赖完成复杂数据分析处理。支持导入和导出作业。
    资源管理支持统一管理在脚本开发和作业开发使用到的file、jar、archive类型的资源。
    作业调度支持单次调度、周期调度和事件驱动调度,周期调度支持分钟、小时、天、周、月多种调度周期。
    运维监控支持对作业进行运行、暂停、恢复、终止等多种操作。支持查看作业和其内各任务节点的运行详情。支持配置多种方式报警,作业和任务发生错误时可及时通知相关人,保证业务正常运行。

    2.4 数据质量

    数据质量是通过定义相关规则,对数据进行质量的检测,支持自动化监控数据质量变化,并生成相应的质量报告,对质量不合格数据进行告警。帮助提高整体数据可信度与可用度。

    • 功能

      功能场景
      业务指标监控自定义SQL指标,通过指标的逻辑表达式定义规则,配置作业调度周期,通过业务场景运行结果,判断业务指标是否满足质量规则。1.新建指标。2.新建规则。3.新建业务场景
      数据质量监控完整性、有效性、及时性、一致性、准确性、唯一性六个维度进行单列、跨列、跨行和跨表的分析。数据质量支持对离线数据的监控,当离线数据发生变化时,数据质量会对数据进行校验,并阻塞生产链路,以避免问题数据污染扩散。同时,数据质量提供了历史校验结果的管理,以便您对数据质量分析和定级。1.新建规则模板。2.新建质量作业3.新建对账作业

    2.5 数据服务

    DGC数据服务旨在为企业搭建统一的数据服务总线,帮助企业统一管理对内对外的API服务。数据服务为您提供快速将数据表生成数据API的能力,涵盖API发布、管理、运维、售卖的全生命周期管理,帮助您简单、快速、低成本、低风险地实现微服务聚合、前后端分离、系统集成,向合作伙伴、开发者开放功能和数据。

    • 功能

      功能场景
      创建API支持向导模式生成API和脚本模式生成API
      调试APIAPI创建支持在线调试,其中后端路径中含有环境变量的API,不支持调试。API绑定签名密钥时,不支持调试。
      发布API数据服务是数据对外开放的最后一道防线,为了安全起见,在数据服务中生成的API以及注册的API,都需要发布到服务目录中才能对外提供服务。
      管理API发布API后可设置对外可见和可见范围。可以选择为“当前工作空间可见”、“当前项目可见”或“当前租户可见”。
      调用API1.获取API:从服务目录获取需要调用API。仅在API发布后,才支持被调用。2.(可选)创建应用并获取授权对于使用APP和IAM认证的API,需要完成创建应用和将API授权给应用。在API调用过程中,使用所创建应用的密钥对(AppKey、AppSecret),数据服务根据密钥对进行身份核对,完成鉴权。3.API调用者完成以上步骤后,可以参考数据服务SDK参考进行API调用。
      流量控制DGC数据服务的API流量控制基于指定规则对API的访问流量进行调节控制的限流策略,能够提供多种维度的后端服务保护功能。当前API流控支持通过用户、应用和时间段等不同维度限制API的调用次数。

    2.6 数据资产

    针对DGC上的数据资产进行管理,包括资产统计,血缘分析,数据权限,数据密级,原数据采集等功能。支撑对数据资产的可视化管理。

    • 功能

      功能场景
      数据地图数据地图围绕数据搜索,服务于数据分析、数据开发、数据挖掘、数据运营等数据表的使用者和拥有者,提供方便快捷的数据搜索服务,拥有功能强大的血缘信息及影响分析。
      数据权限为确保数据使用安全可控,使用数据表需要先申请权限。数据权限模块为用户提供便捷的权限管控能力,提供可视化申请审批流程,并可以进行权限的审计和管理。提高数据安全的同时,还可以方便用户进行数据权限管控。
      数据安全数据安全为数据湖提供数据生命周期内统一的数据使用保护能力。通过敏感数据识别、分级分类、隐私保护、资源权限控制、数据加密传输、加密存储、数据风险识别以及合规审计等措施,帮助用户建立安全预警机制,增强整体安全防护能力,让数据可用不可得和安全合规。
      元数据采集元数据打通了源数据、数据仓库、数据应用,记录了数据从产生到消费的全过程。元数据主要记录数据仓库中模型的定义、各层级间的映射关系、监控数据仓库的数据状态及ETL的任务运行状态。

    1.7 管理中心

    数据连接:通过配置数据源信息,可以建立数据连接。DGC基于管理中心的数据连接对数据湖底座进行数据开发、治理、服务和运营。 资源迁移:可使用数据湖治理中心DGC的资源迁移功能,对资源进行导入导出。 支持迁移的资源包含数据服务、元数据分类、元数据标签、元数据采集任务和数据连接。

  • 相关阅读:
    atguigu8 集群
    SpringBoot2-核心技术(一)
    Pytest 源码解读 [1] - [pluggy] 核心设计理念浅读
    动态规划——416. 分割等和子集
    ruoyi-cloud-plus添加一个不要认证的公开新页面
    MySQL数据库(基础)——期末复习总结
    Redis缓存满了咋办?什么叫近似LRU算法?为啥不使用真实LRU?
    几种出色的游戏开发艺术技巧
    我的大模型岗位面试总结:共24家,9个offer
    [附源码]java毕业设计高铁售票管理系统
  • 原文地址:https://blog.csdn.net/cyairhp/article/details/123767436