• 数据平台建设的痛点,如何进行元数据治理?


     1.什么是元数据

    1.1.元数据简介

     元数据Metadata),又称中介数据中继数据,为描述数据的数据(data about data),主要是描述数据属性(property)的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能,被称为数据的数据。

    1.2.元数据分类

    元数据内容内容来源支撑资产管理
    技术元数据mysql,ES,HIVE,clickhouse等资产地图
    作业ETL,DATAX,SQL,QUERY
    生产元数据生产调度系统/Yarn数据质量、成本治理


    业务元数据
    数仓分级建模规范


    资产价值,安全治理,规范治理
    数据分级业务
    指标关联指标系统
    应用信息BI看板,数据报表
    隐私分级业务
    衍生元数据存储计量ClickHouse,ES,HDFS,MQ成本治理,资产价值
    访问计量SQL-log
    血缘元数据表血缘Flink,DATAX,ETL,资产地图,影响分析
    字段血缘SQL-Log,HOOK

    2.为什么要做元数据治理

    数据规范制定更加标准,数据质量得以提升,数据目录结构更加清晰,数据资产更加清晰,数据成本更加可控!

    数据管理的核心是元数据平台的建设,以元数据支撑数据管理上层应用

    3.当前元数据治理建设现状

    1. 元数据信息少甚至没有元数据
    2. 没有标准的数据接入规范以及数据开发准则,数据对外开放权限开控制难
    3. 数据质量差,数据异常难以监控
    4. 数据资产不清晰,想要数据的时候不知道有无该数据
    5. 数据成本估算难

    元数据平台搭建应该具备的能力

    4.元数据应用

    4.1.数据地图: 元数据搜索与发现

    • 支持表,字段,描述信息,数仓分层,数据分类,标签,部门等信息搜索
    • 全域元数据的搜索
    • 支持指标维度看板等信息的搜索

    解决问题:数据资产管理乱,数据分级不明确,不清楚有哪些数据资产。


    技术方案:无难点

    4.2.数据血缘

    • 数据全生命周期查看
    • 数据链路异常报警
    • 数据变更通知

    解决问题:上下游数据异动探测,数据生命周期管控,全链路异常检测。

    技术方案:Altas,SQL解析器。Flink,Hook函数

    4.3.成本监控和治理 

    数据存储成本仪表盘

    • 不同存储引擎数据存储数据量级
    • 使用虚机资源消耗,如CPU,网络带宽,硬盘等
    • 资源使用趋势,成本预算

    解决问题:解决数据资产不清晰.存储成本不可控等问题,让数据资产家底清,底数明

    技术方案:数据埋点,对接运维系统资源情况上报。

    4.4.数据质量诊断

    解决问题:数据成本控制,

     4.5.数据存储成本仪表盘

  • 相关阅读:
    manim边做边学--数轴
    第二章《Java程序世界初探》第1节:认识Java语言的变量
    基于springboot的鲜花管理系统
    金三银四,风控建模面试高频问题大全
    模型代码联动难? BizWorks来助力
    计算机毕业设计选题推荐-果园预售系统-Java项目实战
    golang 短变量声明看这一篇就够了
    vue3语法糖+ts组件传值
    【无标题】
    C++结构型模式-组合模式
  • 原文地址:https://blog.csdn.net/b379685397/article/details/127093533