元数据(Metadata),又称中介数据、中继数据,为描述数据的数据(data about data),主要是描述数据属性(property)的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能,被称为数据的数据。
元数据 | 内容 | 内容来源 | 支撑资产管理 |
---|---|---|---|
技术元数据 | 表 | mysql,ES,HIVE,clickhouse等 | 资产地图 |
作业 | ETL,DATAX,SQL,QUERY | ||
生产元数据 | 生产 | 调度系统/Yarn | 数据质量、成本治理 |
业务元数据 | 数仓分级 | 建模规范 | 资产价值,安全治理,规范治理 |
数据分级 | 业务 | ||
指标关联 | 指标系统 | ||
应用信息 | BI看板,数据报表 | ||
隐私分级 | 业务 | ||
衍生元数据 | 存储计量 | ClickHouse,ES,HDFS,MQ | 成本治理,资产价值 |
访问计量 | SQL-log | ||
血缘元数据 | 表血缘 | Flink,DATAX,ETL, | 资产地图,影响分析 |
字段血缘 | SQL-Log,HOOK |
数据规范制定更加标准,数据质量得以提升,数据目录结构更加清晰,数据资产更加清晰,数据成本更加可控!
数据管理的核心是元数据平台的建设,以元数据支撑数据管理上层应用
元数据平台搭建应该具备的能力
解决问题:数据资产管理乱,数据分级不明确,不清楚有哪些数据资产。
技术方案:无难点
解决问题:上下游数据异动探测,数据生命周期管控,全链路异常检测。
技术方案:Altas,SQL解析器。Flink,Hook函数
解决问题:解决数据资产不清晰.存储成本不可控等问题,让数据资产家底清,底数明
技术方案:数据埋点,对接运维系统资源情况上报。
解决问题:数据成本控制,