元数据(Metadata)为描述数据的数据(data about data),主要是描述数据属性(property)的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。简单来讲,元数据提供了关于数据的上下文,可以实现信息资源的有效发现、查找、一体化组织和对使用资源的有效管理。
基于元数据的功能来划分其类型,主要有三类:结构化元数据、描述性元数据、管理元数据。
便于数据团队进一步了解数据元素的组织方式。通过对相似的数据进行分组,记录唯一数据集之间的关系,有助于快速轻松地导航。
添加所有者、数据创建/发布时间和数据内容等信息,提供所描述的数据的快照,以便于识别数据。
管理元数据,顾名思义,主要用于管理内容,提供关于数据的技术信息,涵盖了数据来源、数据类型、访问、使用许可等方面。
元数据示例
元数据不仅仅是描述数据的数据,还可以简化数据发现,并加深对数据集的理解。
元数据管理作为数据治理的基础组件,与数据治理、主数据管理同等重要,只有管理好元数据才能有效开展数据治理工作,其主要作用在于提高数据质量、数据安全性和整体透明度。
提高数据质量:通过清理和分析元数据,轻松识别并管理重复、多余、不完整的数据,以此提高数据质量,让使用数据变得容易。
提高透明度:利用元数据,可以保证在不泄露敏感数据的情况下共享数据,提高组织内部各大部门的协作性和数据可发现性。
提高数据安全性:
a. 元数据使用限制和许可后,再与数据连接,确保符合法律法规。
b. 明确人员与职责,划分数据所有权、识别数据生产者和维护者,以保障数据安全。
c. 整合数据集的相关信息并严格进行存储,确保其完整性。
数据目录从某种角度来说算是元数据的集合,拥有查找、理解和使用可信数据的能力。以软信天成的企业数据目录为例,借助自身核心能力和元数据的基础功能,可以实现:
元数据抽取:广泛适用于各类数据源的可扩展采集适配器,自动化采集表、视图、脚本等各类实体。
元模型管理:构建元模型的360度视图,包括元数据名称、属性、类型、长度、业务术语、标签、所有权信息等;并通过实时通知、邮件等进行协同管理。
数据血缘:解析系统、数据集、ETL/ELT管道、报表、SQL代码的数据血缘,快速呈现数据的端到端旅程。
影响分析:分析数据链路上下游关系,主动识别实体可能受到重大变更的影响。
全文检索:智能模糊搜索数据集、列、描述、标签、平台、域等各种数据对象,并支持自定义高级过滤条件和高级表达式搜索。
开放API:提供丰富的API访问方式,包括SDK、GraphQL、OpenAPI等不同类型的接口,支持数据实体、数据血缘、数据作业、业务术语等的查询、新增、修改、删除等操作。
版本管理:字段级变更历史版本管理,可查看不同版本的变更日期、变更方式(字段的增加、删除、修改等)并对比变更内容。