元数据是关于数据的组织、数据域及其关系的信息,也就是说元数据是描述数据的数据。
举个例子:户口本的元数据。户口本上除了有姓名、身份证号、出生日期、住址、民族等信息外,还有家庭关系,如夫妻关系、父子关系、兄弟关系等,这些信息就是描述一个人的元数据,通过户口本中的元数据,不仅可以了解一个人的基本信息,还可以了解其家庭关系。再举个例子:图书馆中的元数据。图书馆都会用一个叫“图书目录”的文件夹来管理图书,图书目录包含来图书名称、编号、作者、主题、摆放位置等信息,用来帮助图书管理员管理和快速查找图书。元数据就如同图书馆的图书目录一样,能够帮助数据管理员管理数据。
元数据与数据的不同之处在于:元数据描述的不是特定的实例或记录,IT部门或业务部门都需要高质量的元数据来理解现有数据;元数据是比一般意义上的数据范畴更加广泛的数据,不仅表示数据的类型、名称、数值等信息,还提供数据的上下文描述,比如数据的所属业务域、取值范围、数据间的关系、业务规则、数据来源等。
下表用5W1H模型理解元数据
知识类型 | 定义 | 技术示例 | 业务示例 |
---|---|---|---|
Who | 谁 | 谁负责数据接口的开发 | 谁是某业务域的负责人 |
What | 干什么或是什么 | ERP和DW之间的数据血缘关系是什么 某业务域的指标体系是什么 | |
When | 什么时候 | 提取、转换和加载作业什么时候运行 | 该主题的上一次分析用的数据是什么情况 |
Where | 在哪里 | 所有类型的销售订单分别存储在哪个系统的哪些数据表里 | 哪里可以找到按营销活动分析的数据报告 |
How | 怎么做,怎么样 | 如何设置数据质量的管理规则 | 如何获得产品的竞争优势 |
Why | 为什么 | 出现数据治理问题的根本原因是什么 | 为什么客户会不断流失 |
业务元数据:描述数据的业务含义、业务规则等。
明确业务元数据可以让人更容易理解和使用业务元数据。元数据消除了数据二义性,让人们对数据有一致的认知,避免“自说自话”。常用的业务元数据有:
技术元数据:是结构化处理后的数据,方便计算机或数据库对数据进行识别、存储、传输和转换。 技术元数据可以服务于开发人员,让开发人员更加明确数据的存储、结构,从而为应用开发和系统集成奠定基础。技术元数据也可以服务于业务人员,通过元数据厘清数据关系,让业务人员更快速地找到想要的数据,进而对数据的来源和去向进行分析,支持数据血缘追溯和影响分析。常见的技术元数据有:
操作元数据:描述的是数据的操作属性,包括管理部门、管理责任人等。 明确管理属性有利于将数据管理责任落实到部门和个人,是数据安全管理的基础。常见的操作元数据有:
在信息世界里,元数据的主要作用是对数据进行描述、定位、检索、管理、评估和交互。