从数据治理到分析治理,搭建高可信、高质量的数据指标体系。
关于指标,大多数对它都不会陌生,不仅仅是与数据相关的人员熟悉它,几乎所有人都多少与它有所关系,与我们工作考核的相关的KPI指标、与国家监管报送要求的数据指标、与财务工作相关的统计指标、与销售或营销相关的销售指标及营销指标等等。都与我们日常生活、工作相关,与数据分析工作相关的人员更有深刻体会。
我们在这里来思考的主要是数据指标,而且是指与企业数据资产相关较强的数据指标,我们专注于此类数据指标及它的体系的建设思考。这件工作是数据管理、数据治理、数据分析(或数据科学)相关工作的人员关注的内容之一。关于以上类型工作的度量指标是另一层面的内容,将作为衡量企业数据指标及数据指标体系建设工作的评价指标。
作为数据治理从业人员,我们会深刻体会在现如今的大数据时代,数据驱动甚至是知识驱动的时代,我们除了通过传统的数据管理理论来管理数据,并保障数据的质量,我们也必须关注于数据价值的输出及数据资产的变现。对于一个组织来说,高可信、高质量的数据指标正是作为数据资产评估、数据驱动依据的强有力数据支撑。
首先,我们明确概念。
由于数据科学的发展及数据量的激增,数据分析工作不再仅仅是统计分析数据的工作,也必须考虑与数据分析相关的治理工作。这一类的工作我们可以称为数据分析治理。
关于数据管理成熟度模型,国内外都不少可以参考的成熟模型,有老牌的DMM、Gartner的EIM、EDM委员会的DCAM、国内的DCMM等。其中DCAM从2.0升级到2.2版本时,根据现如今数据分析的重要性,增加了第8职能域:数据分析。
从上图,我们可以清晰地了解到,数据治理及分析治理都属于数据管理的范围内,数据治理可以为分析治理提供如指标数据标准、数据质量保障、元数据管理等支撑,而分析治理关注于数据指标体系、数据分析模型、数据分析生命周期等内容。
与数据治理和数据管理相似,分析治理也有对应的分析管理。
数据量的激增、数据科学分析和数据驱动的需求、分析模型和分析领域的复杂性是分析治理的内在驱动力。
分析治理注重体系建设、治理组织及角色分配、分析模型素养、评估及监控信任模型等内容。
在分析管理中,分析生命周期管理与一般我们了解到数据生命周期管理是有所侧重的,它们分别会有以下一些内容:
请求接收:
定义如何管理分析需求,使用系统或其他管理管道的请求方式。
用例:
请求必须经过分析师,该分析师可以详细了解请求的最低要求,并且可以评估解决方案是否可行。这些请求应得到及时和公正的处理。
模型优先级:
这个过程最好由分析治理委员会来处理,而不是把优先级委托给一个人。 当决策由一个群体做出时,他们更有可能被认为是公平的。不要设置诸如无休止的表格之类的障碍或允许请求累积,因为它们必须等到下一次会议。保持一致很重要,但也要足够灵活。
第三方模型获取:
内部构建模型并不总是最佳选择,分析治理委员会应考虑聘请第三方提供模型。在这种情况下,应仔细审查第三方合同的条款和条件,因为有些条款和条件技术性很强。
开发模型:
应确定模型所需的最小可行数据:“这是分析、治理和数据治理的交汇点。”还有待确定的是最小可行模型——实际解决用例所需的最小值。
数据发现:
应启动开发方法以确定是否有可用的数据可以满足质量需求或是否需要外部数据。
模型验证:
验证过程确定模型是否能够充分泛化,或者它是否过于特定于它所训练的数据集。业务方可以对结果提供“健全性检查”,并帮助将假设输入模型。他们还可以帮助获取数据。
模型存储:
模型在建模请求时添加到存储清单中,并在其整个生命周期的重要时间点进行更新,例如验证、创建新版本时等。模型存储清单是分析治理的战略要求。
维护:
随着模型被插入到业务流程中,角色和职责必须是明确的。随着业务的变更确实需要一些流程重新设计以及模型维护。
模型操作:
使用信息的一线工作人员如果从业务角度认为出了问题,他们需要一种方法来进行报告。由于模型会随着时间的推移而漂移并失去准确性,因此还应建立监控过程。
我们可以通过已发行的银行行业标准《JR/T0137-2017银行经营管理指标数据元》来理解数据指标的定义。在银行业,数据指标可以定义为反映银行经营管理在一定时间和条件下的规模、程度、比例、结构等的概念和数值。针对其它行业,我们可根据行业特点来参考定义数据指标。
一般情况下,我们会将数据指标分为原子指标及派生指标。
也有将数据指标分为原子指标、复合指标、派生指标,在这里复合指标一般是指由多个原子指标综合得到的数据指标。
当然还有基础数据指标的概念说法,一般情况下基础数据指标是指上面提到过的原子指标和复合指标。
从上图我们可以了解到原子指标与派生指标的关系。
派生指标=时间周期+修饰词+原子指标,派生指标可以理解为对原子指标业务统计范围的圈定。
左边的部分是对于图中的一些概念的说明,这些说明是参考阿里的文档得到的。
数据指标可以根据数据指标来业务流程中的位置来分为结果性指标和过程性指标两大类。下面的这张图是对这两类的指标说明,并且对于原子指标和派生指标用实例展示。
指标数据标准是数据标准体系中的一部分,同样我们以银行业为例,在银行业中,会将数据标准分为三大类或者两大类,两大类就是基础数据标准和指标数据标准,三大类的分法是基础数据标准、参考数据标准和指标数据标准。实际上框架没什么区别,无非就是基础数据标准的范围不同而已。
指标数据标准通过基础属性、业务属性、技术属性和管理属性来描述指标数据规范化要求。
指标数据标准,可以说是企业内数据分析应用的基石。我们在数据分析应用的实际工作中,最头痛问题就是指标口径不同、指标体系不完整及指标追溯难这几类问题。所以规范的指标数据标准,才能保障我们数据分析应用工作。
有了标准的数据指标,我们还需要数据指标体系来规范数据指标的定位、应用并承接组织的业务策略及业务目标。
一般我们会通过横向及纵向分析这两种方式,最终形成数据指标体系。
横向上可以采用OSM模型的思想,有可能会不少人感觉OSM模型不太落地,有点虚,所以我们是理解它的作用,利用它的思想,来充分分析组织中的业务目标与数据指标的关系,通过这样的思考方式,我们明确各数据指标的相互关系,提取或制定出符合组织策略的关键指标。
纵向划分可以形成我们一般指标体系的三层框架,一级指标、二级指标、三级指标。指标框架一般为三层框架,不建议层级太深,不利于通过数据指标来有效反馈业务目标。在纵向划分时也有可以参考的模型,如AARRRR模型。它教会我们在分析时,可以通过某种核心业务数据的生命周期来制定数据指标体系的框架。
我们都知道,数据指标体系的落地及应用一般都会通过如数仓这类的数据中心的应用输出来实现,所以如数仓的建设同时也会充分考虑数据指标体系的内容。
下面是一些数据指标体系的示例。