1、将数据进行标签化的就像微积分(微分是把一个大的东西切分成足够微小的部分,积分是把切分后的微小部分组织合成)。标签的设计过程就是把各种对象充分“微分”的过程,解析和拆分得足够惊喜;而标签的使用过程就是将场景中涉及的对象标签拼装在一起使用,是一个“积分”的过程。
2、传统的数据处理往往是业务到数据再回到业务的快速贯通。适用于小企业对所需的数据局服务产出时效有严格限制,只关注当前某一个局部的应用场景。
3、标签化的数据处理则意味着数据需求经过标准化组织后规模复用。是一种中台模式:将生成好的数据全部入库编号,并检查标签项是否完整、规范、准确。将经常用到的信息、技术、功能进行标准化封装以供业务场景多样化的大型集团企业:通过=一次建设、反复享用的方式可以节省成本,形成规模效益,同时还可以为企业沉淀核心的数据资产。
4、中台的核心本质是将可复用的能力、技术和工具汇聚在一起,帮助前段业务快速响应变化。中台从定义上就超出了技术范畴,它所涉及的系统领域并不局限与技术层面。技术驱动数据中台建设从方向上就错了(搭建开发集成环境进行一站式开发,利用数据管理工具对数据标准、数据安全、元数据进行管理,利用API网管对所有服务接口进行调用监控)。
5、数据资产是能给业务带来经济价值的数据资源。数据中台的价值在于让业务快速试错,在千百次的试验中找到并发挥数据的商业价值。
6、数据资产设计师应运而生,专心研究业务所需标签,将其设计哈开发出来并在数据中台的数据资产库中上架,让业务人员能自己查看、选择、使用标签,从而极大地缩短数据资产使用周期,降低业务试错成本,通过反向推动链将数据价值发挥到极致。
不同厂家的数据库或数据存储方式就像海平面下的岛屿,相互之间无法连通,这种情况属于因技术原因无法打通。既然是技术原因,就可以通过日新月异的技术手段来进行数据交换、汇聚和打通。
数据使用一般分为三个层次:
各部门对自身数据进行加工并形成分析报告,查找原因以进行针对性改进,实现了业务数据化——数据业务化的小循环。这样,一方面使数据价值得到了体现,但另一方面也在部门间铸起了数据交换的壁垒。部门间数据不共享的情况源于公司管理制度的欠缺,公司内有很厚的部门墙。
部门各自为政,数据并不打通。因为技术、工具可以通过学习或直接采购快速获得。最容易解决的是技术问题,因为技术、工具可以通过学习或直接采购快速获得。
稍难解决的是部门间数据不共享问题,这类问题往往需要由公司总部来统筹解决。数据是一种特别的资源,它可再生,融合价值大于原有价值之和,越用越有价值。因此只有把数据汇聚在一起,才能实现数据世界的完整复刻。
最难解决的就是企业自上而下的数据的认知偏差问题。数据是有认知门槛的,并不是所有的业务人员都知道如何读懂数据或操作数据,而数据人员又缺少向业务人员生动解释数据的能力。因此企业需要一种数据和业务间的转化术语,来帮助业务人员、运营人员、职能人员等快速理解数据、掌握数据应用技能,进而认识到数据的重要性,实现数据的共生共用。
当企业需要切实解决数据孤岛问题时,建议采用从难倒易的方式:
从部门出发的数据梳理工作实施过程中,年轻的数据工程师并没有充分考虑数据底层的系统梳理和清洗溯源,就进行了快速的数据开发工作;在开发过程中,也缺乏数据逻辑和建模分层上的思考和指导。一切都以业务为导向,为了及时产出最终的数据结果,中间步骤是否合规合理、代码程序是否稳健正确都可能会被忽略。这样进行的数据建设极容易倾斜倒塌。
企业要用数据反映企业的真实情况,只有数据加工逻辑准确无误,最终的数据结果才能反映出问题的本质。如果数据建设是各业务林立的烟囱式做法,并没有统一的部门来进行源头管理,那么数据治理汉南在局部获得成功。
烟囱式的数据建设的最大弊端是造成了企业在数据建设上的重复投入,造成资源浪费。如果各部门都自建一套数据系统,会发生反复存储、反复计算的问题,导致资源浪费。这种浪费会随着数据量的增加而越发凸显。
原始数据的清洗方式,中间数据的统计逻辑、结果数据的汇总差异都会影响最终的数据结果。企业如需要对外分享或披露数据,也需要谨慎选择指标,防止数据口径不一致的情况发生。有3条帮助企业统一数据口径的建议:
传统数据治理涉及对数据的标准进行统一制定,对数据的安全进行分级分类,对数据的质量进行控制和迭代优化,对数据的元素进行一一梳理并归档,对数据的生命周期进行全链路跟踪并构建溯源机制。。。这些工作需要有具备更高视野的数据管控者进行全局考虑,并且具体执行者需要掌握数据治理专业技能,才能进行具体操作和衔接。
在数据治理项目实施过程中,可能会面临不同板块之间的衔接问题,因此需要一个治理总工程师来统筹规划:确定统一的治理目标和原则,安排好合理的治理计划和路径,选择适配治理目标和流程的工具产品,挑选并培养数据治理队伍,制定确保数据治理平稳推进的工作机制等。但在漫长的治理过程中,可能会出现人员更替、信息缺失、事项遗漏等无法避免的问题,这些都是数据治理工作中不得不面对的困难。
传统的数据治理项目往往是由技术部门或数据部门来主导,但数据部门其实智能影响数据生命周期的中间环节,即数据的生成和加工环节。数据的两端(来源端和使用端)并不属于数据部门能掌控的范围,更多属于业务部门控制的范围;而数据治理所包含的多项重要工作,如数据标准、数据安全、数据质量、数据生命周期等,都是全链路工作项,如果缺乏两端的配合与支持,是无法顺利完成的。
数据治理是一项模块多、跨度周期长、技能要求门槛高、受外界环境影响大、需要多部门联动配合的系统工程。这个系统工程如果仅由数据部门来强力推进,很难做好。
数据部门示弱,主要原因在于业务部门强势,这从部门职能定位和项目推动力两点上可见端倪。
1、部门职能定位:业务部门是利润中心,数据部门是成本中心
2、项目推动力:业务部门无往不利,数据部门步履维艰