“你一票,我一票,心凌80还唱跳。”随着综艺某综艺的正式开播,如今已年近40的“甜心教主”用一首《爱你》,不仅让自己翻红,也让无数网友大声呼喊着“青春回来了”,生生的将沉寂了十多年的中年男粉“炸”活了!无独有偶,在前几日,曾经的天王时隔6年后再发新歌,新专辑一天爆卖1.5亿,而购买的主力军正是听着他歌曲长大的80后、90后。他们两位,不仅快乐了粉丝,也向我们展示了“沉睡”数据被唤醒后的巨大价值,让更多的人静下心去思考,去探索,如何让“沉睡数据醒来说话”。
什么是沉睡的数据?
数据显示2018年,中国生成的数据约为7.6ZB(1ZB约相当于1万亿GB),并且仍在以超过全球平均3%的速度产生数据,预计到2025年,这一数字将增长到48.6ZB。我们说数据是数字世界的核心,我们正日益成为信息经济社会,数据可能不在资产负债表上,但数据是公司最有价值的无形资产,可以在数字化转型中创造竞争优势。但现实是企业不能从现有ERP系统中提取数据价值;整理归档了大量信息却不能有效利用;想要获取其他相关部门数据却要跨部门层层审批……在日常工作中,他们只是忠实的数据记录,这些数据不会提供预警,不会预测未来,更不会告诉你应该采取什么样的措施,这些措施会产生什么样的后果。而这些“无作为”的数据我们称之为沉睡的数据。
数据为何会沉睡?
庞大的总量却并不意味着完全有效的开发利用。数据割据、技术壁垒和标准缺失形成数据孤岛是导致大量数据陷入“沉睡”的根本原因。而政企、企业间数据层面的壁垒普遍存在。追究其原因,主要在三个方面:
一方面是大数据时代的数据资源广泛散布于政府、行业、企业三个子系统中,政府或企业间缺乏基于共同利益开发的主观能动性,导致数据开放滞后,而外部管理规范、法规的缺失也使部分主体对开放数据保持顾虑。
其次是因为多数制造工厂研发、生产、管理等部门间在选择应用软件时存在深度不统一、数据标准不一致的情况。这就导致不同部门间数据难以互通,依旧只能依靠手动整理、纸质记录、人工统计,因此导致数据存在不准确、不全和非结构化等问题。
最后,许多工业软件的研发从一开始就缺少完整的顶层规划设计,不同模块间扩展性差,数据利用率低。从而导致大量关键数据休眠沉睡,难以实现数据驱动管理、决策。
因此,从体量大、信息密度低的原始数据中提取高质量的数据信息,从而形成数据集,是唤醒数据、实现企业弯道超车的关键。
唤醒沉睡的数据难点在哪里?
船大难调头,对于数据体量大的企业来说,想要唤醒原本沉睡的、难以产生价值的数据意味的不仅仅是一次系统升级,而是一次全新的探索,更是一场深刻的变革,需要集合行业特点进行数据的收集与分析,进而推出让企业升级、让服务增值、让公众受益的解决方案,进行这项工作主要存在以下几个方面的问题:
第一,数据整合无法深入。现在,整合是大势所趋,是企业信息化建设必须面对的挑战。一方面,随着信息化应用的深入和普及,各业务间出现了大量的数据交换需求;由于时间积累、建设方式多样和系统耦合度因素,数据交换呈网状结构,随着需求的增加,授权越来越复杂,亟需对现有信息或数据进行整合,提高信息资源的利用率。另一方面,随着非结构化数据的增多,需要对业务类的结构化信息和资源办公类的非结构化数据整合。
第二,标准化的挑战。目前,信息系统中的业务数据定义不清、概念混淆,程序设计时控制和校验不严,系统使用时数据输入偏差等原因,导致数据质量问题很多。业务数据标准化程度低,不仅导致数据质量问题,也给数据集成带来了很多麻烦。
第三,数据的利用率很低。由于大量的数据仅仅是保存并沉睡在系统中,那么其质量问题很难暴露出来,只有被使用时,问题才会逐渐显现,但是将无数据质量保证的数据直接应运,损失的不仅仅是前期投入的精力、财力和物力,更严重的后果是执行了从不准确数据推到出的错误的算法、建模、决策等而产生的二次损失。
从海量数据中抽取隐含的、未知的和潜在有用的信息中发现有意义的规律,并为未来的发展提供决策上的支撑,使企业唤醒数据的最终目标。要实现很好的数据价值,需要二个前提条件:一是足够的、多维的数据量;二是数据必须是可用的、真实的,这就需要数据质量的保证。
如何唤醒沉睡的数据?
从技术实施角度看,唤醒沉睡的数据包含“理”“采”“治”“析”“用”这五个步骤,即业务和数据资源梳理、数据采集清洗、数据处理、数据分析、数据使用。
1、数据资源梳理
唤醒数据的第一个步骤是从业务的视角厘清组织的数据资源环境和数据资源清单,包含组织机构、业务事项、信息系统,以及以数据库、网页、文件和API接口形式存在的数据项资源,本步骤的输出物为分门别类的数据资源清单。
唤醒数据的第一个步骤是数据采集,即将分散在各系统中的数据采集到可以支持大数据架构环境,从而实现对采集到的数据建立数据仓库进行二次处理。做好数据采集要数据采集首先要充分考虑企业规模和数据规模的增长,提前做好数据信息积累的准备,其次需要收集足够全面的属性、维度、指标,使积累的数据更高质量,最终实现交叉贯穿,实现有效的分析数据,最后还需提高数据采集的及时性,从而提高后续数据应用的及时性。
由于许多企业的生产数据采集主要依靠传统的手工操作模式,企业在数据采集工作中面临着数据来源多、数据量大、更新快、数据采集可靠性难以保证、重复数据多、数据质量难以保证等问题。数据价值的成功发掘必须依托于高质量的数据,唯有准确、完整、一致的数据才有使用价值。因此,需要从多维度来分析数据的质量,例如:偏移量、非空检查、值域检查、规范性检查、重复性检查、关联关系检查、离群值检查、波动检查等等。需要注意的是,优秀的数据质量模型的设计必须依赖于对业务的深刻理解,而后基于业务规则不同权重去做合规打分,形成量化的评估指标,最终得出数据质量的总评分。通过这样一个量化机制来告诉企业这些数据质量好还是不好,有多好,具体表现在哪些方面不好,而权重则取决于这些不好的数据质量因素对企业影响有多大。
图:保险行业某业务数据质量评分卡
在对数据质量有了精准的了解后,我们还需对数据进行数据清洗、数据转化、数据提取、数据计算等处理方法,将各种原始数据经过加工处理,才能用于后续的数据分析工作。
数据是从业务中产生的,数据本身没有价值。只有当我们利用一定的科技手段,从中挖掘出有效信息,才能体现出其重要的价值。这个过程的起点可以是确定我们的分析目的,这个过程的终点是发现业务价值,提供数据支撑。通常情况下我们可以通过6步来完成分析:
第一步:明确数据分析的目的,弄清楚需要做什么
第二步:梳理和确定分析逻辑,确定怎么进行分析
第三步:确定数据分析的数据
第四步:采用统计、数据挖掘等技术,提取有用信息
第五步:采用文字、表格、可视化图形来展示数据
第六步:得出数据分析的结论,发现业务价值,撰写分析报告
明确分析步骤后,我们可采用PEST分析法、5W2H方法、4P营销理论、PEST分析法、SMART分析法、SWOT分析等基于逻辑层面的数据分析方法分析数据。数据来源于业务,但数据只有服务于业务才能体现出其价值。数据分析正是将数据和业务连接起来的有力手段!
在数据爆炸式增长的时代,企业不能只停留在利用信息技术提供更好的产品和服务这个层面上,而是应该开始系统地考虑信息技术将带来的新价值和新商业机会。通过前面的四步,我们已经知道了我们有什么数据,我们的产品和流程中创造了什么数据。若要让数据产生价值,我们还需准确回答出我们可从别人那里获取什么有帮助的数据,我们可以利用别人的什么数据开展合作项目。当明确了上述问题后,我们通常可以采用下面的五种模式来寻找到新的商业机会。
模式一:让产品产生数据
1. 与我们的产品和使用相关的数据有哪些?
2. 哪些是我们已经有的数据?哪些是我们需要开始建立的数据?
3. 从这些数据中能分析出什么结论?
4. 这些结论对我们的业务、客户、供应商、竞争折或其它行业带来什么新价值?
模式二:产品数字化
1. 我们有哪些已经完全或基本实现数字化的产品?
2. 我们怎么应用产品的数字化特性提高价值?
3. 我们的哪些产品可以全部或部分实现数字化?
模式三:跨行业数据整合
1. 我们的数据怎样和别人的数据整合在一起创造出新的价值?
2. 我们能否扮演一个“催化剂”的角色,把别人的数据整合在一起创造新价值?
3. 谁能从数据整合总获益?我们的合作者对什么样的商业模式有兴趣?
模式四:数据交易
1. 我们的数据怎样通过格式化或分析以后产生新价值?
2. 数据在企业内部有什么价值吗?对我们现有的客户、潜在新客户或其它行业有什么价值吗?
模式五:数据服务产品化
1. 我们是否拥有对别人有价值的独特的能力?
2. 有没有办法把这种独特的能力形成标准,以便于推广应用?
3. 我们行业内或行业外是否有人感兴趣?
让“沉睡”的数据释放更多红利,我们乐见其成。