2020年随着疫情爆发,企业开始转向了远程办公,云计算也成为了一种绝对的必需品。站在数据角度来看,每个人都会从不同的地方和系统来访问数据,因此数据安全和治理成为了一个非常重要的事项,同时更加智能的AI也变得更加有吸引力,对于历史模型来说也已经变得毫无意义。当然现代元数据的解决方案、DQC、基础设施、工种等等也发生了一些变化。通俗来讲,企业需要意识并要快速做出改变,增加数据方向的投资,升级系统并创建完美的数据栈来适应“新常态”。
今年,我们将看到几个新的数据趋势:新的数据角色和数据质量框架的出现,现代数据栈和现代元数据解决方案的崛起,以及数据湖和仓库的融合。接下来分别介绍下这几种趋势。
在过去的十年中,数据架构师围绕两个关键单元设计了数据运营:
1、 数据湖:通过廉价的存储设备来存储大量的原始甚至是非结构化的数据。数据湖架构通常适合临时探索和数据科学用例。
2、数据仓库:传统上的数据仓库通过优化计算和处理速度来提升商业智能,使得仓库成为分析团队的首选系统。
在今天,依旧有许多公司使用这两个系统--一个用于所有数据的数据湖,加上用于分析和报告用例的专门数据仓库。随着数据湖和仓库增加了更多的功能,我们开始看到这两个生态系统的融合。相信在不久的将来,我们会看到数据湖库这种架构。
像Snowflake这样的数据仓库已经将存储和计算的成本分开,大大降低了将所有数据存储在数据仓库的相关成本,目前一些数仓参与者已经开始增加对半结构化数据的支持。从另一方面来说,像 Databricks 这样的数据湖玩家已经开始转向“数据湖库”的概念(一种新兴的系统设计,将数据仓库的数据结构和管理功能与数据湖的低成本存储相结合),而且宣布支持 SQL 分析和 ACID 事务。
从2020年开始,"现代数据栈 "这个词在数据世界里随处可见。它指的是用于处理海量数据的新的、最好的现代数据架构。
现代数据栈的关键支柱之一是一个强大的云平台。它最初以云数据仓库为中心,现在也开始包括云数据湖和相关的数据湖引擎,今天,现代数据栈指的是数据工作流程中每一部分的一整套工具。如:
●数据摄取:例如Fivetran、Stitch、Hevodata
●数据仓库:例如Snowflake、BigQuery
●数据湖:例如Amazon S3
●数据湖处理:例如Presto、Dremio、Databricks、Starburst
●数据转换:例如dbt, Matillion
●元数据管理:例如Atlan
●BI 工具:例如Looker
随着现代数据栈的成熟,企业已经开展了雄心勃勃的项目来升级他们的数据基础设施,并整理出基本的数据需求(即摄取数据,完成云迁移项目,并建立新的BI工具)。 虽然这些都释放了大量的潜力,但也造成了混乱,比如我们平时常见的“字段名称的含义是什么意思”以及“为什么看板上的数据又出问题了”等等这样的问题,正因为我们平时大部分时间在解决上述问题,扼杀了团队的敏捷性。
虽然这些都不是新的问题,但我们正处于新的颠覆性解决方案的风口浪尖。由于现代数据平台正围绕五个主要参与者(AWS、Azure、Google Cloud Platform,、Snowflake和Databricks)进行融合,并且元数据本身正在成为大数据,因此未来元数据领域智能化和自动化的潜力巨大。未来我们会看到一个或多个为现代数据堆栈构建的现代元数据管理平台的兴起,这些平台解决了数据发现、数据编目、数据沿袭和可观察性问题。
从2020年开始,有两个角色的崛,比以往任何时候都更加主流。
1、数据平台负责人:企业越来越意识到,需要有一个中心团队负责开发数据平台,帮助企业的其他部门更好地开展工作。自然,这个团队需要一个领导者,过去,这是由数据仓库专家或数据架构师等更传统的角色来处理的。现在,拥有一名数据领导者来领导整个组织的数据计划已变得很普遍。所以这些人就有了一些头衔,比如“数据平台负责人”或者“数据平台总监”。那么数据平台领导者的主要工作是监督企业构建现代数据堆栈,这包括设置云数据湖和仓库、实施数据治理框架、选择 BI 工具等。当然这个新角色也伴随着一个新的KPI:那就是采用率。也就是评估企业中人员和团队在日常工作流程中使用数据(和数据平台)的能力。
2、分析工程师:在过去十年中,分析师都会有一种挫折感:那就是在产品化和建立数据管道方面都会依赖数据工程师。像DBT和Dataform这种基于SQL的管道构建工具的出现,通过赋予分析师超级权力,将整个数据转换过程都交到分析师手中以此来改善这种挫折感。这也就是和以前的数据分析师有所不同,现在他们拥有整个数据堆栈,从摄取和转换到最终向其他业务部门提供可用的数据集。
数据质量是一个在过去二十年中没有太多创新的领域。然而近几年有了很大的发展,而且数据质量的不同方面正在整个数据堆栈中融入。
1、数据质量分析:数据分析是审查数据的过程,以了解其内容和结构,检查其质量,并确定未来如何使用它,在数据资产的生命周期中,分析可以发生多次,从浅层到深入的评估。它包括计算缺失值、最小值和最大值、中值和众数、频率分布以及其他有助于用户了解基础数据质量的关键统计指标,虽然数据质量分析通常是数据堆栈中的独立产品,但公司越来越多地将其作为一项功能纳入现代数据目录,使最终用户能够理解和信任他们的数据。
2、业务驱动的数据质量规则:数据质量不仅仅是关于对数据的统计理解。它也是关于数据是否值得信赖,基于业务背景;例如,你的销售数字通常每周不应增加超过10%。销售额的100%激增应该提醒团队成员,并停止数据管道任务的运行,而不是让它直接提供给高管进行决策。
当然目前仍然没有一个很好的方法让数据团队与业务团队合作进行数据质量检查,但预计这个领域在未来几年会有很多创新。在未来,我们将看到更智能的解决方案,根据数据的趋势自动生成业务驱动的数据质量规则。
3、数据管道中的数据质量测试:数据质量变得普遍的第三种方式就是把它写进数据管道本身。这种思想借鉴了软件工程领域的 "单元测试 "的原则;多年来,软件工程一直包含单元测试框架。它们会自动测试每个单独的代码单元,以确保它可以使用。管道内的数据质量测试可以模仿单元测试框架,这样为数据工程带来同样的信心和速度;这也有助于团队在上游数据更改影响组织的工作流和报告之前发现数据质量问题。