近年来,随着数字化进程不断推进,大数据成为企业经营管理的主要手段之一,大数据平台建设的需求与日俱增。但是传统的大数据系统搭建、开放和运维都相对复杂,还存在着弹性不足、资源利用率低等一系列问题,同时海量数据的爆炸式增长激发了企业上云的需求。这时,以 “弹性、敏捷、开放” 著称的云原生闪亮登场,赋予了大数据平台新的定义 - 云原生大数据平台。
6 月 28 日,论道原生直播间,「DaoCloud 道客」架构师-王百川,携手数新网络大数据解决方案总监-若谷,分享了云原生大数据解决方案,以及数据中台和方案,共同展望行业未来,释放数字经济发展的新动能。
大数据架构的发展历程,可以分为三个阶段。大数据的架构 1.0 – Shared Everything Architecture 经过广泛验证,性能容易估算,硬件适配广泛,并且技术门槛低,也容易实现数据一致性。但是只能通过提升内存硬盘等方式,让算力增加,受限于单机性能;并且资源按照峰值进行规划,使用效率低下;响应时间和吞吐量一般不能兼顾,容错性和高可用性的代价昂贵。
大数据的架构 2.0 – Massively Parallel Processing 的并行处理能力强,性能优异。可以通过横行扩展节点实现计算能力提升,且能通过自身的数据冗余实现整体高可用,能够并行执行读/写,吞吐性能优异,但劣势是系统复杂、维护成本高,数据再均衡造成性能下降和不可用,数据量大时,整体硬件成本很高。
大数据的架构 2.0 – Hadoop 支持对结构化/非结构化的异构数据收集,也可以通过横行扩展节点实现计算能力提升,以及通过内置的数据冗余保障整体高可用,技术生态丰富,场景覆盖完善。它的劣势是涉及大量生态系统,管理复杂性高,且小数据集的查询效率很低,同时数据再均衡会造成性能下降和不可用。
那么有没有更好的方式来管理大数据呢?
云原生大数据的理念应运而生,大数据的架构 3.0 – Cloud Native Data Processing Architecture 中的计算/存储可以灵活按需弹性扩展,每一层都可以有内置的容错策略,类似 MPP 的高吞吐率性能,按照场景需求按需供给计算资源。这也带来了新的挑战:存储网络访问性能要求更高、潜在引入两层调度造成资源利用率低、原有大数据系统的迁移成本高,但是瑕不掩瑜,并且随着技术的进步,相信这些问题都是可以不断解决的。
所以云原生到底是如何跟大数据结合的呢?
MPP 体系的原生化 – 以 Greeplum (GP) 为例。容器化封装 GP 实现平台移植性和依赖管理,并由 Kubernetes 管理 GP 容器实现高可用性和弹性,同时 Kubernetes Operator 实现运维管理自动化。因此,通过 Kubernetes 来运行 GP,可以实现分钟级别按需部署,跨平台一致的可复现体验;资源共享、知识复用、高效运维实现总体成本的降低;预制不可篡改的软件镜像、内置安全加固等最佳配置;资源隔离、健康检查与自恢复能力保障平台稳定性;计算存储分离,实现基于云平台的高度自动弹性扩展等优势特性。
Hadoop 体系的原生化 – 以 Spark 为例。Google 在 2016 年发起了 「apache-spark-on-k8s」项目,推动 Spark 与 Kubernetes 的融合,并于 2018 年正式合并到主版本,而后在 Spark 2.3 发布。使用 Kubernetes 来运行 Spark,可以通过统一平台进行高效的标准化管理,因为数据分析的全流程中大部分都已经容器化。同时,Spark 应用的资源与其他应用的资源共享,实现了集中式资源调度。而且利用 Kubernetes 的技术能力可以快速实现多租户隔离、资源配额管理、RBAC 等高级集群管理能力,并能充分利用活跃的 Kubernetes 生态,比如监控、日志等,还能通过 Kubernetes 在不同云提供商之间实现跨云迁移。
云原生大数据的技术价值毋庸置疑,但是如何才能真正走向企业客户,实现业务价值呢?
作为云原生领域的创新领导者,「DaoCloud 道客」基于社区深厚的技术积累,推出了云原生大数据中台解决方案,打造一站式云原生大数据智能平台,提供覆盖分布式基础设施、数据集成、数据开发、数据运营、数据智能等多功能模块的数据开发及服务能力。方案以云原生技术为底座,实现存算分离、弹性调度、更好的资源隔离等能力,也支持混合云等多种异构环境部署,保障业务的灵活性,帮助企业快速实现业务目标。提供可插拔的数据引擎服务,可根据业务需求在数据处理时编排引擎处理模式及定制化开发。实现了自助化数据开发、自动化数据发布、智能化数据安全,提升大数据平台服务的易用性和便捷性。同时,采用湖仓一体,批流一体等先进大数据架构,满足客户在新的业务挑战下对各类型数据存储、实时处理的需求。并且,「DaoCloud 道客」还提供数据治理咨询服务,帮助客户构建数据中台,同时配合方案体系中顶层的应用与专家服务,真正意义上帮助客户实现数据战略。
总的来说,这套解决方案既可以帮助客户构建一个完善的数据平台,也可以进阶成为数据中台。最大的特点就是,全部产品模块与计算引擎,都是容器化、云原生化、模块化的。很多企业或多或少都已经在使用一些大数据产品,而这种松耦合的模块设计,可以灵活地嵌入与优化其原有的平台体系,尽可能地减少升级替换所带来的成本和影响。
大数据是:无法在一定时间范围内用常规软件工具进行捕捉,管理和处理的数据集合,需要新的处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产,具有容量大、速度快、价值低、多样性的特点。
大数据萌芽于 20 世纪末,21 世纪初迎来迅猛的发展,短短十年时间,日增数据量达 TB(百亿),甚至 PB(1024TB) 。2010 年后,整个信息化 (Information Technology) 时代逐步迈入了数字 (Data technology) 时代,各国都在从政策层面积极布局大数据战略,从事大数据的社会资源逐年增加,并已有不俗的成果。
因此,如何管理并利用爆炸式增长的数据,既是机遇也是挑战。
在数据和业务中横亘着三座大山,数据找不到、不敢用、不会用。《哈佛商业评论》之前的一篇文章指出,人们将 80% 的时间用于数据准备,而分析数据所用的时间仅占 20%。大数据就像一个还未被完全开发的矿山,想要真正实现数据赋能业务,需要从四个方面破局:
1. 用户如何快速、准确地发现和使用最合适的数据?
2. 在资源受限时,如何识别出重要的数据,重点保障业务使用、提升数据服务质量?
3. 升级公司数据文化,如何让各部门都有参与感,部门各自价值怎么体现?
4. 从全局来看,公司是否有管理的抓手?数据资产是否可运营?是否有全局一盘棋的视野。
数据中台正是帮助企业挖宝的手段,是一套可持续 “让企业的数据用起来” 的机制,一种战略选择和组织形式,依据企业特有的业务模式和组织架构,通过有形的产品和实施方法论支撑,构建一套持续不断把数据变成资产并服务于业务的机制;简单来说就是提取各个业务的数据,统一标准和口径,通过数据计算和加工为用户提供数据服务。从下图可以看到,数据中台的整个产品体系,覆盖了从数据集成、存储、治理、计算、服务的过程。
从数据中台的具体应用来看,主要包含以下几个方面:首先,通过数据集成的工具,将业务侧多路异构数据统一汇聚到中台里面,这个过程可能会涉及数据的离线开发,实时开发、算法开发,还有智能调度等等。接着,在数据中台内,按照数据仓库的方法论构建相应的主题库,如信用、用户、产品等。然后是数据的资产管理模块,包括原数据标准、数据质量,数据生命周期等,用于数据资产治理。在数据中台最上端,由数据服务体系向上层的各个生产系统去提供一些应用,如向管理层提供一些数据的决策类支持,由数据大屏、驾驶舱来组成这些内容。另外也可以对上层业务的一些创新应用,提供一些更好的数据支撑。数据安全管理肯定是必不可少,此外整个中台还可以构建一个运营管理的体系,负责产品运营的用户,可以在中台之上去做一些数据运营、产品运营相关的工作。
更多方案的技术和内容详情,可观看回放了解,已为大家提供直播回放和演讲 PPT,以及点我技术交流。
在此感谢大家的积极参与,我们将继续为大家带来更多更好的内容。
本次活动的纪念品将陆续寄出,希望大家每期都能有所收获,我们下期再会。