阿里云ODPS系列产品以MaxCompute、DataWorks、Hologres为核心,致力于解决用户多元化数据的计算需求问题,实现存储、调度、元数据管理上的一体化架构融合,支撑交通、金融、科研、等多场景数据的高效处理,是目前国内最早自研、应用最为广泛的一体化大数据平台。
DataWorks新重点能力介绍
DataWorks与DataV-Card合作推出的AI增强分析产品,一站式完成从数据查询、分析、可视化、共享的完整链路。1分钟即可形成数据报告,帮助互联网、金融、政务等各个行业客户表达数据观点,讲好数据故事。
以公共数据集为例,浏览数仓数据进行SQL取数查询——开启DataWorks增强分析,对于查询数据结果经过图表,主题等调整,保存为可视化的数据卡片——卡片备注自身数据灵感,挑选数据卡片搭建数据报告,形成专属个人知识库——数据报告一键分享。
DataWorks智能数据建模产品,从数仓规划、数据标准、维度建模、数据指标四个方面,以业务视角对业务的数据进行诠释,让数据仓库的建设向规范化,可持续发展方向演进。产品内置零售电子商务数据仓库行业模型模板,个人可以一键导入模板,DataWorks智能数据建模个人版6个月60元,开通后可以免费获取零售模型模板,并按照文档进行学习操作 。
登录阿里云官网打开DataWorks智能数据建模寻找行业模型模板——载入模板,查看数仓分层查看数据域,查看数据集市和主题域——在维度建模中可以看到从模板导入的模型。也可选择创建模型,抑或通过代码模式来修改模型——将模型与数据开发打通,通过模型物化的物理表可以自动生成模型对应的ETL代码。
存量已适配EMR on ECS(DataLake/Custom)以及开源
集群切换或者双跑可以进行任务的无缝迁移: 如果用户之前用的是ECS集群,想切换成ACK集群,或者两种集群同时运行,Spark任务都可以平滑的运行在这两种集群之上。
大数据的开发调度、分析和治理: 只需要开通一个DataWorks,就可以形成这个大数据的全家桶的生态。数据集成模块可以实现数据入户、数据开发和调度、数据分析和治理等等,一应俱全,可以完成需要多个开源组件才能实现的产品功能,来助力企业的数仓团队实现研发的提效和体验的提升。
DataWorks适配EMR on ACK(Spark)具有以下特性
根据ACK容器服务弹性能力按需灵活调整计算资源 ,若之前已保有ACK服务支撑在线服务和应用,那么本次就无需为大数据引擎单独购买ACK;
EMR Spark集群部署在ACK容器服务中,在创建EMR集群直接选择已经有的ACK,实现大数据服务和在线应用程序共享集群资源 ;
ACK容器服务本身具备良好弹性扩展能力,无论是水平、定时还是垂直伸缩,都能够通过丰富的弹性扩容方案来充分应对计算高峰期,整体达到资源合理利用、节省成本的效果。
专注Spark原生开发模式,无需关心底层集群差异 ;
支持多种调度周期,提供超大规模稳定调度,每日可以支撑千万量级的实力调度,并提供丰富的任务运维手段帮助用户及时处理任务执行异常,并发送相应监控告警;
基于ECS Spot抢占式实例进行调度适配与优化,本次DataWorks适配Spark集群,根据ACK抢占式实例做了专门的调度优化。
DataWorks数据治理中心提供丰富检查项,融入大数据开发流程,并且涵盖研发、存储、计算等多个方面的治理建议,形成了可量化的健康分指标,可以帮助企业在整个大数据过程中进行持续治理优化。
DataWorks作为阿里云一站式开发和管理平台,是一款云上全托管产品,可以即开即用,无需像开源一样经过前期产品部署、环境部署等繁琐的流程。DataWorks相比开源具有以下几点优势:
离线及实时同步数据至OSS/Hive
运维层面: 解决flink/spark streaming/kafka等运维优化调优,湖文件的管理:compaction, 清理历史文件, 清理过期分区,整个作业的实施性和高吞吐保障,开发/调试/部署/运维全生命周期等等都需要用户管理,运维难度大的痛点。
学习成本: 降低数据库binlog多样性解析需要专业知识储备,任务运维管理,flink、spark、kafka等技术引擎用户学习成本。
DataWorks数据集成入湖OSS具有以下特性
DataWorks入湖OSS能力支持的链路特性
支持MySQL数据增量实时入湖,秒级延迟
支持MySQL历史存量数据离线入湖,可以控制同步速率,避免影响源端业务
支持MySQL实例级别配置任务,同时同步一个实例下多库多表
支持按照正则感知MySQL端的库表变化,将增加的库表自动加入OSS湖端
支持OSS湖端自动建立元数据表
支持对接阿里云DLF,入湖元数据自动导入,实时可查
支持自定义OSS湖端存储路径
支持OSS湖端分区按日期自定义赋值
支持Kafka数据增量实时入湖,秒级延迟
支持数据中间进行简单的数据处理,包括数据过滤、脱敏、字符串替换等
支持字段级别赋值操作
支持kafka非结构化的JSON数据,可以根据同步过程中实时的数据,进行动态增加字段
支持OSS湖端自动建立元数据表
支持对接阿里云DLF,入湖元数据自动导入,实时可查
支持自定义OSS湖端存储路径
DataWorks控制台新建任务,输入任务名称,选择来源和去向,——demo演示中选择MySQL到OSS,选择整个入湖,选择mysql数据源,资源组,OSS数据源,然后进行联通测试。——测试完后,可以进入整个任务配置中,在任务配置中选取的来源需要同步表,选择外在存储路径,可以自动勾选是否同步到DIF中——确定之后建立一个OSS的分区。演示demo中按时间分区,配置运行中高级参数——点击完成配置整个任务配置完成
湖仓一体数据治理能力评估与优化
面向数据体量高速增长背景下,所需要完成的各类增效降本的治理场景,用户可通过DataWorks数据治理中心,面向存储、计算维度进行治理,系统提供数据计算任务优化、数据存储优化等治理功能,可帮助用户持续分析和优化数据存储及加工计算成本。
DataWorks数据治理中心 on EMR 具有以下特性
通过DataWorks控制台进入数据治理中心,了解总体治理健康分数及各维度健康情况——通过治理中心使用分析查看数据链路对于各类资源的总体消耗及数据调度任务的资源明细,在资源的明细里能针对EMR各类型任务去进行一个筛选,来查看具体资源消耗情况。——重点关注有大量资源异动消耗的任务,切换知识库查看系统当前支持的数据治理项,发现对应治理问题——定位问题进行事前检查,配置管理选择到对应工作空间,一键开启对应智力检查项——对于检查无法通过,拦截任务的提交,点击操作检查具体查看不符合治理规范内容,从而进行修复。