在了解清楚了选择数据中台时应关注的内容后,CTO/CIO可以借鉴以下数据中台选型示例,企业选购合适的数据中台。
01
项目背景
数字化时代,数据已经成为企业的战略级资产。某集团把建设数字化转型作为重要发展战略,致力于将数字化转型的重要组成部分—数据中台,打造成数据资产与数据能力中心,推动业务创新与变革。
该集团有70多套应用系统,各事业部根据自身的业务需要独立搭建系统。这些系统中的数据未实现全面融合,为该集团带来了一些重复开发、成本浪费的问题。从烟囱式的多个平台向数据中台转变,建立统一的数据采集、处理、计算及服务平台,降低数据使用成本,是该集团要突破的重点问题。另一方面,开展有效的数据治理,搭建功能强大的数据中台来管理庞大的数据资产,深度挖掘数据潜在价值,是该集团未来工作的重中之重。
该集团的数据现状如下。
数据资产大、复杂度高、融合度低。
未建立统一的数据标准及管理平台。
未深度挖掘数据价值。
02
项目目标
数据采集组件与存储库搭建
数据管理和分析组件搭建
数据全面有序入湖
完成数据治理和质量监控体系的建设
提供数据服务
03
项目范围
项目范围包括ERP、CRM等业务数据,内外部设备数据等。最终数据范围和系统对象以蓝图设计阶段的成果为准。
04
时间要求
项目预计总工期X个月,预计自某年某月某日起,至某年某月某日结束。
05
主要任务、交付件
项目共分为8个阶段,下面将对各个阶段的任务进行详细说明。
1)策划、招标、启动阶段。主要任务为对现状进行调研、资源评估、项目立项、商务招标,供应商需要交付项目方案、立项报告。
2)需求调研、分析。主要任务为对业务需求进行分析,供应商需要交付项目需求说明书、源系统需求清单、数据规格说明书、硬件资源需求说明书。
3)蓝图设计。主要任务为架构设计,供应商需要交付架构设计说明书(含集成架构、技术架构、功能架构、硬件部署架构)、功能说明书、数据库设计说明书。
4)搭建技术平台。主要任务为系统安装部署,供应商需要交付系统安装部署说明、系统运维巡检说明书、功能说明书、开发手册。
5)数据入湖。主要任务为全部数据入湖,供应商需要交付数据入湖规范(含入湖标准、入湖步骤、入湖频率),保障全部数据入湖并满足质量要求。
6)数据治理。主要任务为数据管理组织与流程建设、数据模型设计、数据标准、质量标准等,供应商需要交付数据管理机制(含组织、流程负责人、制度、支持工具等)、流程与制度文档、数据标准说明书、数据质量管理评价说明书;制定各领域数据标准与规范、数据质量管理规范和评价体系,并要求数据质量100%满足要求。
7)模型开发、服务提供。主要任务为业务域建模,供应商需要交付模型开发设计文档。
8)系统验收、技术支持。主要任务为系统功能清单整理、系统运维报告制作、培训,供应商需要交付培训教材、操作手册、运维手册、验收报告,并提供开发的源代码。
06
需求及功能要求
本项目包含但不限于以下业务需求或功能要求。
01
数据管理机制建设要求
数据管理机制建设分为建设思路、数据资产管理、数据标准管理、数据质量管理、元数据管理五项内容。下面将对各个建设要求进行详细说明。
1)数据管理机制建设思路。
结合该集团业务现状设计数据管理组织,编制数据管理流程,明确数据责任人。
构建统一的数据模型、数据分布和数据流转方案,作为识别数据治理对象的依据。
基于业务现状调研,规划设计核心业务域,并覆盖该集团的研发、营销、计划、制造、物流、质量、财务、人力等不同业务模块。
制定数据对象的标准与规范,如数据对象的定义、采集规范、入湖标准、质量标准等。
设计数据标准管理、数据质量管理、质量评价等相关流程,确保数据质量得到持续改善。
平台需要提供便利的数据质量问题预警、追溯功能,对开发规范、ETL代码规范进行自动检测并提醒。
2)数据资产管理。
资产归属:支持按照企业组织架构灵活设置多级数据资产的归属部门,提供部门与数据集的归属关系,并以此进行管理。
资产分类:支持数据资产按照一定的分类进行管理,可通过树型结构、网状结构进行管理,快速检索定位数据资产。
数据产出:支持展示数据的产出信息,包括元数据变更信息、任务的运行频率、时长等。
血缘分析:支持展示数据的血缘信息,包括上下游的表级血缘、上下游的字段血缘等。
权限管理:支持对数据资产权限的流程化申请、审批以及收回等操作。
资产概览:从数据归属、使用情况、数据流转等方面,多维度、全面展示企业数据资产。
统计概览:展示总项目数、总表数、占用存储量、消耗存储量、占用存储TOP排行等图表。
资产搜索:支持数据资产搜索,支持模糊查询。
支持PDF、Word、Excel等格式文件的导入和导出(权限相关)。
3)数据标准管理。
信息架构管理:支持按业务域、业务主题、业务对象、对象关系、业务流程、业务属性的原则建设数据标准。
模板管理:支持按照业务域模板化管理数据标准。
逻辑建模:支持ER模型管理、逆向数据库、主外键管理、分区设计、临时表管理。
维度建模:支持基于星型模型与雪花模型建设事实表,支持层级维表的管理。
模型物化:支持发布后直接在数仓中创建并同步关系建模的业务表以及维度建模的事实表、维度表、汇总表都。
标准校验:能按数据标准校验数据源入湖数据,生成不符合标准的事项清单。
发布与同步:支持数据标准审批、发布、变更、下线等流程操作,支持业务与数据标准的关联与同步。
支持PDF、Word、Excel等格式文件的导入和导出。
4)数据质量管理。
质量规则:支持预定义常见数据质量规则及自定义特定数据质量规则。
规则校验:支持数据资产全目录及条件扫描、支持质量告警及标识功能。
质量监控:支持创建数据质量监控指标,设定相关监控阈值,支持数据质量告警。
发布与评价:支持数据质量发布,包含常用或自定义质量评价维度及指标,以此衡量数据质量。
规则关联:模型开发时能关联到数据标准、数据质量规则。
5)元数据管理。
元数据采集:提供外部元数据的批量采集获取功能。
元数据解析:具备一定元数据解析能力,能辅助生成数据字典、数据血缘关系。
元数据管理:具备元数据管理能力,能够查看和维护数据字典详细信息、具备数据血缘分析、影响力分析等功能。
元模型管理:将企业中技术元模型、业务元模型、数据元模型、管理元模型等内容进行提炼与管理,让企业各个部门都能够轻松、准确地找到自己所需的数据。
元数据展示:按照IT技术与业务角度展示元数据,如适合一定场景的业务图谱。
元数据搜索:基于元数据提供数据表的搜索以及权限的申请。
02
技术平台功能要求
技术平台功能有16项要求,下面将对各个功能要求进行详细说明。
1)数据采集与存储。
支持多种数据源类型。
支持关系型数据库、分布数据库的迁移,支持文件和数据库增量迁移。
支持本地部署,支持有私有云、公有云系统的数据库中进行数据抽取。
支持数据源因安全或者组网限制不在公网场景暴露。
基于业务需要支持离线数据采集和实时数据采集。
支持批量采集关系型数据库,支持实时采集服务器日志、流式数据。
确定数据采集规范和系统可支持配置数据采集策略。
文件系统的底层为Hadoop体系中的HDFS分布式文件系统,全面支持Hadoop系统上层应用。
提供Web界面自动或者手动存储扩容能力,普通运维人员可自行处理。
支持与市场上主流的大数据平台相互迁移,并配有Web页面,无须大量的手动处理或者开发代码处理。
存储数据共享接口必须通用。
2)数据开发、程序开发与调度。
支持SQL脚本编辑器,包含但不限于代码格式化、代码补齐、关键词高亮等编辑器常用操作;支持以可视化的形式展现SQL代码的内部结构,帮助相关人员轻松理解长SQL的语义;支持SQL组件概念,将相同的SQL逻辑写成模板,提升代码复用性。
支持通过图形化所见即所得的ETL编辑器实现ETL能力,支持数据抽取、清洗、转换、加载。
支持快速生成ETL代码,引用预置代码片段、映射规则等,通过调整参数,以智能化数据处理方式取代手工编码过程,大幅降低人工参与度,提高数据清洗策略的准确性,保证数据按数据标准的要求被正确处理。
提供功能强大的集成开发环境,支持代码版本管理,支持任意两个版本的代码对比;支持多用户协同开发、代码回收站;支持代码全文检索。
支持发布控制,经过审核后可以将代码发布至生产项目,做到开发和生产环境隔离。
数据开发作业支持流处理和批处理混合编排,支持多种大数据服务引擎编排。
程序任务调度,包括时间周期调度、基于消息通道的事件调度。支持设置作业间的依赖关系。
程序任务管理,包括但不限于重新执行某批次任务、给作业补数据、暂停运行中作业的部分节点;作业端到端实时监控,实时显示作业上各节点数据输入/输出量、处理错误数量,作业执行结果支持邮件、短信、即时通信等通知。在图形化界面(DataFlowDesigner)上提供URL连接方式,使用预先部署的各类Stage进行ETL数据处理作业开发,实现本地和云上数据转换和构建,灵活方便、管理高效且易于维护。
提供丰富的数据转换和构建功能,支持的数据种类多。
原生的数据并行处理能力。
3)数据建模。
数据建模工具展示并管理用户创建的数据场景。
支持导入、导出和快速复制基于数据场景的数据模型。主要功能包括模型设计、模型发布以及模型运行的结果集管理。对于未发布的模型,可进行查看、修改、删除、运行;对于已发布的模型,只支持查看及运行。
支持数据字典导入、导出,方便数据字典使用、行业经验积累和跨项目复制。
支持数据模型字段引用数据元,将数据标准直接作用于设计模型,保证数据的一致性和可理解性,保证设计人员在面对不同的逻辑数据模型时能够按照统一口径进行操作。
支持离线与实时数据融合,支持用户自定义分析时间范围。
4)模型管理。
数据模型管理在数据标准的约束下,保证数据模型可持续维护及可读。
在数据标准规范的约束下,完成数据模型设计,确保数据模型的一致性、完整性、准确性和可理解性。
支持元模型管理。
支持数据层级管理,完成数据架构各层次及数据域的设计。
在数据标准规范的约束下,完成逻辑模型基本信息、数据结构存储方式的设计,支持百万级数据模型的管理。
支持各种格式文件的导入和导出。
5)API服务。
支持在线开放、调试、发布数据服务API;监控开发的API和调用的API;API开发流程及使用流程管理。
自定义API流量控制策略。
支持单实例每秒200次的API并发能力。
支持业务人员自行定义数据服务。
6)可视化。
无缝集成云数据仓库服务、数据湖探索、关系型数据库、对象存储服务等,支持本地CSV、在线API及企业内部私有云数据等,可实现在同一个可视化大屏中呈现不同来源的数据。
产品应该具有良好的整体性,通过一个产品、一个服务、一个平台提供完整的企业级BI及敏捷BI展现的功能。
元数据模型既支持业务人员进行自助建模,也支持IT人员进行企业级复杂建模。
可视化图形中除了包含常规图形外,还提供支持预测分析用途的决策树图、动因分析图、螺旋图、旭日图。
提供常规图表和装饰,支持绘制树形图、关系网络图、地图查询,支持可视化展示图表信息与业务数据融合的效果。
拖曳即可完成组件自由配置与布局,所见即所得,无须编程就能轻松搭建可视化大屏,并且依据投放设备分辨率自由定制大屏尺寸。
支持与市场上主流BI工具的集成。
支持公开、加密方式发布可视化大屏,可生成链接分享给其他用户,后续将支持传递URL参数。
提供灵活的色彩配置和页面布局方式,便于用户了解数据之间的层次与关联。
遵循统一的用户认证与租户级权限隔离机制,发布大屏支持设定密码和Token,保障用户数据的私密性。
7)数据标准。
支持信息架构管理,通过统一入口进行主题库建设,管理数据资产目录(业务分层)、数据标准、数据模型等。
支持业务分层管理、码表管理、数据标准管理、数据标准模板自定义。
关系建模:支持ER模型管理、逆向数据库、主外键管理、分区设计、临时表管理。
维度建模:支持建设基于事实表的星型模型与雪花模型,支持多级维表管理。
模型转化:建模的业务表以及维度建模的事实表、维度表、汇总表都支持发布后直接在数仓中创建并同步。
审批功能:支持在线发布、下线等审批操作,支持业务资产与技术资产与数据资产的同步,支持业务资产与技术资产的关联。
支持PDF、Word、Excel等格式文件的导入和导出。
8)质量管理。
质量统计功能:展现质量报警和质量规则统计信息。
目录管理功能:支持按照目录管理和运维规则。
业务指标监控功能:支持创建自定义业务指标、规则和场景三层架构监控数据质量。
规则管理功能:支持基本数据质量监控规则。
规则运行功能:支持多引擎、全库全表及条件扫描数据源,通知报警及向数据资产打标签功能。
规则关联调度:支持通过数据开发模块的作业开发功能关联调度质量规则。
支持PDF、Word、Excel等格式文件的导入和导出。
9)元数据。
具备元数据管理能力,基于元模型驱动理念,将企业中技术元模型、业务元模型、数据元模型、管理元模型等内容进行提炼与管理,让企业各个部门都能够理解并找到自己所需的数据,是企业数据资产地图构建的核心能力。
提供元数据的外部采集能力及搜索与展示能力。
让元数据可按照物理逻辑与业务逻辑的方式展示。
展示数据的基本元数据,包括基础信息、存储信息、权限信息等。
基于元数据提供数据表的搜索以及权限的申请。
识别该集团业务范围内重复使用、跨业务领域的主数据,建立主数据的数据模型、逻辑模型。
10)主数据管理。
识别业务范围内重复使用、跨业务领域的主数据;提取分散在各个应用系统中的主数据,集中到主数据存储库;建立主数据的数据模型、逻辑模型和物理模型。
根据企业业务规则和企业数据质量标准对收集到的主数据进行加工清理,形成符合企业需求的主数据。
制定主数据变更的流程审批机制,从而保证主数据修改的一致性和稳定性。
实现业务系统与主数据存储库的数据同步保证每个系统使用的主数据相同。
保证主数据管理的灵活性,方便修改、监控、更新关联系统主数据的变化。
11)数据资产管理。同前文提到的要求类似,此处不再赘述。
12)监控功能与配置。
支持跨网段、跨厂商、跨系统的数据链路实时监控,监控端支持多系统的状态信息上报汇总和集中推送。
支持自定义监控链路配置,可快速实现从数据生产到业务应用的全链路编排及溯源。
确保及时发现工业数据链路断流、延时等问题,并立即通知相关运维人员进行问题修复。
提供全局概览功能,展示所有已开启监控的数据业务线的运行情况,包含业务线名称、业务线描述、负责人以及业务线的正常/异常状态。
提供监控详情功能,在详情页可以看到当前业务领域所有业务节点的运行情况、告警信息,可以查看单个业务节点涉及的监控任务节点和数据质量状况。
提供配置管理功能,在配置后台可以查看已经配置的业务领域。可快速开启或关闭业务线的监控功能,可以配置多个业务领域通用的负责机构及涉及的应用。
提供配置面板功能,用户通过可视化拖曳的方式可以快速创建数据关键节点的加工链路。用户可配置与业务节点已经关联的任务节点。
13)任务监控。
主要用于展示调度任务的指标数据情况。
任务管理:两种模式可供用户选择—列表模式和DAG模式,支持周期任务、手动任务、补数据、测试运行、修改调度资源组,支持设定保留的CPU、内存和GPU资源,同时也可以关闭不需要的环境资源,以及进行类似的计算资源调整。
任务运维:支持单任务重跑、多任务重跑、重置成功、暂停等操作。支持列表模式和DAG模式。可以通过周期运行、测试运行、手动运行任务查看任务运行状态。可以针对任务进行重跑、查看运行日志、查看节点代码、查看节点属性。
智能监控支持基线预警,支持对基线设定期望完成时间,算法会自动推断过程中每一步任务的预警时刻。一旦有任务越界,便会触发告警,帮助用户将故障消灭在萌芽时刻。
智能监控支持事件报警,对于决定基线产出的关键任务,一旦有出错或者变慢的情况,立刻生成事件,并自动判断报警对象。
智能监控支持自定义报警规则,支持完成、未完成、出错、超时、周期未完成等多种报警规则。
支持成环依赖、孤立节点监测。
支持短信、邮件、即时通信等告警方式。
提供模型监控仪表盘,监控已部署模型的运行情况。
14)安全管理。
定义数据的资产等级并针对不同等级制定不同的安全策略,包括敏感数据识别、加密和动态/静态脱敏等,保证底层数据的存储和使用安全,保证离线和实时数据在ETL过程中的安全性。
数据安全等级为数据做了存取控制,对数据本身进行密集标记,标记与数据是一个不可分的整体,只有符合密集标记要求的用户才可以操作数据,从而提供更高的安全等级,进一步确保敏感数据访问的合法性、合理性、安全性。
通过审计日志技术,把用户对数据库的所有访问自动记录下来,帮助技术人员标记危害数据安全的用户等信息。
提供完善的数据权限申请—审批—使用—销毁流程和平台支持。
数据安全等级自定义,支持字段的安全等级设置,支持字段级授权。
敏感数据:通过数据安全等级,发现和定位敏感数据,明确其在数据资源平台上的分布情况,根据敏感数据类型自动发现敏感数据,并为其分级、分类。
数据访问审计:记录审计特权用户的访问行为,包括访问时间、操作内容等,提示特权用户在正确的时间完成正确的操作,审查是否有越轨行为,进而保证数据系统的安全。
数据脱敏:包含敏感信息的数据库,在不限制用户访问的情况下,对敏感信息进行动态遮蔽。
支持跨组织的元数据展示与授权,加速部门间的数据共享。
15)智能标签。
建立数据中台的标签体系,提供业务数据OLT(实体关系标签)建模功能,提供制作标签、统一查看的功能。
标签规划支持基于业务主体的多维数据分析,支持数据可视化呈现,支持数据集编辑。
支持标签值码表管理,提供手动输入值码和关联值码功能。
支持标签在组织机构内共享功能,提供公共标签/私有标签/授权标签的制作、管理、申请等功能。
提供公共标签池公开策略设置功能,可设置子树可见和下级节点可见。
提供公共标签的浏览、搜索、查看、使用申请等功能。
提供使用申请的审批和授权功能。
提供标签的公开、撤回功能。
支持在不同计算资源之间同步标签,支持同步中的表合并,支持同步任务的调度和任务运维,支持实体关系分散在多个物理表的标签合并、同步到一张目标表中。
16)智能算法工具。机器学习模型开发,需要具备以下功能。
数据加载。支持远程和本地数据访问。
数据预处理。包括数据迁移、数据转换、数据质量处理以及数据源管理等。提供统一数据目录功能,以支持数据集或者数据实体的搜索和查找。
特征工程。根据业务目标对预处理后的数据进行必要的转换和加工,以支持快速实现授信建模,这是智能算法工具的核心功能模块之一;基于自动特征工程领域自有的成熟算法,支持对数据集进行自动分析和图形化展现;支持数据集及特征的共享。
算法选择。算法选择是建模的重要步骤。基于自身独有的模型选择算法可以优化和简化建模过程。
建模训练。建模训练是建模的核心步骤。
支持超参数调优。具备规范性分析能力(PrescriptiveAnalytics),支持优化算法,具备GPU支持能力。
算法模型开发管理。开发管理是指对建模过程中的项目、人员及已有成果的管理。
算法模型自动化开发。提供端到端的自动化机器学习模型的开发方案,在模型开发时自动采集、清理、转换、超参数优化,支持可视化方式实时反馈模型训练结果以查看模型性能;支持模型一键式部署,与模型部署功能无缝集成。
模型部署。完成的机器学习模型需要部署,以实现在线或批量模型打分。
定期进行模型评估。管理员部署模型资产到生产环境并进行更新。支持启动或锁定版本。
03
数据入湖
数据入湖分为入湖目标、入湖策略、采集方式、标准落地四项要求。
1)入湖目标。
数据100%入湖,数据资产100%管理。
通过数据中台可查看数据资产存储位置、内容等。
X月底系统平台具备入湖条件。
2)入湖策略:通过需求调研制定数据入湖的策略和计划,例如数据入湖优先级。
3)采集方式。
支持通过专用工具将结构化业务系统数据同步到数据中台。
半结构化/非结构化的流式数据支持通过流式管道接入数据中台。
4)标准落地。
通过咨询服务,协助集团及各事业部落地数据标准。
数据入湖前,需要按照公司统一的数据入湖规范和质量标准进行数据治理(事前治理)。
各业务领域数据标准落地后,需要对入湖数据的质量进行全面监控(事后监控)。
04
关键问题
以下是该集团领导非常关注的问题,供应商应对这些问题做出响应。
1)数据采集与存储。
根据数据传输受网络影响的情况,确定数据采集方式、时间、频率、增量等策略。
针对大数据量,如设备互联OT、三现数据(视频、音频、图像)提出入湖策略;制定数据初始入湖和增量入湖的方案。
制定热、温、冷数据的存储与备份方式及策略。
2)数据计算。
明确数据计算是在中台还是平台之外进行。
数据是怎么计算的,针对数据的类型详细阐述计算性能、方式和过程。
定期与用户联络,传送产品新技术和新功能。
3)安全策略。讲解数据访问记录应该记录什么内容以及记录存储的方式
07
验收流程与标准
01
验收流程
按照双方签署的合同、工作及项目实施过程中约定的相关指标进行验收。乙方出具项目验收报告,甲方组织验收。验收报告经甲方项目总监签字并盖公章后生效。
02
验收标准
项目验收分为过程验收、功能验收、技术验收、规范性验收。
过程验收:按协议内容执行,任务完成情况和交付物的验收落实在《成果确认书》中,由甲乙双方签字确认。
功能验收:根据协议内容进行验收,验收报告应由甲乙双方签字确认,协议内容必须100%实现,任意一个项目未达标即不能进入技术验收环节。
技术验收:标准如下表所示,全部验收项目达标,视为技术验收通过。
规范性验收:项目文档种类完整、文档质量应符合甲方公司项目管理等相关制度要求。
03
验收不合格处理
各阶段验收过程中,若由于乙方原因造成验收不合格,将按以下规定处理。
若首次验收不合格,将顺延一个月组织下一次验收;若第二次验收不合格,甲方将向乙方提出书面异议,不排除要求赔偿损失;若第三次验收不合格,甲方有权终止合同并要求乙方赔偿经济损失。
08
服务与技术支持
01
服务期服务内容
从项目验收完成之日起,乙方对硬件、软件提供1年免费原厂质保服务。
1)乙方为甲方提供免费软件升级服务,包括系统升级、移植、调试以及相关程序和接口的重新测试。
2)乙方免费提供1年现场技术支持,甲方工程师遇到无法自行解决的系统问题时,乙方技术工程师应到甲方现场进行服务及解答问题,直至问题解决完毕。如非乙方原因造成的问题,甲方应支付相应维护费用,具体内容另行协商。
3)乙方免费提供1年系统巡检服务,对发现的问题提出优化或整改方案。
4)乙方将永久向甲方提供以下服务。
定期与甲方联络,介绍产品新技术和新功能。
甲方有权进入乙方的技术支持网寻求技术支持,且权利为永久性的。
对于技术或系统使用及业务上的问题,乙方提供电话及电子邮件联络方式,必要情况下提供现场技术支持。
提供免费技术支持热线服务,可直接联络软件厂商的技术支持中心,获得技术支持。
02
服务相关约定
乙方指定对接甲方的服务工程师,设24小时热线电话,乙方更换对接服务工程师必须得到甲方的书面认可。甲方的技术支持均由乙方技术部门直接提供,如果乙方技术部门无法直接解决,应主动寻求其他帮助以解决问题,且费用由乙方承担。
03
服务等级与响应时间
甲方提出的技术服务需求分为4个优先级别,如下表所示,乙方应根据优先级给予响应并提供直接的技术支持。
04
服务考核标准
甲方对乙方的服务考核标准分为6项,如下表所示。
甲方对乙方每一次维保服务进行验收,若验收不合格,则按照验收标准中的约定进行扣款。若累计有两次验收不合格记录,甲方有权终止合同并要求乙方赔偿相应经济损失。
--------END--------