【摘要】面对业务发展、数据化转型等各方面的需求,基于传统架构的银行数据仓库体系面临极大的挑战。某银行目前既有传统架构的数据仓库,也引入了基于主流Hadoop体系的大数据平台。为优化数据重复加工与存储,促进信息管理应用的数据融合共享,本文在采用大数据技术构建统一的企业级数据管理平台,重构数据仓库方面进行了探索,以论证传统数据仓库往大数据平台迁移的可行性,为某银行在大数据战略上的规划提供一定的支持。探索过程涉及现状调研安排、架构设计、模型迁移与优化、数据迁移、ETL迁移、数据访问接口的迁移、容量规划等多个核心环节,并依照该行的特点进行了一些有意义的尝试。
一、银行大数据平台建设背景
在全球经济进入数字化转型时期,数字化转型已成为传统企业必须付诸行动的必选题。当下数字化转型已经渗入人们日常的衣食住行、工作生活、生产服务等方方面面。在消费金融具有极大发展潜力及前景的情况下,银行进行数字化转型更为迫切。
而面对数字化转型的需要,银行体系中的传统数据仓库普遍面临极大的挑战:
(1)现有数据仓库的数据分析模式,不能有效支撑数据快速分析和价值发现,需要新的交互模式发掘数据的统计相关性、因果关系、关联关系等规律。
(2)数据源不断增多,访问和数据同步变得复杂。
(3)数据量增大、应用作业不断增加,运行沉重缓慢。
(4)难于支撑海量非结构化数据存储与检索需求,如影像数据、音频数据。
我行使用传统数据仓库多年,虽然尚未完全触碰到上述问题的极限情况,数据仓库依然稳定的在支撑我行业务的运作,但随着业务的发展,上述传统数仓的困境在