数据治理是指从使用零散数据变为使用统一主数据、从具有很少或没有组织和流程治理到企业范围内的综合数据治理、从尝试处理主数据混乱状况到主数据井井有条的一个过程。
随着以Hadoop生态与MPP生态技术的提升,数据如何进来,如何整合,开展什么样的应用都已经有了成熟的案例,可是,同传统数仓时代一样,垃圾进垃圾出,如何破?相比传统数仓时代,进入
数仓集群的数据更加的多样、更加的复杂、量更足,这个数仓时代都没有处理好的事情,如何能够在大数据时代处理好,这是所有大数据应用者最最期盼的改变,也是大数据平台建设者最有挑战的难题:数据治理难的不是技术,而是流程,是协同,是管理。
数据治理涉及的IT技术主题众多,包括元数据管理、主数据管理、数据质量、数据集成、监控与报告等。
首先数据层面,业务中有很多异构数据比如文档,报告报表,GIS信息,NOSQL等。
其次业务层面,面对的是全公司所有的业务数据,各类业务或者系统数据都需要定制化或者协调标准进行统一采集,处理,标准化。
最后安全层面,数据的所有权、安全性。
数据治理的目标是保障数据及其应用过程中的运营合规、风险可控和价值实现,通过数据治理管理体系规范数据治理流程,保证数据治理的合规运营;通过数据治理价值体系推进数据资源的价值实现,提升数据价值。运营合规、风险可控是价值实现的基础,为价值实现提供一个良好的治理环境;价值实现则是运营合规、风险可控的升华,是数据治理的核心目标。