数据仓库:Data warehouse 数仓 DW ,用于存储,分析,报告的数据系统;目的是构建面向分析的集成化数据环境,分析结果为企业提供决策支持
在面对大量数据的时候,我们很多时候也会使用OLTP 型数据库
在大多数的OLTP ,是面向业务的,支持事务,对于大量数据的分析还是有很大的压力;
还有就是,大多数不同的业务系统数据存储在不同的数据库和表中,字段类型还不一致,关联处理比较麻烦;
面向主题:比较抽象的一个概念,可以理解为一个纬度,一个业务模块归类后的数据上的抽象
集成性:一个主题的数据,可能是发布在不同的应用系统中,各个系统独立存储,数据分散,需要综合的集成到数据仓库中来;
非易失性:拉取其他系统的数据,分析数据,不创造新的数据
时变性:数仓的数据需要随着时间更新,适应决策需要
数仓前面也说到了,主要是为了分析数据,只要你这个语言可以读取数据,处理数据,就可以作为数仓的开发语言;
比如说是C,Java ,Python 都可以作为数仓开发的语言,主要是学习成本的问题,说到学习成本,SQL语言应该是相对比较简单的了,所以现在数据分析领域的主要开发语言就是SQL;
像是后面介绍的HIVE 就是把我们编写的SQL 转变成Map Reduce任务 跑在Hadoop 集群上来处理大数据查询分析;
在Hadoop 集群上来处理大数据查询分析;