目录
一、数仓分层
1、 为什么要分层
2、数据集市和数据仓库概念
3、数仓命名规范
3.1 表命名
3.2 脚本命名
3.3 表字段类型
二、数仓理论
1、范式理论
1.1 范式概念
1.2 函数依赖
1.3 三范式区分
2、关系建模与维度建模
2.1 关系建模
2.2 维度建模
3、维度表和事实表
3.1 维度表
3.2 事实表
4、维度模型分类
5、数据仓库建模
5.1 ODS层
5.2 DIM层和DWD层
5.3 DWS层与DWT层
5.4 ADS层
三、数仓环境搭建
1、Hive环境搭建
1.1 Hive
1.2 Hive on Spark
1.3 Hive on Spark
2、Yarn配置
2.1 增加ApplicationMaster资源比例
3、数仓开发环境
4、数据准备
1、 为什么要分层
2、数据集市和数据仓库概念
3、数仓命名规范
3.1 表命名
- ODS层命名为ods_表名
- DIM层命名为dim_表名
- DWD层命名为dwd_表名
- DWS层命名为dws_表名
- DWT层命名为dwt_表名
- ADS层命名为ads_表名
- 临时表命名为tmp_表名
3.2 脚本命名
- 数据源_to_目标_db/log.sh
- 用户行为脚本以log为后缀;业务数据脚本以db为后缀。
3.3 表字段类型
- 数量类型为bigint
- 金额类型为decimal(16, 2),表示:16位有效数字,其中小数部分2位
- 字符串(名字,描述信息等)类型为string
- 主键外键类型为string
- 时间戳类型为bigint
二、数仓理论
1、范式理论
1.1 范式概念
1.2 函数依赖
1.3 三范式区分
第一范式:
第二范式:
这里的部份依赖是和主键有关,再拆分成两张表的时候,不仅把部分依赖消除了,同时也消除了部分数据冗余
第三范式:
2、关系建模与维度建模
关系建模和维度建模是两种数据仓库的建模技术。关系建模由Bill Inmon所倡导,维度建模由Ralph Kimball所倡导。
2.1 关系建模
2.2 维度建模
3、维度表和事实表
3.1 维度表
维度表:一般是对事实的描述信息。每一张维表对应现实世界中的一个对象或者概念。 例如:用户、商品、日期、地区等。
3.2 事实表
事实表中的每行数据代表一个业务事件(下单、支付、退款、评价等)。“事实”这个术语表示的是业务事件的度量值(可统计次数、个数、金额等),例如,2020年5月21日,宋宋老师在京东花了250块钱买了一瓶海狗人参丸。维度表:时间、用户、商品、商家。事实表:250块钱、一瓶
每一个事实表的行包括:具有可加性的数值型的度量值、与维表相连接的外键,通常具有两个和两个以上的外键。
事实表的特征:
- 非常的大
- 内容相对的窄:列数较少(主要是外键id和度量值)
- 经常发生变化,每天会新增加很多。
4、维度模型分类
在维度建模的基础上又分为三种模型:星型模型、雪花模型、星座模型。
5、数据仓库建模
5.1 ODS层
5.2 DIM层和DWD层
5.3 DWS层与DWT层
5.4 ADS层
对电商系统各大主题指标分别进行分析。
三、数仓环境搭建
1、Hive环境搭建
1.1 Hive
Hive引擎包括:默认MR、tez、spark
Hive on Spark:Hive既作为存储元数据又负责SQL的解析优化,语法是HQL语法,执行引擎变成了Spark,Spark负责采用RDD执行。
Spark on Hive : Hive只作为存储元数据,Spark负责SQL解析优化,语法是Spark SQL语法,Spark负责采用RDD执行。
1.2 Hive on Spark
1.3 Hive on Spark
2、Yarn配置
2.1 增加ApplicationMaster资源比例
3、数仓开发环境
数仓开发工具可选用DBeaver或者DataGrip。两者都需要用到JDBC协议连接到Hive,故需要启动HiveServer2。
4、数据准备