码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 数仓学习笔记——数仓建模理论


    目录

    一、数仓分层

    1、 为什么要分层

    2、数据集市和数据仓库概念

    3、数仓命名规范

    3.1 表命名

    3.2 脚本命名

    3.3 表字段类型

    二、数仓理论

    1、范式理论

    1.1 范式概念

    1.2 函数依赖

    1.3 三范式区分

    2、关系建模与维度建模

    2.1 关系建模

    2.2 维度建模

    3、维度表和事实表

    3.1 维度表

    3.2 事实表

    4、维度模型分类 

    5、数据仓库建模

    5.1 ODS层

    5.2 DIM层和DWD层

    5.3 DWS层与DWT层

    5.4 ADS层

    三、数仓环境搭建

    1、Hive环境搭建

    1.1 Hive

    1.2 Hive on Spark

    1.3 Hive on Spark

    2、Yarn配置

    2.1 增加ApplicationMaster资源比例

    3、数仓开发环境

    4、数据准备


    一、数仓分层

    1、 为什么要分层

    2、数据集市和数据仓库概念

    3、数仓命名规范

    3.1 表命名

    • ODS层命名为ods_表名
    • DIM层命名为dim_表名
    • DWD层命名为dwd_表名
    • DWS层命名为dws_表名  
    • DWT层命名为dwt_表名
    • ADS层命名为ads_表名
    • 临时表命名为tmp_表名

    3.2 脚本命名

    • 数据源_to_目标_db/log.sh
    • 用户行为脚本以log为后缀;业务数据脚本以db为后缀。

    3.3 表字段类型

    • 数量类型为bigint
    • 金额类型为decimal(16, 2),表示:16位有效数字,其中小数部分2位
    • 字符串(名字,描述信息等)类型为string
    • 主键外键类型为string
    • 时间戳类型为bigint

    二、数仓理论

    1、范式理论

    1.1 范式概念

    1.2 函数依赖

    1.3 三范式区分

    第一范式:

    第二范式:

    这里的部份依赖是和主键有关,再拆分成两张表的时候,不仅把部分依赖消除了,同时也消除了部分数据冗余

    第三范式:

    2、关系建模与维度建模

    关系建模和维度建模是两种数据仓库的建模技术。关系建模由Bill Inmon所倡导,维度建模由Ralph Kimball所倡导。

    2.1 关系建模

    2.2 维度建模

    3、维度表和事实表

    3.1 维度表

    维度表:一般是对事实的描述信息。每一张维表对应现实世界中的一个对象或者概念。    例如:用户、商品、日期、地区等。

    3.2 事实表

    事实表中的每行数据代表一个业务事件(下单、支付、退款、评价等)。“事实”这个术语表示的是业务事件的度量值(可统计次数、个数、金额等),例如,2020年5月21日,宋宋老师在京东花了250块钱买了一瓶海狗人参丸。维度表:时间、用户、商品、商家。事实表:250块钱、一瓶

    每一个事实表的行包括:具有可加性的数值型的度量值、与维表相连接的外键,通常具有两个和两个以上的外键。

    事实表的特征:

    • 非常的大
    • 内容相对的窄:列数较少(主要是外键id和度量值)
    • 经常发生变化,每天会新增加很多。

    4、维度模型分类 

    在维度建模的基础上又分为三种模型:星型模型、雪花模型、星座模型。

    5、数据仓库建模

    5.1 ODS层

    5.2 DIM层和DWD层

    5.3 DWS层与DWT层

    5.4 ADS层

    对电商系统各大主题指标分别进行分析。

    三、数仓环境搭建

    1、Hive环境搭建

    1.1 Hive

    Hive引擎包括:默认MR、tez、spark

    Hive on Spark:Hive既作为存储元数据又负责SQL的解析优化,语法是HQL语法,执行引擎变成了Spark,Spark负责采用RDD执行。

    Spark on Hive : Hive只作为存储元数据,Spark负责SQL解析优化,语法是Spark SQL语法,Spark负责采用RDD执行。

    1.2 Hive on Spark

    1.3 Hive on Spark

    2、Yarn配置

    2.1 增加ApplicationMaster资源比例

    3、数仓开发环境

    数仓开发工具可选用DBeaver或者DataGrip。两者都需要用到JDBC协议连接到Hive,故需要启动HiveServer2。

    4、数据准备

  • 相关阅读:
    Docker桌面版安装与使用(windows)
    开心档之JavaScript 异步编程
    外包干了6天后悔了,技术明显进步。。。。。
    中文版FL Studio 20 for Mac破解版水果编曲软件 V20.8.3(1574)支持M1/M2+Intel
    【测试人生】游戏业务测试落地精准测试专项的一些思路
    数字视频测量应用技术(基础篇)
    [vue] XLSX 导出数据为excel
    全同态加密知识体系整理
    UE AIModule 源码解读之写法借鉴(一)
    如何设计一个分布式 ID 发号器?
  • 原文地址:https://blog.csdn.net/qq_64557330/article/details/126561596
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号