• 数据仓库系统


    数仓分层

     数仓分层的作用

    ①清晰数据结构:每一个数据分层都有它的作用域和职责,在使用表的时候能更方便地定位和理解,实现业务数据解耦。
    ②减少重复开发:规范数据分层,开发一些通用的中间层数据,能够减少极大的重复计算
    ③统一数据口径:通过数据分层,提供统一的数据出口,统一对外输出的数据口径
    ④复杂问题简单化:将一个复杂的任务分解成多个步骤来完成,每一层解决特定的问题

     范式理论

    范式概念:

    数据建模必须遵循一定的规则,在关系建模中,这种规则就是范式。

    目的:降低数据冗余

    缺点:大量join导致查询效率低下

    分类

    第一范式(1NF)、第二范式(2NF)、第三范式(3NF)、巴斯-科德范式(BCNF)、第四范式(4NF)、第五范式(5NF)。 

    数仓建模

    两种建模方式

    关系建模和维度建模

    关系建模

    关系建模将复杂的数据抽象为两个概念——实体和关系,并使用规范化的方式表示出来。关系模型如图所示从图中可以看出,较为松散、零碎,物理表数量多

    关系模型严格遵循第三范式(3NF)数据冗余程度低,数据的一致性容易得到保证。由于数据分布于众多的表中,查询会相对复杂,在大数据的场景下,查询效率相对较低

    维度建模

     维度模型以数据分析作为出发点,不遵循三范式,故数据存在一定的冗余。维度模型面向业务,将业务用事实表和维度表呈现出来。表结构简单,故查询简单,查询效率较高。

    维度表和事实表

          维度表:一般是对事实的描述信息。每一张维表对应现实世界中的一个对象或者概念。    例如:用户、商品、日期、地区等。

    维表的特征:

    • 维表的范围很宽(具有多个属性、列比较多)
    • 跟事实表相比,行数相对较小:通常< 10万条
    • 内容相对固定:编码表

       事实表:事实表中的每行数据代表一个业务事件(下单、支付、退款、评价等)。“事实”这个术语表示的是业务事件的度量值(可统计次数、个数、金额等),例如,2020年5月21日,宋宋老师在京东花了250块钱买了一瓶海狗人参丸。维度表:时间、用户、商品、商家。事实表:250块钱、一瓶

    每一个事实表的行包括:具有可加性的数值型的度量值、与维表相连接的外键,通常具有两个和两个以上的外键。

    事实表的特征:

    • 非常的大
    • 内容相对的窄:列数较少(主要是外键id和度量值)
    • 经常发生变化,每天会新增加很多。

    事实表的分类

    事务型事实表,周期型快照事实表,累积型快照事实表

    维度模型分类

     

    星型模型和雪花模型

     

  • 相关阅读:
    代码随想录算法训练营第五十九天| 647. 回文子串 516.最长回文子序列
    UE Lyda项目学习 一、基础移动
    c++图论
    浏览器缓存的优化方案和思路
    Mac系统在idea中安装tomcat报错 error=13, Permission denied和error =1 Operation not...解决办法
    Hydra工具的使用
    laravel+elementui el-upload上传文件
    图像也是一门语言?微软提出19亿参数的超大通用模型BEIT-3,刷榜多个CV和多模态任务!
    Shell 脚本编程——变量和运算符
    不标年份的葡萄酒质量好吗?
  • 原文地址:https://blog.csdn.net/m0_66057675/article/details/126695440