码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 【读书笔记】《大数据之路》——维度设计总结(3)


    目录

    一、缓慢维变化

    三种处理缓慢变化维的方式:

    二、快照维表

    一般不直接使用代理键的两个原因:

    三、极限存储

    极限存储的额外处理

    微型维度

    一、缓慢维变化

    三种处理缓慢变化维的方式:

    1. 重写维度值。不保留历史数据,始终取最新数据。
    2. 插入新的维度行。保留历史数据,维度变化前的事实和过去的维度值关联,维度值变化后的事实和当前维度值关联。
    3. 添加维度列。保留历史数据,可以将变化前后的维度列事实归在一起。

    二、快照维表

    Kimball维度建模理论中,必须使用代理键作为每个维表的主键。

    一般不直接使用代理键的两个原因:

    1. 对于分布式的计算系统,没有事物的概念,很难确保每个表记录生成的主键全局唯一(不稳定)。
    2. 使用代理键会增加ETL的复杂性,开发维护成本高。

    不使用代理键处理缓慢变化维的方式:快照维表——每天保留一份全量快照数据

    优点:

    1. 简单有效、开发成本低
    2. 使用方便,理解性好,限定日期即可获得快照数据

    弊端:存储浪费,比如某个维度每天的变化量占总体数据量很小比重,但每天仍要存一份这个维度的数据(可以设置好生命周期,清理历史数据)

    三、极限存储

    • 历史拉链存储:利用维度模型中缓慢变化维的第二种处理方式,通过新增两个时间戳字段,将所有以天为粒度的变更数据记录下来(分区字段也算)。对于不变的记录不重复存储

    极限存储方式:

    1. 透明化:底层数据存成拉链式的,上层创建视图,(比如底层需要限制时间戳字段查询一些记录,封装起来,上层也就是下游用户查这些记录的时候只用限制全量数据表的分区即可)
    2. 分月做历史拉链表:每个月月初重新做历史拉链表。

    极限存储的优势:

    • 压缩全量存储成本
    • 下游使用透明

    劣势:

    • 产出效率低
    • 数据变化频率高的不能节约成本

    极限存储的额外处理

    1. 做极限存储前的全量表仅需保留最近一段时间的分区数据,历史数据通过映射关联到极限存储表。(用户访问的就是全量存储)
    2. 过滤变化频率频繁的字段。

    微型维度

    通过将一部分不稳定的属性从主维度中移出,并将它们放置到拥有自己代理键的新表中。

  • 相关阅读:
    【无标题】
    Transformer-深度学习-台湾大学李宏毅-课程笔记
    根据CI模式弄的一个python3访问MySql数据库的class
    【C++】泛型编程 ⑪ ( 类模板的运算符重载 - 函数实现 写在类外部的不同的 .h 头文件和 .cpp 代码中 )
    关于电影的HTML网页设计—— 电影小黄人6页 HTML+CSS+JavaScript
    Stable-Diffusion ubuntu服务器部署,报错解决方法(小白教程)
    报错“this.bookDao“ is null
    免杀Backdoor-factory
    kafka进阶核心原理详解:案例解析(第11天)
    安装应用与免安装应用差异对比
  • 原文地址:https://blog.csdn.net/laozaoxiaowanzi/article/details/126240615
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号