实时数据仓库==（总结）

实时数据仓库(总结)

API计算引擎

离线数据仓库主要使用hive sql 和spark sql进行开发

实时数据仓库主要是使用flink sql开发
数据存储

离线数据仓库保存在hdfs上

实时数据仓库的流表的数据保存在kafka中，维表的数据保存在hbase。或者mysql中
数据仓库分层

离线数据仓库和实时数据仓库分层的规则基本一致，离线数据仓库在构建模型时，会尽量构建公共表，减少重复计算ODS,DWD,DWS,ADS

实时数据仓库在做模型开发的时候会尽量减少使用中间层，可以降低数据的延迟，
数据延时

离线一般采用T+1模式，第二天计算前一天的数据，在项目中一般到第二天早上6点左右才能将前一天的数据处理完

实时的延时一般在秒级别或者在分钟级别
架构

离线:hive,hadoop,spark,调度，离线涉及的组件比较少，不容易问题，出现问题容易解决

实时：hive，kadoop,kafka,zookeeper,flink,hbase,mysql,监控,出现问题不好定位，为什么用到这么多组件：目前还没有一个成熟的开源的实时数据仓库的解决方案

相关阅读:
正则表达式常用语法解析
微信小程序引入阿里巴巴iconfont图标并使用
JKPacket权威指南——联系我们
JS如何判断文字是否溢出（被ellipsis）？
一个不用写代码的案例，来看看Flowable到底给我们提供了哪些功能？
论文笔记：Deep Representation Learning for Trajectory Similarity Computation
node + sqlite + Sequelize (ORM:Object-Relational Mapping对象关系映射)
【DevOps】Git 图文详解（二）：Git 安装及配置
好用的云笔记具备哪些特点，这3款云笔记亲测好用
java常用部署脚本

原文地址：https://blog.csdn.net/weixin_48370579/article/details/126339345