• 数据仓库与ETL


    什么是数据仓库

    一种用于存储和管理数据的系统,提供一种统一方式,将不同来源、不同方式、不同时间的数据集成在一起。

    数据仓库结构

    主题域:一个特定领域的数据集,比如营销、销售、客户、库存等。
    维度:定义数据的不同角度,时间、地点等。
    事实表:存储实际数据,销售额、库存量等。

    四个特点:

    面向主题:数据仓库面向企业或组织主要的主题,不同于传统的数据库系统,数据仓库将企业不同的业务系统、数据来源整合到一起,使得用户可以集中处理特定主题的问题。

    集成的:数据仓库与企业内部或外部的多个源系统整合,把这些单个的数据源整合到一起形成一张完整的数据库,使得企业数据变得完整、方便分析。

    非易失的(稳定的、不可更新):数据仓库中的数据被认为是“非易失的”即一旦存储在仓库中就不会丢失。数据仓库需要保留历史数据以便分析,同时为了保证数据持久性,数据仓库采用了数据备份和恢复机制。

    面向分析(反映历史变化、时间特性):数据仓库主要用于支持企业的决策分析过程。数据仓库的数据表结构、字段、视图等信息都是被设计为方便用户进行数据分析、交互、制图和报表的。同时,数据仓库采用了 OLAP 技术,使得用户可以进行复杂的多维数据分析,以及在线分析处理等操作。

    主机不变

    ETL过程

    抽取数据:不同数据源抽取数据
    转换:清洗、格式化、转换
    加载:加载到数据仓库、分析和报表操作
    全量加载
    增量加载

  • 相关阅读:
    RuoYi-Vue-SqlServer配置
    10.请介绍一下cookie
    【java】【SSM框架系列】【四】SpringBoot
    计算机网络 - SSH协议-建立免密通道
    Pytorch:model.train()和model.eval()用法和区别,以及model.eval()和torch.no_grad()的区别
    unity面试题(基础篇)
    十一、DS18B20温度传感器
    毕业论文GPT说:
    使用并查集生成一个迷宫
    HTML5新特性
  • 原文地址:https://blog.csdn.net/qq_45800365/article/details/133856908