• 【表结构数据】—CDA-LEVEL1备考


    目录

    大纲

    1. 表结构数据

    2.事实表&维度表

    3.表结构数据特征

    3.1 特征一:表

    3.2  特征2:所有字段记录行数相同

    3.2.1  特征

    ​编辑3.2.2   处理缺失值

    3.3  特征3:一个表中有且只有一个主键

    3.3.1 价值

    3.3.2 确定主键

    4.表结构数据获取方法

    4.1 “应用”与“引用”

    4.2 数据管理系统 

    4.2.1 关系型数据库管理系统

    4.2.2 商业智能系统-BI

    4.2.3 ETL功能

    4.2.4 数据仓库DW(Data Warehouse,DW或DWH)

    4.2.5 OLAP(Online Analytical Processing,联机事务处理)

    5. 表结构数据使用方法

    5.1 表结构数据的横向合并

    5.2 表结构数据的纵向合并

    5.3 表结构数据的汇总

    6. 数据分析的业务意义


    1. 表结构数据

    表结构数据——以字段或记录作为数据的引用、操作及计算的基本单位的数据。、

    表的数据结构是方形的,要求不同字段记录行数相同。

    • 字段——整列数
    • 记录——整行数
    • 维度——业务角度
    • 度量——业务行为的结果
    • 维度字段——文本型
    • 度量字段——数值型

    2.事实表&维度表

    维度表:只包含维度信息

    事实表:既包含维度信息又包含度量信息的表

    3.表结构数据特征  【熟知】

    • 基本单位——字段(一列上的数)或者记录(一行上的数)
    • 要满足完整的方形结构,所有字段记录行数相同
    • 一个表中有且只有一个主键

    物理意义——非空不重复

    业务意义——表的业务记录单位

    3.1 特征一:表

    表:以字段或记录作为数据的引用、操作及计算的基本单位的数据

    • 第一行为标题行(所有字段名构成的)
    • 第二行以后 称为 记录
    • 字段名不能重名(唯一字段名可定位精确)
    • 一个字段只能有一种数据类型(表结构-基本单位是字段)

    3.2  特征2:所有字段记录行数相同

    3.2.1  特征

    • 方形结构
    • 记录行数相同
    • 存在空值(空置在计算机程序中,用null来记录;可用于数据占位)
    • 处理缺失值

    3.2.2   处理缺失值

    (1)根据数据类型以及生成信息重要程度的不同,使用不同方法处理缺失值

    ①文本型字段

    影响不大:不进行处理,或者可以用其他没有实际业务含义的文本字符对缺失值进行替换

    影响大:让业务人员核查确认后替换,或删除。

    ②数值型字段

    略麻烦,综合考虑该数值型字段所代表的度量意义以及针对该数值型字段进行汇总计算的方式来最终决定对缺失值的具体处理方法。

    3.3  特征3:一个表中有且只有一个主键

    3.3.1 理解主键

    1.物理意义——表的行识别符 

    • 单字段主键:
    • 多字段联合主键:主键可以由多个字段构成;
    • 非空不重复  (主键中不能存在空值;不能有2个以上重复值存在;)
    • 定位记录行、字段名+主键值定位具体数值    
    • 多以“xxID”、“xxNo”、“xx编号”等名称命名

    记录值的字符数相同,在不同位数字符的组合代表不同的含义(eg:身份证号;前6位出生地,出生日期,性别等;)

    备注:一个字段只能有一种数据类型;字段中可出现null值,一行记录可以有不同数据类型。

    2.业务意义 ——表的业务记录单位。

    在一个数据表中的所有非主键字段都要围绕主键展开。

    3.3.2 确定主键

    如果直接对数据库中的数据表进行操作,可通过SQL语句确认数据表的主键字段

    间接在其他数据分析平台使用表结构数据(数据源所属数据库的数据表,通过使用数据源数据导入到其他平台使用),可找原数据库中数据表的设计者询问主键信息,或看设计资料对主键字段确认。

    通过对数据表的业务意义进行分析,推测主键字段后在用物理手段确认推测的主键字段中的记录值是否满足“非空”、“不重复”的要求来对主键字段进行确认。

    先要理解主键是谁,业务意义是啥,再去判断业务范围,再进行汇总分析。

    4.表结构数据获取方法

    4.1 “应用”与“引用”

    1.数据来源 (无本质差异;使用的方式会有差异)

    1.将数据源导出的数据应用在 电子表格工具上,就成为以单元格为基本单位的表格结构数据

    2.将数据源引用到表结构数据分析工具上,以字段为基本单位的表结构数据

    3.在获取数据上不同:应用&引用的区别

    表格结构数据——应用从数据源到导出的

    表结构数据——引用数据源;更加保证数据时效性与准确性

    4.2 数据管理系统 

    4.2.1 关系型数据库管理系统(RDBMS)

    关系型数据库管理系统的主要任务是 企业业务数据的存储、检索、访问与共享

    偏事务性;连接事务处理系统*(OLTP)的一个重要环节;提供数据源并不善于分析;

    RDBMS即关系数据库管理系统(Relational Database Management System)

    数据库(database)

    表(table)

     3级嵌套关系;多个不同的数据表构成一个数据库,多个不同的数据库构成一个关系型数据库管理系统。

    • 多层级结构
    • OLTP

    On-Line Transaction Processing联机事务处理过程(OLTP),也称为面向交易的处理过程。

    基本特征是前台接收的用户数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果,是对用户操作快速响应的方式之一。

    • 可量化、结构化数据
    • 提供大部分数据源
    • 不善于分析 

    4.2.2 商业智能系统-BI

    Business Intelligence

    用于为企业决策者快速提供完整、准确、深入的数据分析结构,帮助企业决策者实现商业洞察(bussiness insight)

    • 强于分析
    • 多功能模块构成
    • 两种主要类型:

    企业级商业智能系统

    敏捷型商业智能系统

    • 多维数据集
    • 所见即所得

    eg:可视化看板等的应用、仪表盘

    4.2.3 ETL功能  【熟知】

    ETL(Extract-Transform-Load)用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。

    E——从不同的数据源抽取出来;(引用数据的方式)

    T-清洗转换:

    粒度越细可到业务明细来分析;

    ELT:先抽取之后加载到数据仓库,再进行清洗及转换;(根据加载对象数据仓库的处理能力越强,处理数据量越大,清洗转换逻辑越复杂,就倾向于ETL)

    若加载功能较弱,就用ETL的顺序。

    4.2.4 数据仓库DW(Data Warehouse,DW或DWH)

    用来存储分析所需要的的不同数据源上的所有相关数据信息

    4.2.5 OLAP(Online Analytical Processing,联机分析处理

    用来连接信息孤岛、创建多维数据模型;观测网

    OLAP——联机分析处理,是搭建多维数据模型的处理过程。

     

     OLAP系统按照其存储器的数据存储格式可以分为关系OLAP(RelationalOLAP,简称ROLAP)、多维OLAP(MultidimensionalOLAP,简称MOLAP)和混合型OLAP(HybridOLAP,简称HOLAP)三种类型。

    OLAP的基本多维分析操作有钻取(Drill-up和Drill-down)、切片(Slice)和切块(Dice)、以及旋转(Pivot)等。

    一个完整的BI项目,先后要涉及到:

    ETL——DW——olap——数据可视化  4个软件‘

    还要经过业务理解,多维度数据获取加工,多维数据获取创建,透视分析规则创建以及分析结果展现。

    5. 表结构数据使用方法  【熟知】

    5.1 表结构数据的横向合并

    1. 将不同表中的字段信息合并到同一个表中使用

    在整合多表数据源进行横向合并操作时,两表通过【公共字段】进行连接。

    主键、维度字段及度量字段与两表横向合并操作无关。

    字段的合并——横向合并

     2.特征

    内连接不分主附。

    3.示例

    (1)通过公关字段匹配:拥有相同记录值的字段

    (2)连接

    方向性:左表、右表  (A  xxx  join  B,说明A是左表 )

    主附关系:方向性+方向连接关系决定

    对应关系:3种对应关系,决定了合并的行数,用乘积;(一般用 一对多的关系)

    • 内连接:交集(inner join);无主附之分;
    • 左连接:以左表为主 (left join);以主表公共字段来显示;
    • 右连接:以右表为主(right join)

     (3)对应关系:决定连接结果行数是对应项乘积的结果

    一对一:主键对主键的连接

    一对多:主键对非主键的连接(尽量多的用这种方式)

    多对多:非主键对非主键的连接

    6行(2*3)

    一般会选择用 订单ID作为主键;

    (4)ER图/实体关系图:多表连接的鸟瞰图  【应用】

    先将表名和字段名,作为列表;用连接线连接 每个表的 公共字段;

    再用  1和* 标识对应关系  (1-一表;*多表)

    5.2 表结构数据的纵向合并

    1.多表中记录信息合并到同一个表中进行使用的合并方式称为纵向合并

    5.3 表结构数据的汇总

    数据透视:对零散数据进行汇总分析

    维度对度量的汇总观测

    1.概述

    行——维度字段

    维度——业务观测角度

    值——度量字段

    度量——业务行为的结果

    汇总计算规则——衡量业务行为结果好坏程度的测量仪

    2. 汇总计算规则

    6. 数据分析的业务意义

    数据分析是连接零散数据与人类认知间的桥梁

  • 相关阅读:
    算法模板(5):数学(1):数学知识(2)combination
    Linux驱动开发入门记录——(三)虚拟输入设备
    Java ArrayList
    Java Redis多限流
    MySQL8--Windows下使用msi(图形界面)安装的方法
    如何在 ggplot2 的箱线图中标记异常值
    C++ Primer Plus第九章笔记
    Map接口的实现类---HashMap
    LeetCode 1422. 分割字符串的最大得分
    JAVA毕业设计bs架构实习管理系统计算机源码+lw文档+系统+调试部署+数据库
  • 原文地址:https://blog.csdn.net/WY_star1/article/details/126907176