目录
大纲
4.2.4 数据仓库DW(Data Warehouse,DW或DWH)
4.2.5 OLAP(Online Analytical Processing,联机事务处理)
表结构数据——以字段或记录作为数据的引用、操作及计算的基本单位的数据。、
表的数据结构是方形的,要求不同字段记录行数相同。
维度表:只包含维度信息
事实表:既包含维度信息又包含度量信息的表
物理意义——非空不重复
业务意义——表的业务记录单位
表:以字段或记录作为数据的引用、操作及计算的基本单位的数据
(1)根据数据类型以及生成信息重要程度的不同,使用不同方法处理缺失值
①文本型字段
影响不大:不进行处理,或者可以用其他没有实际业务含义的文本字符对缺失值进行替换
影响大:让业务人员核查确认后替换,或删除。
②数值型字段
略麻烦,综合考虑该数值型字段所代表的度量意义,以及针对该数值型字段进行汇总计算的方式来最终决定对缺失值的具体处理方法。
1.物理意义——表的行识别符
记录值的字符数相同,在不同位数字符的组合代表不同的含义(eg:身份证号;前6位出生地,出生日期,性别等;)
备注:一个字段只能有一种数据类型;字段中可出现null值,一行记录可以有不同数据类型。
2.业务意义 ——表的业务记录单位。
在一个数据表中的所有非主键字段都要围绕主键展开。
如果直接对数据库中的数据表进行操作,可通过SQL语句确认数据表的主键字段
间接在其他数据分析平台使用表结构数据(数据源所属数据库的数据表,通过使用数据源数据导入到其他平台使用),可找原数据库中数据表的设计者询问主键信息,或看设计资料对主键字段确认。
通过对数据表的业务意义进行分析,推测主键字段后在用物理手段确认推测的主键字段中的记录值是否满足“非空”、“不重复”的要求来对主键字段进行确认。
先要理解主键是谁,业务意义是啥,再去判断业务范围,再进行汇总分析。
1.数据来源 (无本质差异;使用的方式会有差异)
1.将数据源导出的数据应用在 电子表格工具上,就成为以单元格为基本单位的表格结构数据
2.将数据源引用到表结构数据分析工具上,以字段为基本单位的表结构数据
3.在获取数据上不同:应用&引用的区别
表格结构数据——应用从数据源到导出的
表结构数据——引用数据源;更加保证数据时效性与准确性
关系型数据库管理系统的主要任务是 企业业务数据的存储、检索、访问与共享
偏事务性;连接事务处理系统*(OLTP)的一个重要环节;提供数据源并不善于分析;
RDBMS即关系数据库管理系统(Relational Database Management System)
数据库(database)
表(table)
3级嵌套关系;多个不同的数据表构成一个数据库,多个不同的数据库构成一个关系型数据库管理系统。
On-Line Transaction Processing联机事务处理过程(OLTP),也称为面向交易的处理过程。
基本特征是前台接收的用户数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果,是对用户操作快速响应的方式之一。
Business Intelligence
用于为企业决策者快速提供完整、准确、深入的数据分析结构,帮助企业决策者实现商业洞察(bussiness insight)
企业级商业智能系统
敏捷型商业智能系统
eg:可视化看板等的应用、仪表盘
ETL(Extract-Transform-Load)用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。
E——从不同的数据源抽取出来;(引用数据的方式)
T-清洗转换:
粒度越细可到业务明细来分析;
ELT:先抽取之后加载到数据仓库,再进行清洗及转换;(根据加载对象数据仓库的处理能力越强,处理数据量越大,清洗转换逻辑越复杂,就倾向于ETL)
若加载功能较弱,就用ETL的顺序。
用来存储分析所需要的的不同数据源上的所有相关数据信息
用来连接信息孤岛、创建多维数据模型;观测网
OLAP——联机分析处理,是搭建多维数据模型的处理过程。
OLAP系统按照其存储器的数据存储格式可以分为关系OLAP(RelationalOLAP,简称ROLAP)、多维OLAP(MultidimensionalOLAP,简称MOLAP)和混合型OLAP(HybridOLAP,简称HOLAP)三种类型。
OLAP的基本多维分析操作有钻取(Drill-up和Drill-down)、切片(Slice)和切块(Dice)、以及旋转(Pivot)等。
一个完整的BI项目,先后要涉及到:
ETL——DW——olap——数据可视化 4个软件‘
还要经过业务理解,多维度数据获取加工,多维数据获取创建,透视分析规则创建以及分析结果展现。
1. 将不同表中的字段信息合并到同一个表中使用
在整合多表数据源进行横向合并操作时,两表通过【公共字段】进行连接。
主键、维度字段及度量字段与两表横向合并操作无关。
字段的合并——横向合并
2.特征
内连接不分主附。
3.示例
(1)通过公关字段匹配:拥有相同记录值的字段
(2)连接
方向性:左表、右表 (A xxx join B,说明A是左表 )
主附关系:方向性+方向连接关系决定
对应关系:3种对应关系,决定了合并的行数,用乘积;(一般用 一对多的关系)
(3)对应关系:决定连接结果行数是对应项乘积的结果
一对一:主键对主键的连接
一对多:主键对非主键的连接(尽量多的用这种方式)
多对多:非主键对非主键的连接
6行(2*3)
一般会选择用 订单ID作为主键;
(4)ER图/实体关系图:多表连接的鸟瞰图 【应用】
先将表名和字段名,作为列表;用连接线连接 每个表的 公共字段;
再用 1和* 标识对应关系 (1-一表;*多表)
1.多表中记录信息合并到同一个表中进行使用的合并方式称为纵向合并
数据透视:对零散数据进行汇总分析
维度对度量的汇总观测
1.概述
行——维度字段
维度——业务观测角度
值——度量字段
度量——业务行为的结果
汇总计算规则——衡量业务行为结果好坏程度的测量仪
2. 汇总计算规则
数据分析是连接零散数据与人类认知间的桥梁