- 是一个用以更好地支持企业( 或组织 )决策分析处理的数据集合;
- 本质上和数据库一样,是长期储存在计算机内的、有组织、可共享的数据集合;
- 数据仓库的数据是面向主题的;
- 数据仓库的数据是集成的;
- 数据仓库的数据是不可更新的;
- 数据仓库的数据是随时间不断变化的;
- 数据仓库中的数据时间期限要远远长于传统操作型数据系统中的数据时间期限;
- 传统操作型数据系统中的数据含有 " 当前值 " 的数据,这些数据在访问时是有效的,当然数据的当前值也能被更新,但数据仓库中的数据仅仅是一系列某一时刻生成的复杂的快照;
- 传统操作型数据系统中可能包含也可能不包含时间元素,如年、月、日、时、分、秒等,而数据仓库中一定会包含时间元素;
数据仓库的后台工具:
- 数据抽取;
- 数据清洗;
- 数据转换;
- 数据装载;
- 维护工具;
数据仓库服务器:
- 相当于数据库系统中的 DBMS ;
- 负责管理数据仓库中的存储管理和数据存取;
- 给 OLAP 服务器和前台工具提供存取接口(如 SQL 查询接口);
OLAP服务器:
- 透明地为前台工具和用户提供多维数据视图;
- OLAP 服务器必须考虑物理上这些分析数据的存储问题;
前台工具:
- 查询报表工具;
- 多维分析工具;
- 数据挖掘工具;
- 分析结果可视化工具等。
概念:
数据挖掘是从大量数据中发现并提取隐藏在内的、人们事先不知道的但可能有用的信息和知识的一种新技术;
目的:
帮助决策者寻找数据间潜在的关联,发现经营者被忽略的要素;
涉及:
- 数据库技术;
- 人工智能技术;
- 机器学习;
- 统计分析等。
本质区别:
数据挖掘是在没有明确假设的情况下去挖掘信息,发现知识;
数据挖掘的特征:
- 事先未知;
- 有效;
- 可实用;
从数据仓库来
优点:
许多数据不一致的问题都比较好地解决了,在数据挖掘时大大减少了清理数据的工作量;
缺点:
建立数据仓库是一项巨大的工程,耗时耗力;
从数据库来
如果只是为了挖掘数据,可以把一个或几个 OLTP 数据库导入一个只读的数据库中,然后在上面进行数据挖掘;
- 趋势和演变分析;
- 关联分析;
- 聚类;
- 概念描述;
- 偏差检测;
- 问题定义
在开始挖掘数据之前最先的也是最重要的要求就是熟悉背景知识,弄清用户的需求;
- 建立数据库挖掘库
要进行数据挖掘必须要收集要挖掘的数据资源,以阿布那个建议把要挖掘的数据都收集到一个数据库中;
- 分析数据
分析数据就是通常所进行的对数据深入调查的过程,从数据集中找出规律和趋势,发现因素之间的相关性;
- 调整数据
通过上述步骤的操作,对数据的状态和趋势有了进一步的了解,这时要尽可能对问题解决的要求能进一步明确化、进一步量化;
- 模型化
在问题进一步明确,数据结构和内容进一步调整的基础上,就可以建立形成知识的模型;
- 评价和解释
分布式数据库由一组数据组成,这些数物理上分布在计算机网络的不同结点(场地)上,逻辑上是属于同一个系统,每个结点可以执行局部应用,也能通过网络通信子系统执行全局应用;
- 数据独立性;
- 集中和自治相结合的控制结构;
- 适当增加数据冗余度;
- 全局的一致性、可串行性和可恢复性;
分布式数据存储可以从数据分配( **指在计算机网络各场地上的分配策略 **)和数据分片(指数据存放单位不是全部关系,而是关系的一部分)两个角度考察;
数据分配:
- 集中式;
- 分割式;
- 全复制式;
- 混合式;
数据分片:
- 水平分片:按一定的条件把全局关系的所有元组划分成若干不相交的子集,每个子集为关系的一个片段;
- 垂直分片:把一个全局关系的属性集分成若干子集,并在这些子集上做投影运算,每个投影为垂直分片;
- 混合型分片:将水平分片与垂直分片方式综合使用为混合型分片;
- LDBMS( 局部 DBMS ):
建立和管理局部数据库,提供场地地自治能力、执行局部应用及全局查询的子查询;
- GDBMS( 全局 DBMS ):
提供分布透明性,协调全局事务的执行,协调各 LDBMS 以完成全局应用,保证数据库的全局一致性,执行并发控制,实现更新同步,提供全局恢复功能;
- 全局数据字典:
- 存放全局概念模式、分片模式、分布模式的定义,以及各模式之间映像的定义;
- 存放有关用户存取权限的定义,以保证全局用户的合法权限和数据库的安全性;
- 存放数据完整性约束条件的定义,其功能与集中式数据库的数据字典类似;
- 通信管理:
在分布式数据库各场地之间传送消息和数据,完成通信功能;