• 数据库安全-分布式数据库-数据仓库技术-反规范化技术-大数据


    继续肝吧,本章主要讲的数据库安全,分布式数据库,数据仓库技术,反规范化技术,大数据,概念性的东西比较多。

    1.数据库安全

    考的不多,了解下补充自己的知识。

    静态转储:即冷备份,指在转储期间不允许对数据库进行任何存取、修改操作;优点是非常快速的备份方法、容易归档(直接物理复制操作);

    缺点是只能提供到某一时间点上的恢复,不能做其他工作,不能按表或按用户恢复。

    动态转储:即热备份,在转储期间允许对数据库进行存取、修改操作,因此,转储和用户事务可并发执行;

    优点是可在表空间或数据库文件级备份,数据库仍可使用,可达到秒级恢复;

    缺点是不能出错,否则后果严重,若热备份不成功,所得结果几乎全部无效。

    完全备份:备份所有数据。

    差量备份:仅备份上一次完全备份之后变化的数据。

    增量备份:备份上一次备份之后变化的数据。

    日志文件:在事务处理过程中,DBMS把事务开始、事务结束以及对数据库的插入、删除和修改的每一次操作写入日志文件。一旦发生故障,DBMS的恢复子系统利用日志文件撤销事务对数据库的改变,回退到事务的初始状态。

    差量备份跟增量备份的区别是,差量备份是备份上一次完全备份之后变化的数据,(主要是这个上一次完全备份!)

    2.分布式数据库

    分布式也有自己的三级模式两级映像!内模式分为了:分片模式和分布模式。

    局部数据库位于不同的物理位置,使用一个全局DBMS将所有局部数据库联网管理,这就是分布式数据库。

    分片模式

    水平分片:将表中水平的记录分别存放在不同的地方。

    垂直分片:将表中的垂直的列值分别存放在不同的地方。

    分布透明性

    分片透明性:用户或应用程序不需要知道逻辑上访问的表具体是如何分块存储的

    位置透明性:应用程序不关心数据存储物理位置的改变

    逻辑透明性:用户或应用程序无需知道局部使用的是哪种数据模型

    复制透明性:用户或应用程序不关心复制的数据从何而来

    3.数据仓库技术

    数据仓库是一个面向主题的、集成的、非易失的、且随时间变化的数据集合,用于支持管理决策。

    面向主题:按照一定的主题域进行组织的。

    集成的:数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。

    相对稳定的:数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。

    反映历史变化:数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。

    数据仓库的结构通常包含四个层次,如下图所示:

    1.数据源:是数据仓库系统的基础,是整个系统的数据源泉。

    2.数据的存储与管理:是整个数据仓库系统的核心。

    3.OLAP(联机分析处理)服务器:对分析需要的数据进行有效集成,按多维模型组织,以便进行多角度、多层次的分析,并发现趋势。

    4.前端工具:主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具以及各种基于数据仓库或数据集市的应用开发工具。

    BI系统主要包括数据预处理、建立数据仓库、数据分析和数据展现四个主要阶段。

    数据预处理是整合企业原始数据的第一步,它包括数据的抽取(Extraction)、转换(Transformation)和加载(Load)三个过程(ETL过程);

    建立数据仓库则是处理海量数据的基础;

    数据分析是体现系统智能的关键,一段采用联机分析处理(OLAP)和数据挖掘两大技术。联机分析处理不仅进行数据汇总/聚集,同时还提供切片、切块、下钻、上卷和旋转等数据分析功能,用户可以方便地对海量数据进行多维分析。数据挖掘的目标则是挖掘数据背后隐藏的知识,通过关联分析、聚类和分类等方法建立分析模型,预测企业未来发展趋势和将要面临的问题;

    在海量数据和分析手段增多的情况下,数据展现则主要保障系统分析结果的可视化。

    4.反规范化技术

    反规范化技术:规范化设计后,数据库设计者希望牺牲部分规范化来提高性能

    采用反规范化技术的益处:降低连接操作的需求、降低外码和索引的数目,还可能减少表的数目,能够提高查询效率。

    可能带来的问题:数据的重复存储,浪费了磁盘空间;可能出现数据的完整性问题,为了保障数据的一致性,增加了数据维护的复杂性,会降低修改速度

    具体方法:

    (1)增加冗余列:在多个表中保留相同的列,通过增加数据冗余减少或避免查询时的连接操作。

    (2)增加派生列:在表中增加可以由本表或其它表中数据计算生成的列,减少查询时的连接操作并避免计算或使用集合函数。

    (3)重新组表:如果许多用户需要查看两个表连接出来的结果数据,则把这两个表重新组成一个表来减少连接而提高性能。

    (4)水平分割表:根据一列或多列数据的值,把数据放到多个独立的表中,主要用于表数据规模很大、表中数据相对独立或数据需要存放到多个介质上时使用。

    (5)垂直分割表:对表进行分割,将键与部分列放到一个表中,主键与其它列放到另一个表中,在查询时减少1/0次数。

    5.大数据

    考试的话,基本就是送分题。

    特点:大量化、多样化、价值密度低、快速化。

    大数据和传统数据的比较如下:

    要处理大数据,一般使用集成平台,称为大数据处理系统,其特征为:

    高度可扩展性、高性能、高度容错、支持异构环境、较短的分析延迟、易用且开放的接口、较低成本、向下兼容性。

    考题来了:

    1.为了保证数据库中数据的安全可靠和正确有效,系统在进行事务处理时,对数据的插入、删除或修改的全部有关内容先写入();当系统正常运行时,按一定的时间间隔,把数据库缓冲区内容写入();当发生故障时,根据现场数据内容及相关文件来恢复系统的状态。

    A.索引文件 B.数据文件 C.日志文件 D.数据字典

    A.索引文件 B.数据文件 C.日志文件 D.数据字典

    2.数据仓库中数据()的特点是指数据一旦进入数据仓库后,将被长期保留并定期加载和刷新,可以进行各种查询操作,但很少对数据进行修改和删除操作。

    A.面向主题 B.集成性 C.相对稳定性 D.反映历史变化

  • 相关阅读:
    maven - 分模块开发
    新型攻击方法分析
    Android入门第28天-ListView嵌套CheckBox在滚动时失去选中状态的问题
    拉链表-spark版本
    新增公司管理页 分页设置 新增功能 删除功能
    Anaconda安装配置
    vue Router从入门到精通
    halcon之区域:多种区域(Region)特征(6)
    RabbitMQ笔记(交换机,发布确认,延时队列,死信队列,整合SpringBoot)
    机器学习笔记之最优化理论与方法(六)无约束优化问题——最优性条件
  • 原文地址:https://blog.csdn.net/devillyd2018/article/details/126424265