• 数据仓库与数据挖掘的第二章课后习题


    第二章习题

    1.调和数据是存储在企业级数据仓库(EDW)和操作型数据存储中的数据。

    2.抽取、转换、加载过程的目的是为决策支持应用提供一个 单一的、权威数据源。因此,我们要求ETL过程产生的数据(即调和数据层)是详细的、历史的、规范化的、可理解的、即时的和质量可控制的。

    3.数据抽取的两个常见类型是静态抽取和增量抽取。静态抽取用于最初填充数据仓库,增量抽 取用于进行数据仓库的维护。

    4.粒度是对数据仓库中数据的综合程度高低的一个衡量。粒度越小,细节程度

     越高综合程度 越低,回答査询的种类 越多 

    5.使用星型模式可以从一定程度上提高查询效率。因为星型模式中数据的组织 已经经过预处理,主要数据都在庞大的事实表中。

    6.维度表一般由主键、分类层次和描述属性组成。对于主键可以选择两种方式:一种是采用自然键(Natural Key),另一种是采用代理键(Surrogate Key)

    7.雪花型模式是对 星型模式 维表的进一步层次化和规范化来消除冗余的数据。

    8.数据仓库中存在不同综合级别的数据。一般把数据分成4个级别:早期细节级、当前细节级、轻度综合级 和高度综合级。

    9.什么是数据仓库的3层数据结构?

    答:简单地说数据是从企业内外部的各业务处理系统(操作型数据)流向企业级数据仓库(EDW)或操作型数据存储区(ODS),在这个过程中,要根据企业(或其他组织)的数据模型和元数据库对数据进行调和处理,形成一个中间数据层,然后再根据分析需求,从调和数据层(EDW、ODS)将数据引入导出数据层,如形成满足各类分析需求的数据集市。

    10.什么是数据仓库的数据ETL过程?

    答:数据的 ETL 过程就是负责将操作型数据转换成调和数据的过程。如上面的 2.3.1小节所述,这两种数据具有明显的区别,因此,数据调和是构建一个数据仓库中最难的和最具技术挑战性的部分。在为企业级数据仓库填充数据的过程中,数据调和可分为两个阶段:一是企业级数据仓库(EDW)首次创建时的原始加载;二是接下来的定期修改,以保持 EDW的当前有效性和扩展性。整个过程由四个步骤组成:抽取、清洗、转换、加载和索引。事实上,这些步骤可以进行不同的组合,如,可以将数据抽取与清洗组合为一个过程,或者将清洗和转换组合在一起。通常,在清洗过程中发现的拒绝数据信息会送回到源操作型业务系统中,然后将数据在源系统中加以处理,以便在以后重新抽取。

    11.什么是星型模式?它的特征是什么?

    答:在星模式中,事实表居中,多个维表呈辐射状分布于其四周,并与事实表连接。位于星形中心的实体是事实表,是用户最关心的基本实体和查询活动的中心,为数据仓库的查询活动提供定量数据。位于星模式四周的实体是维度实体,其作用是限制和过滤用户的查询结果,缩小访问范围。每个维表都有自己的属性,维表和事实表通过关键字相关联。

    12.为什么时间总是数据仓库或数据集市的维?

    答:因为数据仓库或数据集市的数据总是历史的数据,需要时间维来区别。

  • 相关阅读:
    京东数据接口:京东数据分析怎么做?
    PPT简明
    CGAL 计算点云的最值
    【半监督光谱退化约束网络:Spectral Super-Resolution】
    高职院校云计算人才培养成果导向系统构建、实施要点与评量方法
    学习STM32第二十天
    elastic数据迁移或者修改mapping
    java8函数式编程之Stream流处理的方法和案例讲解
    面试官: AMS在Android起到什么作用,简单的分析下Android的源码
    AutoGPT目前只是成功学大师GPT版
  • 原文地址:https://blog.csdn.net/qq_51165234/article/details/126858214