• 大数据第二章Hadoop习题


    本系列习题来自henu教师PPT及测试

    一、PPT习题:

    1、启动hadoop所有进程的命令是:

    A.start-hdfs.sh      B.start-all.sh       C.start-dfs.sh       D.start-hadoop.sh

    B

    • start-all.sh
      启动所有的Hadoop守护进程。包括NameNode、 Secondary NameNode、DataNode、JobTracker、 TaskTrack
    • stop-all.sh
      停止所有的Hadoop守护进程。包括NameNode、 Secondary NameNode、DataNode、JobTracker、 TaskTrack
    • start-dfs.sh
      启动Hadoop HDFS守护进程NameNode、SecondaryNameNode和DataNode
    • stop-dfs.sh
      停止Hadoop HDFS守护进程NameNode、SecondaryNameNode和DataNode

    2、以下对Hadoop的说法错误的是:

    A.Hadoop是基于Java语言开发的,只支持Java语言编程

    B.Hadoop的核心是HDFSMapReduce

    C.Hadoop MapReduce是针对谷歌MapReduce的开源实现,通常用于大规模数据集的并行计算

    D.Hadoop2.0增加了NameNode HAWire-compatibility两个重大特性

    A、Hadoop是基于Java语言开发的,具有很好的跨平台特性,并且可以部署在廉价的计算机集群中,支持多种编程语言

    3、 以下名词解释错误的是:

    A.Hive:一个基于Hadoop的数据仓库工具,用于对Hadoop文件中的数据集进行数据整理、特殊查询和分析存储

    B.HDFS:分布式文件系统,是Hadoop项目的两大核心之一,是谷歌GFS的开源实现

    C.HBase:提供高可靠性、高性能、分布式的行式数据库,是谷歌BigTable的开源实现

    D.Zookeeper:针对谷歌Chubby的一个开源实现,是高效可靠的协同工作系统

    C 列式数据库

    4、以下哪些组件不是Hadoop的生态系统的组件:

    A.HDFS

    B.Oracle

    C.HBase

    D.MapReduce

    B

    二、测试习题:

    1、Hive是Hadoop上的()

    A、非关系型的分布式数据库

    B、工作流管理系统

    C、数据仓库

    D、流计算框架

    C hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制

    2、hadoop dfs只能适用于()文件系统

    A、Windows

    B、HDFS

    C、本地

    D、Linux

    Hadoop实际上有三种shell命令方式:hadoop fs/hadoop dfs/hdfs dfs

    hadoop fs适用于任何不同的文件系统

    hadoop dfs只能适用于HDFS文件系统

    hdfs dfs也只能适用于HDFS文件系统

    3、Hadoop是基于Python语言开发的,具有很好的跨平台性。

    × Java开发

    4、试述Hadoop的项目结构以及每个部分的具体功能。 

    Commeon是为Hadoop其他子项目提供支持的常用工具,主要包括文件系统、RPC和串行化库。

    Avro是为Hadoop的子项目,用于数据序列化的系统,提供了丰富的数据结构类型、快速可压缩的二进制数据格式、存储持续性数据的文件集、远程调用的功能和简单的动态语言集成功能。

    HDFS是Hadoop项目的两个核心之一,它是针对谷歌文件系统的开源实现。

    HBase是一个提高可靠性、高性能、可伸缩、实时读写、分布式的列式数据库,一般采用HDFS作为其底层数据存储。

    MapReduce是针对谷歌MapReduce的开源实现,用于大规模数据集的并行运算。

    Zoookepper是针对谷歌Chubby的一个开源实现,是高效和可靠的协同工作系统,提供分布式锁之类的基本服务,用于构建分布式应用,减轻分布式应用程序所承担的协调任务。

    Hive是一个基于Hadoop的数据仓库工具,可以用于对Hadoop文件中的数据集进行数据整理、特殊查询和分布存储。

    Pig是一种数据流语言和运行环境,适合于使用Hadoop和MapReducce平台上查询大型半结构化数据集。

    Sqoop可以改进数据的互操作性,主要用来在H大哦哦哦配合关系数据库之间交换数据。

    Chukwa是一个开源的、用于监控大型分布式系统的数据收集系统,可以将各种类型的数据收集成适合Hadoop处理的文件,并保存在HDFS中供Hadoop进行各种 MapReduce操作。

  • 相关阅读:
    【Python网络爬虫】详解python爬虫中URL资源抓取
    【PowerQuery】使用PowerQuery实现DirectQuery模式的数据库刷新
    Linux安装Anaconda教程
    十一、【React-Router6】Hooks 汇总
    使用yarn创建vite+vue3&&electron多端运行
    Mathorcup数学建模竞赛第四届-【妈妈杯】B题:基于协同过滤的书籍推荐模型
    微信小程序实现微信支付的相关操作设置
    复习 --- 消息队列
    leetCode-栈类型详解
    docker数据卷和数据卷容器
  • 原文地址:https://blog.csdn.net/jinyeran/article/details/126559633