• 【大数据分布并行处理】单元测试(四)


    第四单元

    单选题

    1. MapReduce的Shuffle过程中哪个操作是最后做?
      A. 分片
      B. 分区
      C. 排序
      D. 合并
      正确答案: D

    2. 下面关于MapReduce的描述中正确的是:
      A. MapReduce程序必须包含Mapper和Reducer
      B. MapReduce程序的MapTask可以任意指定
      C. MapReduce程序的ReduceTask可以任意指定
      D. 在MapReduce中,用户指定一个map函数处理一个key/value对,从而产生中间的key /value对集。
      正确答案: D

    3. 一个MapReduce程序中的MapTask的个数由什么决定?
      A. 输入的总文件数
      B. 客户端程序设置的mapTask的个数
      C. FileInputFormat.getSplits(JobContext job)计算出的逻辑切片的数量
      D. 输入的总文件大小/数据块大小
      正确答案: C

    4. 执行一个job,如果这个job的输出路径已经存在,那么程序会:
      A. 覆盖这个输出路径
      B. 抛出警告,但是能够继续执行
      C. 抛出一个异常,然后退出
      D. 自动创建新目录
      正确答案: C

    5. 下列哪种业务场景中,不能直接使用Reducer充当Combiner使用?
      A. sum求和
      B. max求最大值
      C. count求计数
      D. avg求平均
      正确答案: D

    6. 下列关于MapReduce说法不正确的是:
      A. MapReduce是一种计算框架
      B. MapReduce来源于google论文
      C. MapReduce程序只能用Java语言编写
      D. MapReduce隐藏了并行计算的细节,方便使用
      正确答案: C

    7. 下列哪个不属于Reduce阶段?
      A. Shuffle
      B. Sort
      C. Reduce
      D. Map
      正确答案: D

    8. 下列描述中不符合Map/Reduce的是
      A. Map结束后,Partitioner会将相同Key分到同一个组交给Reduce进程
      B. Reduce先运行,然后运行Map 
      C. Map是将数据映射成Key/Value再交给Reduce  
      D. Map/Reduce是函数式的设计思想
      正确答案: B

    9. 在驱动类中,设置输入数据格式的操作是?
      A. 使用方法SetOutputFormatClass()
      B. 使用方法SetOutputKeyClass()
      C. 使用方法SetInputFormatClass()
      D. 使用方法SetJarByClass()
      正确答案: C

    10. 在MapReduce程序中,Mapper模块中的自定义类继承的父类为:
      A. Mapper
      B. Reducer
      C. Combiner
      D. Partitioner
      正确答案: A

    判断题

    1. MapReduce程序中的数据类型Text类似于String,使用这一数据类型的数据为UTF-8格式的文本数据。
      正确答案: 正确

    2. MapReduce中Reduce接收的键值对数据类型与Map传出的键值对类型无需一致。
      正确答案: 错误

    3. MapReduce任务分片的个数默认与数据所占用的数据块个数一致。
      正确答案: 正确

    4. MapReduce可以直接处理HDFS中的数据,无需转换为键值对类型。
      正确答案: 错误

    5. MapReduce处理的文件数据都必须支持序列化。
      正确答案: 正确

    6. MapReduce为分布式计算框架,所以计算时是并行计算的。
      正确答案: 正确

    7. Hadoop MapReduce不仅适合离线处理,也适合实时处理。
      正确答案: 错误

    8. 在写本地磁盘前,MapReduce的Job会判断reduce任务个数。假如有多个reduce任务,后台线程会根据数据最终要送往的reducer,把数据划分到相应的分区。
      正确答案: 正确

    9. MapReduce框架在处理海量历史数据时候,MapTask的个数取决于处理的文件被切分的分片个数。
      正确答案: 正确

    10. MapReduce适用于海量数据的批处理。
      正确答案: 正确

    填空题

    1. MapReduce程序的默认数据读取组件是同步障Barrier负责做两件事:一是对map函数输出的中间结果进行分组合并;二是对分组合并之后的结果按照键值进行排序。我们把这个过程叫做____。
      正确答案:Shuffle

    2. MapReduce程序的默认数据读取组件是_____。
      正确答案:TextInputFormat

    3. MapReduce程序的默认数据输出组件是_____。
      正确答案:TextOutputFormat

    4. MapReduce的作业应用程序的运行模式有两种:本地模式和_____。
      正确答案:集群模式

    5. 在进行MapReduce计算时,有时需要把最终的输出数据划分到不同的文件中,负责实现划分数据的分区的类是_____,我们定义自己分区只需要继承该类。
      正确答案:Partitioner

  • 相关阅读:
    学习LevelDB架构的检索技术
    多旋翼无人机仿真 rotors_simulator:基于PID控制器的位置控制
    java-单列集合List详解
    【Linux高性能服务器编程】前篇
    树结构工具-TreeUtil使用
    [ubuntu系统下的文本编辑器nano,vim,gedit,文件使用,以及版本更新问题]
    vue实战-排序
    java中的原码、补码、反码
    记一次SQL优化
    MySql的初识感悟,以及sql语句中的DDL和DML和DQL的基本语法
  • 原文地址:https://blog.csdn.net/m0_68111267/article/details/134344788