【大数据分布并行处理】单元测试（四）

【大数据分布并行处理】单元测试（四）
文章目录
- 第四单元
- 单选题
  判断题
  填空题
第四单元

 单选题
1. MapReduce的Shuffle过程中哪个操作是最后做？
  A. 分片
  B. 分区
  C. 排序
  D. 合并
  正确答案： D
2. 下面关于MapReduce的描述中正确的是：
  A. MapReduce程序必须包含Mapper和Reducer
  B. MapReduce程序的MapTask可以任意指定
  C. MapReduce程序的ReduceTask可以任意指定
  D. 在MapReduce中，用户指定一个map函数处理一个key/value对，从而产生中间的key /value对集。
  正确答案： D
3. 一个MapReduce程序中的MapTask的个数由什么决定？
  A. 输入的总文件数
  B. 客户端程序设置的mapTask的个数
  C. FileInputFormat.getSplits(JobContext job)计算出的逻辑切片的数量
  D. 输入的总文件大小/数据块大小
  正确答案： C
4. 执行一个job，如果这个job的输出路径已经存在，那么程序会：
  A. 覆盖这个输出路径
  B. 抛出警告，但是能够继续执行
  C. 抛出一个异常，然后退出
  D. 自动创建新目录
  正确答案： C
5. 下列哪种业务场景中，不能直接使用Reducer充当Combiner使用?
  A. sum求和
  B. max求最大值
  C. count求计数
  D. avg求平均
  正确答案： D
6. 下列关于MapReduce说法不正确的是:
  A. MapReduce是一种计算框架
  B. MapReduce来源于google论文
  C. MapReduce程序只能用Java语言编写
  D. MapReduce隐藏了并行计算的细节，方便使用
  正确答案： C
7. 下列哪个不属于Reduce阶段?
  A. Shuffle
  B. Sort
  C. Reduce
  D. Map
  正确答案： D
8. 下列描述中不符合Map/Reduce的是
  A. Map结束后，Partitioner会将相同Key分到同一个组交给Reduce进程
  B. Reduce先运行，然后运行Map
  C. Map是将数据映射成Key/Value再交给Reduce
  D. Map/Reduce是函数式的设计思想
  正确答案： B
9. 在驱动类中，设置输入数据格式的操作是?
  A. 使用方法SetOutputFormatClass()
  B. 使用方法SetOutputKeyClass()
  C. 使用方法SetInputFormatClass()
  D. 使用方法SetJarByClass()
  正确答案： C
10. 在MapReduce程序中，Mapper模块中的自定义类继承的父类为:
  A. Mapper
  B. Reducer
  C. Combiner
  D. Partitioner
  正确答案： A
判断题
1. MapReduce程序中的数据类型Text类似于String，使用这一数据类型的数据为UTF-8格式的文本数据。
  正确答案：正确
2. MapReduce中Reduce接收的键值对数据类型与Map传出的键值对类型无需一致。
  正确答案：错误
3. MapReduce任务分片的个数默认与数据所占用的数据块个数一致。
  正确答案：正确
4. MapReduce可以直接处理HDFS中的数据，无需转换为键值对类型。
  正确答案：错误
5. MapReduce处理的文件数据都必须支持序列化。
  正确答案：正确
6. MapReduce为分布式计算框架，所以计算时是并行计算的。
  正确答案：正确
7. Hadoop MapReduce不仅适合离线处理，也适合实时处理。
  正确答案：错误
8. 在写本地磁盘前，MapReduce的Job会判断reduce任务个数。假如有多个reduce任务，后台线程会根据数据最终要送往的reducer，把数据划分到相应的分区。
  正确答案：正确
9. MapReduce框架在处理海量历史数据时候，MapTask的个数取决于处理的文件被切分的分片个数。
  正确答案：正确
10. MapReduce适用于海量数据的批处理。
  正确答案：正确
填空题
1. MapReduce程序的默认数据读取组件是同步障Barrier负责做两件事：一是对map函数输出的中间结果进行分组合并；二是对分组合并之后的结果按照键值进行排序。我们把这个过程叫做____。
  正确答案：Shuffle
2. MapReduce程序的默认数据读取组件是_____。
  正确答案：TextInputFormat
3. MapReduce程序的默认数据输出组件是_____。
  正确答案：TextOutputFormat
4. MapReduce的作业应用程序的运行模式有两种：本地模式和_____。
  正确答案：集群模式
5. 在进行MapReduce计算时，有时需要把最终的输出数据划分到不同的文件中，负责实现划分数据的分区的类是_____，我们定义自己分区只需要继承该类。
  正确答案：Partitioner
相关阅读:
@Controller与@RestController
日志导致线程Block的这些坑，你不得不防
 mysql自动备份脚本开发，包含自动清理备份文件机制
 永续资金费率说明
 代码随想录训练营day55
25、Camunda Service Task、任务监听器和执行监听器
 django实现用户的注册、登录、注销功能
 wx小程序学习笔记day01
Qt超时机制设计
 红黑树 - c++
原文地址：https://blog.csdn.net/m0_68111267/article/details/134344788

文章目录

第四单元

单选题

判断题

填空题