MapReduce的Shuffle过程中哪个操作是最后做?
A. 分片
B. 分区
C. 排序
D. 合并
正确答案: D
下面关于MapReduce的描述中正确的是:
A. MapReduce程序必须包含Mapper和Reducer
B. MapReduce程序的MapTask可以任意指定
C. MapReduce程序的ReduceTask可以任意指定
D. 在MapReduce中,用户指定一个map函数处理一个key/value对,从而产生中间的key /value对集。
正确答案: D
一个MapReduce程序中的MapTask的个数由什么决定?
A. 输入的总文件数
B. 客户端程序设置的mapTask的个数
C. FileInputFormat.getSplits(JobContext job)计算出的逻辑切片的数量
D. 输入的总文件大小/数据块大小
正确答案: C
执行一个job,如果这个job的输出路径已经存在,那么程序会:
A. 覆盖这个输出路径
B. 抛出警告,但是能够继续执行
C. 抛出一个异常,然后退出
D. 自动创建新目录
正确答案: C
下列哪种业务场景中,不能直接使用Reducer充当Combiner使用?
A. sum求和
B. max求最大值
C. count求计数
D. avg求平均
正确答案: D
下列关于MapReduce说法不正确的是:
A. MapReduce是一种计算框架
B. MapReduce来源于google论文
C. MapReduce程序只能用Java语言编写
D. MapReduce隐藏了并行计算的细节,方便使用
正确答案: C
下列哪个不属于Reduce阶段?
A. Shuffle
B. Sort
C. Reduce
D. Map
正确答案: D
下列描述中不符合Map/Reduce的是
A. Map结束后,Partitioner会将相同Key分到同一个组交给Reduce进程
B. Reduce先运行,然后运行Map
C. Map是将数据映射成Key/Value再交给Reduce
D. Map/Reduce是函数式的设计思想
正确答案: B
在驱动类中,设置输入数据格式的操作是?
A. 使用方法SetOutputFormatClass()
B. 使用方法SetOutputKeyClass()
C. 使用方法SetInputFormatClass()
D. 使用方法SetJarByClass()
正确答案: C
在MapReduce程序中,Mapper模块中的自定义类继承的父类为:
A. Mapper
B. Reducer
C. Combiner
D. Partitioner
正确答案: A
MapReduce程序中的数据类型Text类似于String,使用这一数据类型的数据为UTF-8格式的文本数据。
正确答案: 正确
MapReduce中Reduce接收的键值对数据类型与Map传出的键值对类型无需一致。
正确答案: 错误
MapReduce任务分片的个数默认与数据所占用的数据块个数一致。
正确答案: 正确
MapReduce可以直接处理HDFS中的数据,无需转换为键值对类型。
正确答案: 错误
MapReduce处理的文件数据都必须支持序列化。
正确答案: 正确
MapReduce为分布式计算框架,所以计算时是并行计算的。
正确答案: 正确
Hadoop MapReduce不仅适合离线处理,也适合实时处理。
正确答案: 错误
在写本地磁盘前,MapReduce的Job会判断reduce任务个数。假如有多个reduce任务,后台线程会根据数据最终要送往的reducer,把数据划分到相应的分区。
正确答案: 正确
MapReduce框架在处理海量历史数据时候,MapTask的个数取决于处理的文件被切分的分片个数。
正确答案: 正确
MapReduce适用于海量数据的批处理。
正确答案: 正确
MapReduce程序的默认数据读取组件是同步障Barrier负责做两件事:一是对map函数输出的中间结果进行分组合并;二是对分组合并之后的结果按照键值进行排序。我们把这个过程叫做____。
正确答案:Shuffle
MapReduce程序的默认数据读取组件是_____。
正确答案:TextInputFormat
MapReduce程序的默认数据输出组件是_____。
正确答案:TextOutputFormat
MapReduce的作业应用程序的运行模式有两种:本地模式和_____。
正确答案:集群模式
在进行MapReduce计算时,有时需要把最终的输出数据划分到不同的文件中,负责实现划分数据的分区的类是_____,我们定义自己分区只需要继承该类。
正确答案:Partitioner