考点介绍:
考点介绍:Spark,是一种"One Stack to rule them all"的大数据计算框架,期望使用一个技术堆栈就完美地解决大数据领域的各种计算任务。Apache官方,对Spark的定义就是:通用的大数据快速处理引擎。
本期分享的java开源框架之spark,分为试题、文章以及视频三部分。
答案详情解析和文章内容点击下方链接即可查看!
1.spark为什么比hadoop的mr要快?
解答:Spark比Hadoop快的主要原因:在内存核算战略和先进的DAG调度等机制的协助下,Spark能够用更快速度处理一样的数据集。1.spark基于内存、消除了冗余的HDFS读写,MapReduce在每次执行时都要从磁盘读取数据,计算完毕后都要把数据存放到磁盘上。 Hadoop每次shuffle(分区合并排序等……)操作后,必须写到磁盘,而Spark是基于内存的。Spark在shuffle后不一定落盘,可以cache到内存中,以便迭代时使用……
2.spark中的RDD是什么,有哪些特性?
解答:RDD (Resilient Distributed Dataset)叫做分布式数据集,是spark中 最基本的数据抽象,它代表一个不可变, 可分区, 里面的元素可以并行计算的集合,Dataset:就是一个集合,用于存放数据,Destributed:分布式,可以并行在集群计算,Resilient:表示弹性的,弹性表示……
3.概述一下spark中的常用算子区别(map,mapPartitions, foreach, foreachPatition)
解答:map:用于遍历RDD,将函数应用于每一个元素, 返回新的RDD (transformation算子),foreach:用于遍历RDD,将函数应用于每一个元素,无返回值(action算子),mapPatitions:用于遍历操作RDD中的每一个分区, 返回生成一个新的RDD (transformation算子),foreachPatition:用于遍历操作RDD中的每-个分区,无返回值(action算子 )……
4.下面哪个不是 RDD 的特点 ( )
A.可分区
B.可序列化
C.可修改
D.可持久化
正确答案:C,RDD (Resilient Distributed Dataset)叫做分布式数据集,是spark中 最基本的数据抽象,它代表一个不可变, 可分区, 里面的元素可以并行计算的集合,所以“可修改”错误……
(答案点击下方链接查看哦)
1.【校招VIP】Spark概述
Spark是什么,Apache Spark是一个快速的、多用途的集群计算系统,相对于Hadoop MapReduce将中间结果保存在磁盘中,Spark使用了内存保存中间结果,能在数据尚未写入磁盘时在内存中进行运算。Spark只是一个计算框架,不像Hadoop一样包含了分布式文件系统和完备的调度系统,如果要使用Spark,需要搭载其它的文件系统和成熟的调度系统……
2.【校招VIP】Spark基础操作(一)
一、搭建学习环境,1、下载spark,我使用的是spark1.6.2,下载地址,我们直接下载,然后解压。我们看看里面的目录,2、python-shell,我们运行bin/pyspark之后就进入了spark的python shell。我们为了验证是否成功了,可以运行下面的代码……
3.【校招VIP】30分钟理解Spark的基本原理
一,Spark优势特点,作为大数据计算框架MapReduce的继任者,Spark具备以下优势特性。1,高效性,不同于MapReduce将中间计算结果放入磁盘中,Spark采用内存存储中间计算结果,减少了迭代运算的磁盘IO,并通过并行计算DAG图的优化,减少了不同任务之间的依赖,降低了延迟等待时间。内存计算下,Spark 比 MapReduce 快100倍……
1.二叉树叶子结点数=度为2结点数+1
这是二叉树最常考的性质之一,是校招和考研笔试的考点。性质有数学的定理一样,掌握了这种题就是送分题,没掌握花很长时间也得不了分……
移动端链接:https://m.xiaozhao.vip/dTopic/detail/459
PC端链接:https://xiaozhao.vip/dTopic/detail/459