• 【校招VIP】java开源框架之spark


    考点介绍:

    考点介绍:Spark,是一种"One Stack to rule them all"的大数据计算框架,期望使用一个技术堆栈就完美地解决大数据领域的各种计算任务。Apache官方,对Spark的定义就是:通用的大数据快速处理引擎。

    本期分享的java开源框架之spark,分为试题、文章以及视频三部分。

    答案详情解析和文章内容点击下方链接即可查看!

    一、考点题目

    1.spark为什么比hadoop的mr要快?

    解答:Spark比Hadoop快的主要原因:在内存核算战略和先进的DAG调度等机制的协助下,Spark能够用更快速度处理一样的数据集。1.spark基于内存、消除了冗余的HDFS读写,MapReduce在每次执行时都要从磁盘读取数据,计算完毕后都要把数据存放到磁盘上。 Hadoop每次shuffle(分区合并排序等……)操作后,必须写到磁盘,而Spark是基于内存的。Spark在shuffle后不一定落盘,可以cache到内存中,以便迭代时使用……

    2.spark中的RDD是什么,有哪些特性?

    解答:RDD (Resilient Distributed Dataset)叫做分布式数据集,是spark中 最基本的数据抽象,它代表一个不可变, 可分区, 里面的元素可以并行计算的集合,Dataset:就是一个集合,用于存放数据,Destributed:分布式,可以并行在集群计算,Resilient:表示弹性的,弹性表示……

    3.概述一下spark中的常用算子区别(map,mapPartitions, foreach, foreachPatition)

    解答:map:用于遍历RDD,将函数应用于每一个元素, 返回新的RDD (transformation算子),foreach:用于遍历RDD,将函数应用于每一个元素,无返回值(action算子),mapPatitions:用于遍历操作RDD中的每一个分区, 返回生成一个新的RDD (transformation算子),foreachPatition:用于遍历操作RDD中的每-个分区,无返回值(action算子 )……

    4.下面哪个不是 RDD 的特点 ( )

    A.可分区

    B.可序列化

    C.可修改

    D.可持久化

    正确答案:C,RDD (Resilient Distributed Dataset)叫做分布式数据集,是spark中 最基本的数据抽象,它代表一个不可变, 可分区, 里面的元素可以并行计算的集合,所以“可修改”错误……

    (答案点击下方链接查看哦)

    二、考点文章

    1.【校招VIP】Spark概述

    Spark是什么,Apache Spark是一个快速的、多用途的集群计算系统,相对于Hadoop MapReduce将中间结果保存在磁盘中,Spark使用了内存保存中间结果,能在数据尚未写入磁盘时在内存中进行运算。Spark只是一个计算框架,不像Hadoop一样包含了分布式文件系统和完备的调度系统,如果要使用Spark,需要搭载其它的文件系统和成熟的调度系统……

    2.【校招VIP】Spark基础操作(一)

    一、搭建学习环境,1、下载spark,我使用的是spark1.6.2,下载地址,我们直接下载,然后解压。我们看看里面的目录,2、python-shell,我们运行bin/pyspark之后就进入了spark的python shell。我们为了验证是否成功了,可以运行下面的代码……

    3.【校招VIP】30分钟理解Spark的基本原理

    一,Spark优势特点,作为大数据计算框架MapReduce的继任者,Spark具备以下优势特性。1,高效性,不同于MapReduce将中间计算结果放入磁盘中,Spark采用内存存储中间计算结果,减少了迭代运算的磁盘IO,并通过并行计算DAG图的优化,减少了不同任务之间的依赖,降低了延迟等待时间。内存计算下,Spark 比 MapReduce 快100倍……

    三、考点视频

    1.二叉树叶子结点数=度为2结点数+1

    这是二叉树最常考的性质之一,是校招和考研笔试的考点。性质有数学的定理一样,掌握了这种题就是送分题,没掌握花很长时间也得不了分……

    移动端链接:https://m.xiaozhao.vip/dTopic/detail/459

    PC端链接:https://xiaozhao.vip/dTopic/detail/459

     

  • 相关阅读:
    【服务器数据恢复】hp服务器raid5磁盘掉线导致raid5不可用的数据恢复案例
    Docker入门-上篇
    推荐算法工程师必备技能储备
    刷新三观的HP-UX系统中的强指针赋值出core问题
    3DCAT实时渲染云在BIM领域的应用
    Microsoft SQL Server 图书管理数据库的建立
    使用mshta和csv注入配合获得主机权限
    【树莓派】在没有显示屏的情况下通过WIFI连电脑
    「重学JS」你真的懂数据类型吗?
    动手实现H5仿原生app前进后退切换效果
  • 原文地址:https://blog.csdn.net/shuize123/article/details/125497942