• Spark---核心介绍


    一、Spark核心

    1、RDD

    1)、概念:

    RDD(Resilient Distributed Datest),弹性分布式数据集。

    2)、RDD的五大特性:

    1、RDD是由一系列的partition组成的

    2、函数是作用在每一个partition(split)上的

    3、RDD之间有一系列的依赖关系

    4、分区器是作用在K、V格式的RDD上

    5、RDD提供一系列最佳的计算位置

    3)、RDD理解图:

    4)、注意:

    textFile方法底层封装的是读取MR读取文件的方式,读取文件之前先split,默认split大小是一个block大小。

    RDD实际上不存储数据,为了方便理解,暂时理解为存储数据

    什么是K,V格式的RDD?

    如果RDD里面存储的数据都是二元组对象,那么这个RDD我们就叫做K,V格式的RDD

    哪里体现RDD的弹性(容错)?

    partition数量,大小没有限制,体现了RDD的弹性。

    RDD之间依赖关系,可以基于上一个RDD重新计算出RDD。

    哪里体现RDD的分布式

    RDD是由Partition组成,partition是分布在不同节点上的。

    RDD提供计算最佳位置,体现了数据本地化。体现了大数据中”计算移动数据不移动“的概念。

    2、Java和Scala中创建RDD的方式

    1. java:
    2. sc.textFile(xx,minnumpartitions)
    3. sc.parallelize(集合,num)
    4. sc.parallelizePairs(Tuple2集合,num)
    5. Scala:
    6. sc.textFile(xx,minnumpartitions)
    7. sc.parallelize(集合,num)
    8. sc.makeRDD(集合,num)

    3、Spark任务执行原理

    以上图中有四个机器节点,Driver和Worker是启动在节点上的进程,运行在JVM中的进程。

    • Driver与集群节点之间有频繁的通信。
    • Driver负责任务(tasks)的分发和结果的回收。任务的调度。如果task的计算结果非常大就不要回收了。会造成oom。
    • Worker是Standalone资源调度框架里面资源管理的从节点。也是JVM进程。
    • Master是Standalone资源调度框架里面资源管理的主节点。也是JVM进程。

  • 相关阅读:
    【每日一题Day346】LC1488避免洪水泛滥 | 贪心+哈希表
    Hibernate和MyBatis区别
    九芯电子丨语音智能风扇,助您畅享智慧生活
    发布订阅者模式
    Linux:linux getopt_long()函数(命令行解析)(getopt、getopt_long_only)(短选项 -,长选项 --)
    常用注解梳理
    module ‘torch‘ has no attribute ‘_six‘问题解决
    springboot如何整个Swagger呢?
    JavaScript 处理数组函数的总结
    c++标准库学习-filesystem文件系统库(1)-path对象
  • 原文地址:https://blog.csdn.net/yaya_jn/article/details/134525643