Spark---核心介绍

一、Spark核心

1、RDD

1）、概念：

RDD（Resilient Distributed Datest），弹性分布式数据集。

2）、RDD的五大特性：

1、RDD是由一系列的partition组成的

2、函数是作用在每一个partition(split)上的

3、RDD之间有一系列的依赖关系

4、分区器是作用在K、V格式的RDD上

5、RDD提供一系列最佳的计算位置

3）、RDD理解图：

4）、注意：

textFile方法底层封装的是读取MR读取文件的方式，读取文件之前先split，默认split大小是一个block大小。

RDD实际上不存储数据，为了方便理解，暂时理解为存储数据

什么是K，V格式的RDD？

如果RDD里面存储的数据都是二元组对象，那么这个RDD我们就叫做K,V格式的RDD

哪里体现RDD的弹性（容错）？

partition数量，大小没有限制，体现了RDD的弹性。

RDD之间依赖关系，可以基于上一个RDD重新计算出RDD。

哪里体现RDD的分布式

RDD是由Partition组成，partition是分布在不同节点上的。

RDD提供计算最佳位置，体现了数据本地化。体现了大数据中”计算移动数据不移动“的概念。

2、Java和Scala中创建RDD的方式


java:
 
sc.textFile(xx,minnumpartitions)
sc.parallelize(集合,num)
sc.parallelizePairs(Tuple2集合,num)
 
Scala:
 
sc.textFile(xx,minnumpartitions)
sc.parallelize(集合,num)
sc.makeRDD(集合,num)

3、Spark任务执行原理

以上图中有四个机器节点，Driver和Worker是启动在节点上的进程，运行在JVM中的进程。

Driver与集群节点之间有频繁的通信。

Driver负责任务(tasks)的分发和结果的回收。任务的调度。如果task的计算结果非常大就不要回收了。会造成oom。
Worker是Standalone资源调度框架里面资源管理的从节点。也是JVM进程。
Master是Standalone资源调度框架里面资源管理的主节点。也是JVM进程。

相关阅读:
【每日一题Day346】LC1488避免洪水泛滥 | 贪心+哈希表
Hibernate和MyBatis区别
九芯电子丨语音智能风扇，助您畅享智慧生活
发布订阅者模式
Linux：linux getopt_long()函数（命令行解析）（getopt、getopt_long_only）（短选项 -，长选项 --）
常用注解梳理
module ‘torch‘ has no attribute ‘_six‘问题解决
springboot如何整个Swagger呢？
JavaScript 处理数组函数的总结
c++标准库学习-filesystem文件系统库(1)-path对象

原文地址：https://blog.csdn.net/yaya_jn/article/details/134525643