SparkCore编程RDD

RDD概述

中文名为弹性分布式数据集，是数据处理基本单位。代表一个弹性的，不可变，可分区，里面的数据可并行计算的集合。

RDD和Hadoop MR 的区别：

RDD特性：

为了能够看到分区的情况，不使用collect收集，而是采用saveAsTextFile方法来看并行操作的具体情形。local[2]代表并行度，也会影响文件的数量，这个是分区数的上限。也可以通过parallelize(list, 分区数)方法来控制分区数量，而不影响分区的上限。

内存数据分区策略：如果数据个数无法被分区数整除，多出来的数据优先分配给后面的分区。

def positions()={
	val start = ((下标*数据个数)/分区数).toInt
	val end = ((下标+1)* 数据个数/ 分区数).toInt
}
1
2
3
4

从集合获取数据时，负载均衡，尽量保证每个分区的数据数量是一致的，后面的分区的数据会比前面的多。

MR和spark的切分区别：

文件数据分区策略：分区数量最低为2，最高为环境CPU数量。分区数量根据文件大小来计算得出，跟MR切片规则很类似。大致是这样：

相关阅读:
ThingsBoard IoT Gateway 实战（二）- 通过 Request Connector 获取天气
labview中6种机械动作的区别
dockerfile 搭建lnmp+wordpress，docker-compose搭建lnmp+wordpress
【ECMAScript6】迭代器与生成器
MongoDB（一） windows 和 linux 之 Ubuntu 安装
Mysql远程登录报错：Host ‘192.168.137.1‘ is not allowed to connect to this MySQL server
【redis-01】redis整合springboot实现简单的增删改查
Servlet工作过程和生命周期
ubus调试小结
2022年双十一数码产品排名，数码好物选购指南

原文地址：https://blog.csdn.net/qq_44273739/article/details/133824959