中文名为弹性分布式数据集,是数据处理基本单位。代表一个弹性的,不可变,可分区,里面的数据可并行计算的集合。
RDD和Hadoop MR 的区别:
RDD特性:
new JavaSparkContext(), 设置SparkConf().setMaster("local[*]").setAppName("rdd");
得到sc为了能够看到分区的情况,不使用collect收集,而是采用saveAsTextFile方法来看并行操作的具体情形。local[2]
代表并行度,也会影响文件的数量,这个是分区数的上限。也可以通过parallelize(list, 分区数)方法来控制分区数量,而不影响分区的上限。
内存数据分区策略:如果数据个数无法被分区数整除,多出来的数据优先分配给后面的分区。
def positions()={
val start = ((下标*数据个数)/分区数).toInt
val end = ((下标+1)* 数据个数/ 分区数).toInt
}
从集合获取数据时,负载均衡,尽量保证每个分区的数据数量是一致的,后面的分区的数据会比前面的多。
MR和spark的切分区别:
文件数据分区策略:分区数量最低为2,最高为环境CPU数量。分区数量根据文件大小来计算得出,跟MR切片规则很类似。大致是这样: