• SparkCore编程RDD


    RDD概述

    中文名为弹性分布式数据集,是数据处理基本单位。代表一个弹性的,不可变,可分区,里面的数据可并行计算的集合。

    RDD和Hadoop MR 的区别:

    1. RDD是先明确数据处理流程,数据在行动算子执行前实际上并未被修改
    2. MR本质上是摸石头过河,每一步操作时,数据本体已经被修改了,无法恢复。

    RDD特性:

    • 一组分区:标记数据是哪个分区的
    • 一个计算每个分区的函数
    • RDD之间的依赖关系
    • 一个分区器:即RDD的分片函数
    • 一个优先列表:移动数据不如移动计算

    Spark编程

    RDD的创建

    1. 使用IDEA创建一个spark项目
    2. 添加spark-core_2.12依赖,版本3.3.1
    3. 在setting-plugins搜索Scala插件,方便查询Scala代码
    4. 如果代码出现winutils找不到异常时,需要配置一下windows对于Hadoop的依赖
    5. 开始编程
      • 创建RDD_init的class文件,定义main方法
      • new JavaSparkContext(), 设置SparkConf().setMaster("local[*]").setAppName("rdd");得到sc
      • sc获取RDD的方法
        • textFile(文件路径)
        • parallelize(list集合)

    分区

    为了能够看到分区的情况,不使用collect收集,而是采用saveAsTextFile方法来看并行操作的具体情形。local[2]代表并行度,也会影响文件的数量,这个是分区数的上限。也可以通过parallelize(list, 分区数)方法来控制分区数量,而不影响分区的上限。

    内存数据分区策略:如果数据个数无法被分区数整除,多出来的数据优先分配给后面的分区。

    def positions()={
    	val start = ((下标*数据个数)/分区数).toInt
    	val end = ((下标+1)* 数据个数/ 分区数).toInt
    }
    
    • 1
    • 2
    • 3
    • 4

    从集合获取数据时,负载均衡,尽量保证每个分区的数据数量是一致的,后面的分区的数据会比前面的多。

    MR和spark的切分区别:

    • MR希望每个任务跑到数据量级尽量多,因为MR底层是单线程多进程的,并发没有那么方便。
    • spark希望跑到任务尽量多,即负载均衡,并发量高,因为spark底层是多进程多线程的。

    文件数据分区策略:分区数量最低为2,最高为环境CPU数量。分区数量根据文件大小来计算得出,跟MR切片规则很类似。大致是这样:

    • goalS ize = 文件大小(字节) / 分区数量,最小为1
    • 分区数量 = 文件大小 / goalSize
  • 相关阅读:
    ThingsBoard IoT Gateway 实战(二)- 通过 Request Connector 获取天气
    labview中6种机械动作的区别
    dockerfile 搭建lnmp+wordpress,docker-compose搭建lnmp+wordpress
    【ECMAScript6】迭代器与生成器
    MongoDB(一) windows 和 linux 之 Ubuntu 安装
    Mysql远程登录报错:Host ‘192.168.137.1‘ is not allowed to connect to this MySQL server
    【redis-01】redis整合springboot实现简单的增删改查
    Servlet工作过程和生命周期
    ubus调试小结
    2022年双十一数码产品排名,数码好物选购指南
  • 原文地址:https://blog.csdn.net/qq_44273739/article/details/133824959