• spark学习索引


    一、 RDD

    弹性分布式数据集(resilient distributed dataset),控制不同机器上的不同数据分区,通过“partitionBy”对数据在不同机器上进行重排。一个task对应一个分区。

    元数据类型

    分区列表、
    计算每个分区的函数、
    对父RDD的依赖列表、
    对Key-Value对数据类型RDD的分区器,控制分区策略和分区数。

    创建方式

    1. Hadoop文件系统输入创建
      从集合中创建:
      intRDD = sc.parallelize([4,1,2,5,5,6,8])
      kvRDD.collect() # 动作
      kvRDD1 = sc.parallelize([(2,3),(3,5),(4,6),(1,2)])
      kvRDD.collect() # action
      从文件读取:如果是分布式,需要将文件复制到不同地方
      本地
      lines = sc.textFile(“file:///home/hadoop/temp/word.txt”)
      lines.foreach(print)
      远程
      from pyspark import SparkConf,SparkCountext
      conf = SparkConf().setMaster(“local”).setAppName(“My App”)
      sc = SparkContext(conf = conf)
      lines = sc.textFile(“hdfs://hadoop1:9000/tmp/word.txt”)
      lines.foreach(print)

    from pyspark.files import SparkFiles
    sc.addFile(“word.txt”)
    sc.textFile(SparkFiles.get(“word.txt”))

    1. 父RDD转换得到新的RDD

    二、Map

    map是对RDD 中的每个元素都执行一个指定的函数来产生一个新的RDD。
    rdd.map(lambda x:x+1)

    三、Reduce

    reduce函数对所有的元素调用同一个函数,可以把所有的数据合并在一起,并返回最终的调查结果。
    rdd.reduce(lambda x,y:x+y)

    reduceByKey函数专门针对键值对类型的数据,生成新的RDD

    四、 DAG

    有向无环图(Directed Acyclic Graph)连接了一个个RDD,
    spark的转换操作不会执行,动作操作才会执行。
    不同的RDD之间存在宽依赖和窄依赖,
    窄依赖是一个父RDD的分区仅对应一个子分区,有利于计算的并行。
    宽依赖是一个父RDD的分区对应多个子分区,一个stage中的所有依赖都结束了,才会进入下一个stage.另外如果某个task出错了,需要重算整个stage。

    五、Transformation

    对RDD进行转换产生新的RDD。

    标准的RDD

    map

    对每一个元素进行操作

  • 相关阅读:
    vue实现拖拽排序
    C/S架构学习之TCP客户端
    Docker 启动远程服务访问不了
    大型网站技术架构 | 信息加密技术及密匙安全管理
    给定DNA序列,查找有效匹配子串
    图形学-变换(平移矩阵,旋转矩阵,缩放矩阵,线性变换,放射变换,齐次坐标)
    智能中仍存在着许多未被发现的逻辑
    [mysql/docker] 基于Docker安装MYSQL
    Vue条件判断及循环遍历(v-if、v-elseif、v-else、v-show、v-for)
    Tcp/ip 定时器与滑动窗口(持续更新)
  • 原文地址:https://blog.csdn.net/weixin_43899514/article/details/126901239