码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 大数据随记 —— RDD 的创建


    大数据系列文章:👉 目录 👈

    在这里插入图片描述

    文章目录

        • 一、从集合(内存)中创建 RDD
        • 二、从加载文件(外存)创建 RDD
        • 三、从 RDD 转换成新的 RDD

    一、从集合(内存)中创建 RDD

    Spark 会将集合中的数据拷贝到集群上去,形成一个分布式的数据集合,也就是形成一个 RDD。也就是说,集合中的部分数据会到一个节点上,另一部分的数据会到其他节点上,这样就可以用并行的方式来操作分布式数据集合。

    ① parallelize() 和 makeRDD()

    从集合中创建 RDD,Spark 主要提供了两个方法:parallelize() 和 makeRDD()

    val sparkConf = new SparkConf().setMaster("local[*]").setAppName("spark")  
    val sparkContext = new SparkContext(sparkConf)  
      
    val rdd1 = sparkContext.parallelize(List(1,2,3,4))  
    val rdd2 = sparkContext.makeRDD(List(1,2,3,4))  
      
    rdd1.collect().foreach(println)  
    rdd2.collect().foreach(println)  
    
    sparkContext.stop()  
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10

    从底层代码实现来讲,makeRDD 方法其实就是 parallelize 方法。

    ② parallelize() 的 partition 数量

    1、Spark 默认会根据集群的情况来设置 partition 的数量,也可以在调用 parallelize 方法时,传入第二个参数,来设置 RDD 的 partition 数量,比如 parallelize(arr,10)。

    2、Spark 会为每一个 partition 运行一个 task 来进行处理,通过 WebUI 可以查看。

    二、从加载文件(外存)创建 RDD

    Spark 支持使用任何 Hadoop 所支持的存储系统上的文件创建 RDD,例如 HDFS、HBase 等文件。通过 调用 SparkContext 的 textFile() 方法,可以针对本地文件或 HDFS 文件创建 RDD。通过读取文件来创建 RDD,文件中的每一行就是 RDD 中的一个元素。

    val sparkConf =  new SparkConf().setMaster("local[*]").setAppName("spark")  
    val sparkContext = new SparkContext(sparkConf)  
    val fileRDD: RDD[String] = sparkContext.textFile("input")  
      
    fileRDD.collect().foreach(println)  
    sparkContext.stop()
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6

    三、从 RDD 转换成新的 RDD

    将会在 RDD 的转换中讲解。

    在这里插入图片描述

  • 相关阅读:
    【JavaEE初阶】 CSS的引入方式和选择器
    【论文精读】CONTAINER: Few-Shot Named Entity Recognition via Contrastive Learning
    拥有自己的服务器是一件很不错的事情
    Spring AOP是什么?为什么要有Spring AOP?
    基于SSM的驾校预约管理系统
    JVM分析工具
    Redis持久化
    对数器是什么?简单理解下
    Spring Data JPA语法详解
    扩容后宝塔不更新硬盘容量
  • 原文地址:https://blog.csdn.net/qq_21484461/article/details/126553471
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号