码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • RDD的持久化和广播变量


    RDD的持久化

    缓存方式:cache, persist
    特点:并不是调用时立即执行,必须遇到行动算子时才会缓存。因此第一次运行速度并不会变快,只有下次执行时才会生效。

    1. rdd.cache():缓存数据
    2. DAG有向无环图会增加一个绿点
    3. rdd.toDebugTostring()可以查看缓存的具体信息
    4. 只有在shuffle后进行缓存才有意义

    目前来说,spark的缓存位置和级别非常优秀,一般无需修改。缓存不会切断血缘关系,如果缓存后面的计算出错,会重新将缓存前的计算再做一遍。

    RDD checkPoint检查点

    将某个RDD数据落盘保存,如果检查点之后出现问题,可以从检查点开始重做,减少开销。

    1. 设置检查点存储路径,sc.setCheckpointDir("ck");
    2. rdd.checkpoint(): 保存某个RDD的数据
    3. 检查点会切断血缘关系,若后面计算出错,也不会把检查点之前的计算再跑一遍。

    有分区器的RDD

    1. 只有kv类型的RDD才有分区器,单value类型的RDD没有分区器
    2. hashPartitioner是为了聚合计算,RangePartitioner是为了排序。

    广播变量

    分布式共享只读变量,向所有工作节点executor发送一个只读变量。每个executor可以有多个Task, 由于Task是计算的基本单位,本来需要将共享的变量向每个节点都发送一份。 因此可以将变量直接发送给executor,减少通信压力。

    1. sc.broadcast(变量); 广播该变量给executor
    2. broadcast.getValue(); 获取广播变量
  • 相关阅读:
    创新洞察|从2千个Scrum团队实证4大敏捷力提升组织绩效
    Linux系统firewalld防火墙的应用实操(禁止屏蔽海外国外IP访问)
    深扒,Java性能调优手册:编程+多线程+JVM+设计模式+数据库+实战
    【广州华锐互动】VR模拟电力生产事故,切身感受危险发生
    电动汽车交流充电桩系统的设计方案
    ANR系列之八:疑难ANR问题处理记录
    “每周时事通讯:洞悉投资机会,把握市场脉搏 “
    22-09-01 西安 JUC(04)java内存模型JMM、volatile关键字、原子性类、CAS比较并交换、AQS锁原理
    计算机毕业设计springboot基于SpringBoot的智慧校园搜索系统udvbi源码+系统+程序+lw文档+部署
    任务调度器详解(FreeRTOS)
  • 原文地址:https://blog.csdn.net/qq_44273739/article/details/133904800
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号