码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • Spark Streaming


    Spark Streaming

    • Spark Streaming
      • 一、应用场景
      • 二、核心机制
      • 三、Spark Streaming的程序执行入口
        • 3.1 StreamingContext
        • 3.2 StreamingContext的使用步骤
          • 3.2.1 创建程序执行入口
          • 3.2.2 根据数据源创建数据抽象DStream
          • 3.2.3 调用DStream的算子进行数据计算
          • 3.2.4 调用StreamingContext的start方法启动实时计算
          • 3.2.5 调用StreamingContext的awaitxxxx等待实时计算运行
      • 四、DStream的创建
        • 4.1 从网络端口创建DStream
        • 4.2 从外部文件中创建DStream
        • 4.3 Flume/Kafka
      • 五、DStream的算子操作
        • 5.1 DStream是由时间批次组成RDD的集合
        • 5.2 无状态算子
        • 5.3 有状态算子
        • 5.4 窗口算子
      • 六、DStream的输出操作
        • 6.1 print操作
        • 6.2 saveAsTextFile/ObjectFile
        • 6.3 foreachRDD操作
      • 七、Spark Streaming的WAL预写日志
        • 7.1 如何开启WAL预写日志
          • 7.1.1 设置ssc的检查点目录
          • 7.1.2 给SparkConf中增加一个配置项

    Spark Streaming

    一、应用场景

    实时计算的,一般使用在实时性要求比较高的场合。但是Spark Streaming内部采用批次计算的机制实现实时计算,一般情况下Spark Streaming也称之为准实时计算框架,批处理框架。

    二、核心机制

    核心采用了一个新的数据抽象DStream,DStream是多个RDD的集成体,DStream中采用时间批次的概念,将一段时间之间的数据封装为一个RDD,然后统一处理一次

    三、Spark Streaming的程序执行入口

    3.1 StreamingContext

    3.2 StreamingContext的使用步骤

    3.2.1 创建程序执行入口
    3.2.2 根据数据源创建数据抽象DStream
    3.2.3 调用DStream的算子进行数据计算
    3.2.4 调用StreamingContext的start方法启动实时计算
    3.2.5 调用StreamingContext的awaitxxxx等待实时计算运行

    程序资源的问题,一般情况下,SparkStreaming的运行资源线程数一般大于等于2,receiver接收器接受数据源的数据封装称为batch批次数据时,batch数据可以自己设置存储位置,默认在内存和硬盘序列化存储2份

    四、DStream的创建

    4.1 从网络端口创建DStream

    4.2 从外部文件中创建DStream

    从外部文件中创建DStream(可以是本地文件系统的,也可以是HDFS文件系统):textFileStream fileStream 文件读取机制采用的是MapReduce中InputFormat机制来读取的

    4.1~4.2:基础数据源

    4.3 Flume/Kafka

    高级数据源

    五、DStream的算子操作

    5.1 DStream是由时间批次组成RDD的集合

    5.2 无状态算子

    算子只对当前批次的数据有效,前一个批次的计算结果不清楚

    1. RDD中涉及的算子DStream基本都有,这些算子基本上都是无状态算子
    2. transform 算子直接对DStream中的RDD进行运算的

    5.3 有状态算子

    算子会记录前一个批次的计算结果,然后在和当前批次进行计算updateStateByKey

    使用前提必须开启检查点目录

    5.4 窗口算子

    将n个批次的数据划分称为一个窗口。然后对窗口统一的运算

    window 两个核心参数:

    1. windowDuration:窗口的宽度(包含多少个批次的数据)
    2. slideDuration:窗口的间隔(从前一个窗口的第批次条数据到第二个窗口的第一批次数据的间隔)

    六、DStream的输出操作

    6.1 print操作

    6.2 saveAsTextFile/ObjectFile

    6.3 foreachRDD操作

    可以实现Spark Streaming和Spark的其他组件的无缝衔接

    七、Spark Streaming的WAL预写日志

    Spark Streaming运行的时候需要一个Receiver接收器接受数据,接受的数据设置缓存的地方,Receiver接受的数据一旦丢失,就算Spark有容错机制,无法计算了,因为没有数据源的数据了。

    为了保证数据的安全性,防止了Receiver接受的数据丢失,可以开启Spark Streaming的预写日志WAL,WAL可以实现将Receiver每一批次的数据缓存到Spark的检查点目录。 因为一旦开启了WAL,程序的执行效率会非常的低

    7.1 如何开启WAL预写日志

    7.1.1 设置ssc的检查点目录
    7.1.2 给SparkConf中增加一个配置项

    spark.streaming.receiver.writeAheadLog.enable = true

  • 相关阅读:
    会自动化就能拿20K?想多了,你这顶多算是会点皮毛···
    Docker容器数据卷
    java设计模式---责任链模式详解
    ElementUI之CUD+表单验证
    GBase 8s数据库DB-Access全屏菜单界面介绍(3)
    小程序入门笔记(一) 黑马程序员前端微信小程序开发教程
    集合学习笔记——Collection 全家桶
    YCSB and TPC-C on MySQL(避免重复load)
    [Qt网络编程]之UDP通讯的简单编程实现
    Flutter 8 个优秀动画 Packages
  • 原文地址:https://blog.csdn.net/cai_4/article/details/133758764
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号