• flink核心思想


    1 窗口

    Flink设计的目标是为了满足实时计算,这里的实时计算指的是流式处理。

    流式处理的得名是说数据像水流一样,从源头源源不断的发送到下游,是真正意义上的实时,更接近数据发生的真实情况。

    流式处理是区别于微批,spark是微批,是区别于批处理。所以从离线到实时计算,处理的粒度为批处理(离线)、微批处理(实时)、流处理(实时计算)。根据数据处理的粒度,选择合适的计算方式。

    Flink是流式处理,为了满足某些应用场景需要将数据分成一批一批处理添加了窗口的概念。

    窗口和watemark结合使用可以处理乱序数据。

    2 无窗口

    Flink不添加窗口是真正意义上的流式处理,来一条数据处理一条。

    Flink应对流式处理数据并发较高的情况下,也做了优化,保证即使高并发情况也不会导致任务失败。

    3 Flink技能点说明

    • 状态使用Valuestate
      • 将窗口和窗口之间产生联系
      • 举例:窗口累计统计,使用状态值保存
    • 状态后端Statebackend
      • 将中间过程缓存的数据转移到别的地方存储,降低flink自身内存压力
      • 也可以将状态放入状态后端存储,flink程序从状态后端中取值
    • 检查点Checkpoint
      • 检查点用于容错机制,任务重启时从检查点恢复,避免数据重复计算
      • flink-kafka,利用kafka的特性,可以实现端到端的一致性
    • 水印Waterark
      • 触发窗口关闭,释放数据
      • watermark是一个时间戳
    • 定时器OnTimer
      • 避免窗口时间过长,添加定时器触发计算,一种计算机制
    • 触发器Trigger
      • 触发器决定了一个窗口何时可以被窗口函数处理,条件满足时触发并发出信号
      • 每一个WindowAssigner都有一个默认的触发器,可以通过调用trigger()指定一个自定义触发器
      • 触发器有5个方法允许触发器处理不同事件(Trigger)
        • onElement():每个元素被添加到窗口时调用
        • onElement():当一个已注册的事件时间计时器启动时调用
        • onProcessingTime(): 当一个已注册的处理时间计时器启动时调用
        • onMerge():与状态性触发器相关,当使用session window时,两个触发器对应的窗口合并时,合并两个触发器的状态
        • clear():相应窗口被清除时触发
      • 前三个方法通过返回TriggerResult来决定如何对其调用事件进行操作。该操作可以是以下操作之一
        • CONTINUE:什么也不做
        • FIRE:触发计算
        • PURGE:清除窗口中的数据
        • FIRE_AND_PURGE:触发计算并随后清除窗口中的元素
    • 复杂时间处理CEP
      • 定义CEP规则,过滤出符合CEP规则的数据

  • 相关阅读:
    使用ScottPlot库在.NET WinForms中快速实现大型数据集的交互式显示
    docker (六)-进阶篇-数据持久化最佳实践MySQL部署
    深度学习笔记之优化算法(五)AdaGrad算法的简单认识
    05set注入和构造注入的原理
    filp_open
    单链表的建立(头插法、尾插法)(数据结构与算法)
    详解二分查找
    电脑设备打印机驱动安装失败如何解决
    程序员副业之无货源闲鱼
    【算法】快速排序与归并排序
  • 原文地址:https://blog.csdn.net/luo981695830/article/details/127964767