码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • Flink 窗口延迟数据处理 AllowedLateness


    1. 什么是迟到数据

    之前介绍过,Watermark 可以用来平衡结果的完整性和延迟。除非你选择一种非常保守的 Watermark 生成策略,等待足够长的时间确保应该到的数据已经全部到达(以高延迟为代价确保了数据的完整性),否则你的应用程序很有可能有迟到的数据。

    所谓迟到数据是指数据记录元素到达算子后,本应该参与的计算已经执行完毕。在事件时间窗口算子中,如果数据记录元素到达算子时窗口分配器为其分配的窗口因为算子 Watermark 超过了窗口的结束时间而销毁,那么可以认为这条数据记录元素就是迟到数据(迟到数据在窗口计算时就不会被纳入窗口的统计范围内)。可以看出迟到数据本质是指某个 Watermark 之后到来的数据记录元素,并且其时间戳小于 Watermark。所以只有在事件时间语义下,讨论迟到数据的处理才是有意义的。

    一般情况 Watermark 不应该把延迟设置得太大,否则流处理的实时性就会大大降低。因为 Watermark 的延迟主要是用来对付分布式网络传输导致的数据乱序,而网络传输的乱序程度一般并不会很大,大多集中在几毫秒至几百毫秒。所以实际应用中,我们往往会给 Watermark 设置一个’能够处理大多数乱序数据的最小延迟’,视需求一般设在毫秒到秒级。保证了低延迟,但是就有可能数据记录在 Watermark 之后到达,必须额外添加一些代码来处理延迟事件。DataStream API 提供了不同的选项来应对迟到的数

  • 相关阅读:
    零基础想自学软件测试,有没有大佬可以分享下接下来的学习书籍和路线?
    Flexible-Job-Shop-Scheduling-Problem解读
    秋招应届毕业生求职 如何通过在线测评?
    《Oracle系列》Oracle 索引使用情况查看
    android的异步任务与handler分析与初步实战
    二十种实战调优MySQL性能优化的经验
    Java类加载机制(JVM)
    Django--重定向redirect
    小程序webSocket
    我的这个c++程序到底是怎么了?(相关搜索:for循环|主线程)
  • 原文地址:https://blog.csdn.net/SunnyYoona/article/details/126964028
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号