码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 数据迟到超过1天


    • 流数据中有2个时间,1个是程序时间,1个是事件时间
      事件时间:事件发生的事件
      程序时间:数据被服务端接收的时间
      程序时间≥事件事件

    • 例如
      某个事件在客户端15点23分00秒发生
      数据上传到服务端的时间是15点23分01秒
      那么
      事件时间=15:23:00
      程序时间=15:23:01
      数据延时=1秒

    • 一般来说,数据延时不会太大
      内网数据传输延时毫秒级别
      外网数据传输延时远不达到秒级
      多数情况下,延时不会超过1小时

    • 然而某些手机应用
      手机在断网情况下操作,数据临时保存到手机
      直到手机有网,数据才上传到服务端,程序时间远大于事件时间,甚至延时超过1天

    • 使用Flume把流数据写到HDFS,路径含动态时间(如:/temp/flume/kafka/%{topic}/%Y-%m-%d)
      %Y-%m-%d默认会用Flume的程序时间
      通常会给Flume配置时间拦截器,使得%Y-%m-%d使用事件时间

    • Flume有个按时间滚动文件的参数,滚动中的文件以.tmp作为后缀
      当%Y-%m-%d使用事件时间,某个2022年7月4号21点的数据在5号3点才到,产生2022-07-04/xxxx.tmp文件
      如果HIVE在每天2点执行LOAD DATA任务,数据装载就会不全

    • 通常数据分析允许一定限度的 系统误差
      比如,延时6小时执行LOAD DATA任务可得到99.9%的数据,剩下的迟到数据可忽略不计
      如果高延时情况下仍丢迟到很多数据,就应优化源头数据采集程序


  • 相关阅读:
    深入理解JMeter中的JSON Extractor
    Java 锁(synchronized)升级过程
    C++并发编程实战 第二版 第二章
    多御安全浏览器安卓版迎来重大更新:新增分享二维码功能
    react实现路由拦截器
    多线程C++更新MYSQL
    颜色分类(数组 双指针)
    成为威胁:网络安全中的动手威胁模拟案例
    OpenCV 连通分量标记和分析
    Mysql索引的创建与设计原则
  • 原文地址:https://blog.csdn.net/Yellow_python/article/details/126035348
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号