• Flink——实时计算引擎


    Flink介绍

    框架和分布式流处理引擎,应用于持续生成新数据的场景,如:电商促销时的实时交易总额榜,TOP5最受欢迎的产品等等,简单描述如下:

    数据实时采集——>数据实时计算——>数据实时下发(告警:邮件、短信、微信等,存储:消息队列、DB、文件系统等)

    告警:如果超过相关阈值界限后会通过邮件、短信、微信等通知运维及时做好应对措施,减少故障损失

    存储:数据存储后,监控大盘从存储中查询对应指标的数据就可以实现诸如爆款商品、店铺成交额、机器CPU、Mem等。

    实时计算场景
    • 交通信号灯
    • 公安视频监控
    • 服务器运行状态
    • 金融证券公司实时跟踪股市波动,计算风险价值
    • 数据实时ETL【数据抽取(Extract)、清洗(Cleaning)、转换(Transform)、装载(Load)的过程】
    • 动态数据监控

    总结为以下四大类:

    • 实时数据存储:实时数据存储的时候做一些微聚合、过滤某些字段、数据脱敏,组建数据仓库,实时 ETL。
    • 实时数据分析:实时数据接入机器学习框架(TensorFlow)或者一些算法进行数据建模、分析,然后动态的给出商品推荐、广告推荐
    • 实时监控告警:金融相关涉及交易、实时风控、车流量预警、服务器监控告警、应用日志告警
    • 实时数据报表:活动营销时销售额/销售量大屏,TopN 商品

    传统离线计算 VS 实时计算

    离线计算特点:

    • 数据量大且时间周期长(一天、一星期、一个月、半年、一年)
    • 在大量数据上进行复杂的批量计算操作
    • 数据在计算之前已经固定,不再会发生变化
    • 能够方便的查询批量计算的结果

    实时计算特点:实时计算需要不断的从 MQ 中读取采集的数据,然后处理计算后往 DB 里存储,在计算这层你无法感知到会有多少数据量过来、要做一些简单的操作(过滤、聚合等)、及时将数据下发

    • 数据实时到达
    • 数据到达次序独立,不受应用系统所控制
    • 数据规模大且无法预知容量
    • 原始数据一经处理,除非特意保存,否则不能被再次取出处理,或者再次提取数据代价昂贵

    实时计算的优势:面对源源不断生成的新数据,在流数据中进行数据多维度关联、聚合、筛选,从而找到复杂事件中的根因,然后根据算法处理后的数据结果提取出有效的信息,给出不一样的推荐内容,让不同的人看到不同的网页(千人千面)

    Flink特点

    • 批流一体:统一批处理、流处理

    • 分布式:Flink程序可以运行在多台机器上

    • 高性能:处理性能比较高

    • 高可用:Flink支持高可用性(HA)

    • 准确:Flink可以保证数据处理的准确性(Exactly-once)

  • 相关阅读:
    系统架构图
    Kubernetes(K8S) kubesphere 介绍
    zookeeper可视化界面zkui
    DenseNet网络理解
    无头单向非循环链表(详解)
    计算机的“记忆”是怎么做到的?
    精选版:用Java扩展Nginx(nginx-clojure 入门)
    Day58 Linux shell编程 shell语法 脚本语言
    Android GUI系统之SurfaceFlinger(16)MessageBase解读
    百度松果菁英班——机器学习实践一:海量文件遍历
  • 原文地址:https://blog.csdn.net/weixin_44740940/article/details/126182375