框架和分布式流处理引擎,应用于持续生成新数据的场景,如:电商促销时的实时交易总额榜,TOP5最受欢迎的产品等等,简单描述如下:
数据实时采集——>数据实时计算——>数据实时下发(告警:邮件、短信、微信等,存储:消息队列、DB、文件系统等)
告警:如果超过相关阈值界限后会通过邮件、短信、微信等通知运维及时做好应对措施,减少故障损失
存储:数据存储后,监控大盘从存储中查询对应指标的数据就可以实现诸如爆款商品、店铺成交额、机器CPU、Mem等。
总结为以下四大类:
传统离线计算 VS 实时计算
离线计算特点:
实时计算特点:实时计算需要不断的从 MQ 中读取采集的数据,然后处理计算后往 DB 里存储,在计算这层你无法感知到会有多少数据量过来、要做一些简单的操作(过滤、聚合等)、及时将数据下发
实时计算的优势:面对源源不断生成的新数据,在流数据中进行数据多维度关联、聚合、筛选,从而找到复杂事件中的根因,然后根据算法处理后的数据结果提取出有效的信息,给出不一样的推荐内容,让不同的人看到不同的网页(千人千面)
批流一体:统一批处理、流处理
分布式:Flink程序可以运行在多台机器上
高性能:处理性能比较高
高可用:Flink支持高可用性(HA)
准确:Flink可以保证数据处理的准确性(Exactly-once)