Flink系列-背压(反压)

了解背压

在流式处理系统中，如果出现下游消费的速度跟不上上游生产数据的速度，就种现象就叫做背压
(backpressure，也叫反压)

下游消费的速度跟不上上游生产数据的速度，可能出现的原因如下：

首先，背压不会直接导致系统的崩盘，只是处在一个不健康的运行状态。

背压会导致流处理作业数据延迟的增加。
影响到 Checkpoint，导致失败，导致状态数据保存不了，如果上游是 kafka 数据源，在一致性
的要求下，可能会导致 offset 的提交不上。
原理: 由于 Flink 的 Checkpoint 机制需要进行 Barrier 对齐，如果此时某个 Task 出现了背压，Barrier流动的速度就会变慢，导致 Checkpoint 整体时间变长，如果背压很严重，还有可能导致 Checkpoint超时失败。
影响 state 的大小，还是因为 checkpoint barrier 对齐要求。导致 state 变大。
原理：接受到较快的输入管道的 barrier 后，它后面数据会被缓存起来但不处理，直到较慢的输入管道的 barrier 也到达。这些被缓存的数据会被放到 state 里面，导致 state 变大。

Flink不需要一个特殊的机制来处理背压，因为Flink中的数据传输相当于已经提供了应对背压的机制。
所以只有从代码上与资源上去做一些调整。

背压部分原因可能是由于数据倾斜造成的，我们可以通过 Web UI 各个 SubTask 的指标值来
确认。Checkpoint detail 里不同 SubTask 的 State size 也是一个分析数据倾斜的有用指标。
解决方式把数据分组的 key 预聚合来消除数据倾斜。
代码的执行效率问题，阻塞或者性能问题。
TaskManager 的内存大小导致背压。

相关阅读:
切换nvcc 的CUDA 版本
Lock锁和AQS
开利网络携手南京同仁堂开启“链企来”大健康企业专场沙龙会
C++---继承
EvaluLLM: LLM Assisted Evaluation of Generative Outputs论文阅读
做抖音小店这几点都没搞懂，难怪你的店铺始终没有销量！
二叉树的前中后序遍历（递归与迭代）
[附源码]Python计算机毕业设计SSM篮球馆预约小程序（程序+LW)
[软件安装] tmux安装及相关事项
Java实战案例练习

原文地址：https://blog.csdn.net/qq_17310871/article/details/126668482