Flink 状态管理

一、状态

流式计算分为无状态和有状态两种情况。无状态的计算观察每个独立事件，并且根据最后一个事件输出结果。例如，流处理应用程序从传感器接收温度读数，并在温度超过90度时发出告警。有状态的计算则会基于多个事件输出结果。例如，计算过去一小时的平均温度。以及在一分钟之内收到两个相差20度以上的温度读数，则发出告警。
在这里插入图片描述
上图中输入数据由黑条表示。无状态流处理每次只转换一条输入记录，并且仅根据最新的输入记录输出结果（白条）。有状态流处理维护所有已处理记录的状态值，并根据每条新输入的记录更新状态，因此输出记录（灰条）反映的是综合考虑多个事件之后的结果

在这里插入图片描述

状态由一个任务维护，并且用来计算某个结果的所有数据，都属于这个任务的状态；
可以认为状态就是一个本地变量，可以被任务的业务逻辑访问；
Flink 会进行状态管理，包括状态一致性、故障处理以及高校存储和访问，以便开发人员可以专注于应用程序的逻辑；

二、状态的类型

2.1 算子状态

在这里插入图片描述

算子状态的作用范围限定为算子任务，由同一并行任务所处理的所有数据都可以访问到相同的状态；
状态对于同意子任务而言是共享的；
算子状态不能由相同或不同算子的另一个子任务访问；

列表状态（List state）

将状态表示为一组数据的列表

联合列表状态（Union list state）

也将状态表示为数据的列表。它与常规列表状态的区别在于发生故障时，从保存点启动应用程序时如何恢复

广播状态（Broadcast state）

如果一个算子有多项任务，而它的每项任务状态又相同，那么这种特殊情况最适合应用广播状态。

2.2 键控状态

在这里插入图片描述

键控状态是根据输入数据流中定义的键（key）来维护和访问的；
Flink 为每一个 key 维护一个状态实例，并将具有相同键的所有数据都分区到同一个算子任务中，这个任务会维护和处理这个 key 对应的状态；
当任务处理一条数据时，它会自动将状态的访问范围限定为当前数据的key；

值状态（Value state）

将状态表示为单个的值

列表状态（List state）

将状态表示为一组数据的列表

映射状态（Map state）

将状态表示为一组 Key-Value 对

聚合状态（Reducing state & Aggregating state）

将状态表示为一个用于聚合操作的列表

状态后端

状态的存储、访问以及维护，由一个可插入的组件决定，这个组件就叫做状态后端（state backend），状态后端主要负责两件事：本地的状态管理，以及将检查点（checking）状态写入远程存储。

状态后端分类

MemoryStateBackend

内存级的状态后端，会将键控状态作为内存中的对象进行管理，将它们存储在 TaskManager 的 JVM 堆上，而将 checkpoint 存储在 JobManager 的内存中；
特点：快速、低延迟、但不稳定；

FsStateBackend

将 checkpoint 存到远程的持久化文件系统上，而对于本地状态，则跟 MemoryStateBackend 一样，也会存在 TaskManager 的 JVM 堆上；
同时用于内存级的本地访问速度和更好的容错保证；

RocksDBStateBackend

将所有状态序列化后，存入本地的 RocksDB 中存储；

相关阅读:
如何进行数据库的迁移与同步——【DBA 从入门到实践】第四期
CentOS安装Docker-ce并配置国内镜像
并查集 rank 的优化
cy.visit 执行逻辑的单步调试
5.系统设计的工作内容与技能工具有哪些？
【行为型模式】模板方法模式
极致性能优化：前端SSR渲染利器Qwik.js
使用VuePress快速搭建博客
云计算与大数据第三章云存储练习题及答案
天翼云全场景业务无缝替换至国产原生操作系统CTyunOS！

原文地址：https://blog.csdn.net/xfp1007907124/article/details/139953976