• flink理论干货笔记(5)


    401. 启动检查点,用StreamExecutionEnvironment的enableCheckpointing(n),其中n是检查点间隔

    402. 检查点的其他参数包括,至少一次or刚好一次,检查点超时时间,检查点之间的最短时间,并发检查点数,外部化检查点,关于检查点错误是否继续任务

    403. 相关配置选项:state.backend(以及更进一步的async即是否用异步快照、fs.memory-threshold即状态数据文件的最小大小、incremental即增量检查点、local-recovery即是否本地恢复)、state.checkpoints.(dir即检查点默认目录、num-retained即已完成检查点最大数量)、state.savepoints.dir即保存点的默认目录

    404. 默认情况下,状态保存在TaskManager的内存中,检查点存储在JobManager的内存中。可通过env.setStateBackend()设置状态后台

    405. 目前flink迭代作业不支持状态检查点,因为可能会导致异常。但也可以强制进行,需要设置env.enableCheckpointing(…)

    406. 查询状态对象时,无需任何同步或复制即可从并发线程访问该对象。可查询状态包含三个实体:QueryableStateClient、QueryableStateClientProxy、QueryableStateServer

    407. 要启动可查询状态,需要如flink-queryable-state-runtime_2.11-1.7-snapshot. jar,启动后在TM下会有相关日志

    408. 调用asQueryableState,就能得到QueryableStateStream;或者stateDescriptor. setQueryable(…) 也能使状态变得可查询

    409. 要使用QueryableStateClient,需要加入依赖项如flink-queryable-state-client-java_2.11

    410. 配置好后就能调用getKvState,参数是jobId、queryableStateName、key、keyTypeInfo、stateDescriptor,得到一个CompletableFuture 

    411. 注意:查询到的状态(如valueState、mapState、listState等)都是无法修改的

    412. QueryableStateOptions的参数配置会影响状态服务器的行为,包括query.server.ports、query. server.network-threads、query.server.query-threads、query. proxy. ports、query. proxy. network-threads、query. proxy. query-threads

    413. 状态后台有多种,如MemoryStateBackend、FsStateBackend、RocksDBStateBackend等,可通过env.setStateBackend()来设置 

    414. 建议避免使用匿名类作为状态序列化程序,因为它对生成的类名没有保证,在编译器之间有所不同

    415. 每次执行检查点时,都会调用snapshotConfiguration方法来创建状态序列化程序配置的时间点视图;ensureCompatibility用来确保序列化程序的兼容性 

    416. TypeSerializerConfigSnapshot是所有序列化程序配置snapshot的基类,有getVersion、read、write方法

    417. ensureCompatibility用于检查串行器是否兼容、确认序列化程序是否兼容。CompatibilityResult.compatible()表示串行器兼容,CompatibilityResult.requiresMigration()表示串行器不兼容

    418. datastream算子分为多种:
    DataStream->DataStream的有map、flatmap、filter
    DataStream->KeyedStream的有keyBy
    KeyedStream->DataStream的有reduce、fold、sum、min、max、minBy、maxBy
    KeyedStream-> WindowedStream的有window
    DataStream-> AllWindowedStream的有windowAll
    WindowedStream-> DataStream的有apply、reduce、fold、sum、min、max、minBy、maxBy
    AllWindowedStream-> DataStream的有apply
    DataStream*->DataStream的有union
    DataStream,DataStream ->DataStream的有join、coGroup
    KeyStream,KeyedStream-> DataStream的有intervalJoin
    DataStream,DataStream->ConnectedStreams的有connect
    ConnectedStreams->DataStreams的有map和flatMap(需分别定义CoMapFunction和CoFlatMapFunction)

    419. DataStream->SplitStream的有split;SplitStream->DataStream的有select;
    DataStream->IterativeStream->DataStream的有iterate和map;另外assignTimestamps和project也属于DataStream->DataStream

    420. datastream支持对转换后的精确流分区控制,包括partitionCustom

  • 相关阅读:
    框架学习1:Spring常见问题
    nodejs--开发自己的项目——1--路由模块、路由处理函数模块、服务器的创建
    VMware vCenter Server 6.7安装过程记录
    Redis 持久化
    实时操作系统Freertos开坑学习笔记:(八):信号量、事件标志组、任务通知机制
    一招解密网络流量瓶颈!
    【SpringBoot整合NoSql】-----ElasticSearch的安装与操作篇
    Python飞机大战项目终篇(一步一步实现---最全笔记)
    Nacos学习笔记
    HarmoneyOS星河版 安装和启动
  • 原文地址:https://blog.csdn.net/fearlesslpp/article/details/126489967