401. 启动检查点,用StreamExecutionEnvironment的enableCheckpointing(n),其中n是检查点间隔
402. 检查点的其他参数包括,至少一次or刚好一次,检查点超时时间,检查点之间的最短时间,并发检查点数,外部化检查点,关于检查点错误是否继续任务
403. 相关配置选项:state.backend(以及更进一步的async即是否用异步快照、fs.memory-threshold即状态数据文件的最小大小、incremental即增量检查点、local-recovery即是否本地恢复)、state.checkpoints.(dir即检查点默认目录、num-retained即已完成检查点最大数量)、state.savepoints.dir即保存点的默认目录
404. 默认情况下,状态保存在TaskManager的内存中,检查点存储在JobManager的内存中。可通过env.setStateBackend()设置状态后台
405. 目前flink迭代作业不支持状态检查点,因为可能会导致异常。但也可以强制进行,需要设置env.enableCheckpointing(…)
406. 查询状态对象时,无需任何同步或复制即可从并发线程访问该对象。可查询状态包含三个实体:QueryableStateClient、QueryableStateClientProxy、QueryableStateServer
407. 要启动可查询状态,需要如flink-queryable-state-runtime_2.11-1.7-snapshot. jar,启动后在TM下会有相关日志
408. 调用asQueryableState,就能得到QueryableStateStream;或者stateDescriptor. setQueryable(…) 也能使状态变得可查询
409. 要使用QueryableStateClient,需要加入依赖项如flink-queryable-state-client-java_2.11
410. 配置好后就能调用getKvState,参数是jobId、queryableStateName、key、keyTypeInfo、stateDescriptor,得到一个CompletableFuture
411. 注意:查询到的状态(如valueState、mapState、listState等)都是无法修改的
412. QueryableStateOptions的参数配置会影响状态服务器的行为,包括query.server.ports、query. server.network-threads、query.server.query-threads、query. proxy. ports、query. proxy. network-threads、query. proxy. query-threads
413. 状态后台有多种,如MemoryStateBackend、FsStateBackend、RocksDBStateBackend等,可通过env.setStateBackend()来设置
414. 建议避免使用匿名类作为状态序列化程序,因为它对生成的类名没有保证,在编译器之间有所不同
415. 每次执行检查点时,都会调用snapshotConfiguration方法来创建状态序列化程序配置的时间点视图;ensureCompatibility用来确保序列化程序的兼容性
416. TypeSerializerConfigSnapshot是所有序列化程序配置snapshot的基类,有getVersion、read、write方法
417. ensureCompatibility用于检查串行器是否兼容、确认序列化程序是否兼容。CompatibilityResult.compatible()表示串行器兼容,CompatibilityResult.requiresMigration()表示串行器不兼容
418. datastream算子分为多种:
DataStream->DataStream的有map、flatmap、filter
DataStream->KeyedStream的有keyBy
KeyedStream->DataStream的有reduce、fold、sum、min、max、minBy、maxBy
KeyedStream-> WindowedStream的有window
DataStream-> AllWindowedStream的有windowAll
WindowedStream-> DataStream的有apply、reduce、fold、sum、min、max、minBy、maxBy
AllWindowedStream-> DataStream的有apply
DataStream*->DataStream的有union
DataStream,DataStream ->DataStream的有join、coGroup
KeyStream,KeyedStream-> DataStream的有intervalJoin
DataStream,DataStream->ConnectedStreams的有connect
ConnectedStreams->DataStreams的有map和flatMap(需分别定义CoMapFunction和CoFlatMapFunction)
419. DataStream->SplitStream的有split;SplitStream->DataStream的有select;
DataStream->IterativeStream->DataStream的有iterate和map;另外assignTimestamps和project也属于DataStream->DataStream
420. datastream支持对转换后的精确流分区控制,包括partitionCustom