• flink理论干货笔记(5)


    401. 启动检查点,用StreamExecutionEnvironment的enableCheckpointing(n),其中n是检查点间隔

    402. 检查点的其他参数包括,至少一次or刚好一次,检查点超时时间,检查点之间的最短时间,并发检查点数,外部化检查点,关于检查点错误是否继续任务

    403. 相关配置选项:state.backend(以及更进一步的async即是否用异步快照、fs.memory-threshold即状态数据文件的最小大小、incremental即增量检查点、local-recovery即是否本地恢复)、state.checkpoints.(dir即检查点默认目录、num-retained即已完成检查点最大数量)、state.savepoints.dir即保存点的默认目录

    404. 默认情况下,状态保存在TaskManager的内存中,检查点存储在JobManager的内存中。可通过env.setStateBackend()设置状态后台

    405. 目前flink迭代作业不支持状态检查点,因为可能会导致异常。但也可以强制进行,需要设置env.enableCheckpointing(…)

    406. 查询状态对象时,无需任何同步或复制即可从并发线程访问该对象。可查询状态包含三个实体:QueryableStateClient、QueryableStateClientProxy、QueryableStateServer

    407. 要启动可查询状态,需要如flink-queryable-state-runtime_2.11-1.7-snapshot. jar,启动后在TM下会有相关日志

    408. 调用asQueryableState,就能得到QueryableStateStream;或者stateDescriptor. setQueryable(…) 也能使状态变得可查询

    409. 要使用QueryableStateClient,需要加入依赖项如flink-queryable-state-client-java_2.11

    410. 配置好后就能调用getKvState,参数是jobId、queryableStateName、key、keyTypeInfo、stateDescriptor,得到一个CompletableFuture 

    411. 注意:查询到的状态(如valueState、mapState、listState等)都是无法修改的

    412. QueryableStateOptions的参数配置会影响状态服务器的行为,包括query.server.ports、query. server.network-threads、query.server.query-threads、query. proxy. ports、query. proxy. network-threads、query. proxy. query-threads

    413. 状态后台有多种,如MemoryStateBackend、FsStateBackend、RocksDBStateBackend等,可通过env.setStateBackend()来设置 

    414. 建议避免使用匿名类作为状态序列化程序,因为它对生成的类名没有保证,在编译器之间有所不同

    415. 每次执行检查点时,都会调用snapshotConfiguration方法来创建状态序列化程序配置的时间点视图;ensureCompatibility用来确保序列化程序的兼容性 

    416. TypeSerializerConfigSnapshot是所有序列化程序配置snapshot的基类,有getVersion、read、write方法

    417. ensureCompatibility用于检查串行器是否兼容、确认序列化程序是否兼容。CompatibilityResult.compatible()表示串行器兼容,CompatibilityResult.requiresMigration()表示串行器不兼容

    418. datastream算子分为多种:
    DataStream->DataStream的有map、flatmap、filter
    DataStream->KeyedStream的有keyBy
    KeyedStream->DataStream的有reduce、fold、sum、min、max、minBy、maxBy
    KeyedStream-> WindowedStream的有window
    DataStream-> AllWindowedStream的有windowAll
    WindowedStream-> DataStream的有apply、reduce、fold、sum、min、max、minBy、maxBy
    AllWindowedStream-> DataStream的有apply
    DataStream*->DataStream的有union
    DataStream,DataStream ->DataStream的有join、coGroup
    KeyStream,KeyedStream-> DataStream的有intervalJoin
    DataStream,DataStream->ConnectedStreams的有connect
    ConnectedStreams->DataStreams的有map和flatMap(需分别定义CoMapFunction和CoFlatMapFunction)

    419. DataStream->SplitStream的有split;SplitStream->DataStream的有select;
    DataStream->IterativeStream->DataStream的有iterate和map;另外assignTimestamps和project也属于DataStream->DataStream

    420. datastream支持对转换后的精确流分区控制,包括partitionCustom

  • 相关阅读:
    【系统分析师之路】第五章 复盘软件工程(敏捷开发)
    米软科技客户单病种上报量云南省第一
    冯喜运:6.5黄金原油今日行情趋势分析及操作策略
    矩阵分析与应用+张贤达
    链接Token参数可逆
    初识Java篇
    HTX 与 Zebec Protocol 展开深度合作,并将以质押者的身份参与 ZBC Staking
    数据向好,分析师预测美联储GDP或将翻一番?
    CH341/CH340Linux驱动使用教程
    解决vscode下powershell运行activate.ps1时,提示系统禁止运行脚本问题
  • 原文地址:https://blog.csdn.net/fearlesslpp/article/details/126489967