• Flink基本原理 + WebUI说明 + 常见问题分析


    Flink 概述

    Flink 是一个用于进行大规模数据处理的开源框架,它提供了一个流式的数据处理 API,支持多种编程语言和运行时环境。Flink 的核心优点包括:

    1. 低延迟:Flink 可以在毫秒级的时间内处理数据,提供了低延迟的数据处理能力。
    2. 高吞吐:吞吐量巨大。
    3. 分布式计算:Flink 支持分布式计算,它可以在大规模集群上运行,并提供了高可用和容错机制。
    4. 流式数据处理:Flink 基于流式数据处理模型,支持实时数据处理和数据增量更新。
    5. 事件驱动:Flink 的计算引擎是基于事件驱动的,它使用消息传递机制来处理数据。

    Flink 的数据处理流程

    Flink 的数据处理流程包括以下几个步骤:

    1. 数据输入:Flink 可以从各种数据源中读取数据,如 Kafka、HDFS 等。
    2. 数据转换:Flink 可以使用 DataStream API 或 SQL API 对数据进行转换和处理。
    3. 数据分区:Flink 可以根据数据的属性或规则对数据进行分区,以便在分布式集群上进行处理。
    4. 数据传输:Flink 可以使用网络传输机制将数据传输到其他节点或进程。
    5. 数据输出:Flink 可以将处理后的数据写入到各种数据存储中,如 Kafka、HDFS 等。

    Flink架构解析

    Flink 运行时由两种类型的进程组成:一个 JobManager 和一个或者多个 TaskManager。
    [图片]

    JobManager

    类似于司令官,分配工作给干活的士兵(TaskManager),听取士兵的汇报,当士兵失败时做出恢复等反应。
    JobManager 具有许多与协调 Flink 应用程序的分布式执行有关的职责:它决定何时调度下一个 task(或一组 task)、对完成的 task 或执行失败做出反应、协调 checkpoint、并且协调从失败中恢复等等。这个进程由三个不同的组件组成:

    • ResourceManager
    • ResourceManager 负责 Flink 集群中的资源提供、回收、分配 - 它管理 task slots,这是 Flink 集群中资源调度的基本单位。
    • Dispatcher
    • Dispatcher 提供了一个 REST 接口,用来提交 Flink 应用程序执行,并为每一个提交的作业启动一个新的 JobMaster。它还运行 Flink WebUI 用来提供作业执行信息。
    • JobMaster
    • 1个JobMaster 负责管理1个JobGraph的执行。Flink 集群中可以同时运行多个作业,每个作业都有自己的 JobMaster。
      始终至少有一个 JobManager。高可用(HA)设置中可能有多个 JobManager,其中一个始终是 leader,其他的则是 standby(请参考 高可用(HA))。

    TaskManager

    TaskManager(也称为 worker):执行JobManager分配过来的任务,并向JobManager汇报。taskManager之间也会交换数据
    TaskManager中会有一到多个task slot, task slot是资源调度的最小单位, task slot 的数量表示并发处理task的数量。假设1个task有N个算子,那么执行这个task的slot 就会执行N个算子(直到结束)。

    Client

    Client 不是运行时和程序执行的一部分,而是用于准备数据流并将其发送给 JobManager。

    Task和算子(Operator)

    非分布式场景

    在这里插入图片描述
    假设程序目前需要依次经过以下算子:source->map->keyBy->window->apply->Sink,如果每个算子都用1个线程执行的话,一共有多达6个线程,不仅导致线程间切换、缓冲数据会有不小的开销,还降低了吞吐量。
    为降低线程切换、缓冲的开销,Flink会把可以在同一个线程中执行的算子,链在一起,我们管他叫“算子链”。如图有3个算子链:source+map是1个算子链,keyBy+window+apply是1个算子链,sink是一个。每个算子链会由1个Task来执行。
    统计下数量:共有3个Task,会占用3个Task Slot执行。
    线程数从6缩减成3个,降低了线程间切换、缓冲数据的开销。
    把哪些算子“链”在一起,是可以配置的。

    分布式场景

    [图片]

    分布式场景下,工作会有多个taskManager共同完成工作。如图所示,当前并行度为2.
    统计下数量:共有5个Task,每个Task会被分配到1个Task Slot上执行,所以会占用5个Slot。
    所以Task Slot的数量,决定了可以并行执行多少个Task。

    Task Slots 和资源

    1个TaskManager下的task slots共享CPU资源,但内存会分开。
    1个TaskManager都是一个 JVM 进程,这导致TaskManager下的slot会共享TCP连接和心跳信息。

    Task Slot共享解决阻塞问题

    继续上面的例子,1个Task被分配到1个Slot中:
    [图片]

    这样会有1个问题:只有Source\Map拿到数据后,keyBy操作才能开始处理,这会导致keyBy所在算子有可能空闲。
    为解决这样一个问题,Flink使用了Slot共享:slot被多个Task共享,如下图:
    [图片]

    通过Slot共享,将示例中的基本并行度从 2 个增加到 6 个,让每个Slot都可以执行Source算子,这样Source所在的Slot就不会阻塞别的Slot了。这样可以充分利用Slot的资源,同时确保繁重的Task们在 TaskManager 之间公平分配。

    小总结:

    1. Flink通过将多个算子链在一起,减少了线程之间的切换开销
    2. 将任务分配到多个TaskManager上,提高了处理的速度
    3. 最后通过Slot共享,确保Slot之间不会阻塞,充分让Slot忙碌起来。

    WebUI界面+常见问题排查思路

    通过Web UI,可以看到TaskManager、Slot的数量用于速度调优,也可以查看日志用于问题排查。
    Flink的Web UI界面的地址是http://localhost:8081,其中localhost是JobManager的主机地址,8081是JobManager的Web UI端口号。在浏览器中输入这个地址,就可以访问Flink的Web UI界面了。

    集群概览:查看任务是否正常运行、资源是否需要扩容
    [图片]

    点击1个Job查看Job详情:
    在这里插入图片描述

    点击1个算子查看算子详情:查看数据倾斜、反压等性能问题
    [图片]

    TaskManager:可以查看TaskManager的日志排查问题,注意蛋疼的是问题不一定出现在哪个TaskManager上。
    [图片]

    JobManager:
    [图片]

    Flink 的容错机制

    Flink 的容错机制是通过 Checkpointing 实现的。Checkpointing 允许用户在处理流式数据时定期保存状态,以便在出现故障时恢复状态。Flink 的容错机制包括以下几个步骤:

    1. 定义 Checkpointing 策略:用户需要定义 Checkpointing 的频率和保存状态的位置。
    2. 触发 Checkpointing:在处理数据时,Flink 会根据定义的 Checkpointing 策略触发 Checkpointing。
    3. 恢复状态:在出现故障时,Flink 会根据保存的 Checkpointing 恢复状态。

    Flink 的应用场景

    Flink 可以应用于多种场景,如:

    1. 实时数据处理:Flink 可以用于实时数据处理,如实时监控、实时分析等。
    2. 数据清洗:Flink 可以用于数据清洗,如数据去重、数据清洗等。
    3. 数据分析:Flink 可以用于数据分析,如数据统计、数据挖掘等。
    4. 数据集成:Flink 可以用于数据集成,如数据同步、数据迁移等。

    Flink常见算子

    Flink 的常见算子包括:

    1. Source:从上游收集数据
    2. Sink:发送数据给下游
    3. Map:对输入数据进行转换操作,如数据清洗、数据格式化等。
    4. FlatMap:对输入数据进行扁平化操作,将一个数据项转换为多个数据项。
    5. Filter:对输入数据进行筛选操作,只保留符合条件的数据项。
    6. KeyBy:对输入数据进行分组操作,根据指定的键对数据进行分组。
    7. Reduce:对输入数据进行聚合操作,将多个数据项聚合为一个数据项。
    8. Window:对输入数据进行窗口操作,将数据按照指定的窗口大小进行分组。
    9. Union:对多个输入数据进行合并操作,将多个数据集合并为一个数据集。
    10. Split:对输入数据进行分裂操作,将一个数据集分裂为多个数据集。
    11. Join:对多个输入数据进行连接操作,将多个数据集按照指定的键进行连接。
    12. SQL:对输入数据进行 SQL 查询操作,使用 SQL 语句对数据进行查询和分析。
      这些算子可以组合使用,以实现更复杂的数据处理逻辑。

    总结

    Flink 是一个用于进行大规模数据处理的开源框架,它提供了一个流式的数据处理 API,支持多种编程语言和运行时环境。Flink 的核心特点包括流式数据处理、事件驱动、分布式计算、低延迟等。Flink 的核心组件包括 DataStream API、SQL API、Stateful Stream Processing、Checkpointing 等。Flink 的数据处理流程包括数据输入、数据转换、数据分区、数据传输、数据输出等。Flink 的状态管理是通过 Stateful Stream Processing 实现的,它允许用户在处理流式数据时维护状态。Flink 的容错机制是通过 Checkpointing 实现的,它允许用户在处理流式数据时定期保存状态,以便在出现故障时恢复状态。Flink 可以应用于多种场景,如实时数据处理、数据清洗、数据分析、数据集成等。

  • 相关阅读:
    WPF 窗口白屏问题分析与初步解决
    短视频矩阵系统源码/技术应用搭建
    树状数组。 数组修改某个元素的数值/求出前n个元素的和,需要在一百毫秒处理上百万个数字
    【云原生 | 23】Docker运行Web服务实战之Tomcat
    【libGDX】ApplicationAdapter生命周期
    Linux 内存管理
    ElementUI嵌套页面及关联增删查改实现
    程序员,在北上广深杭赚够100万,就逃回二三四线城市生活,靠谱吗?
    设计模式 - 解释器模式
    【软考---系统架构设计师】软件架构
  • 原文地址:https://blog.csdn.net/qijingpei/article/details/136416450