• 个人项目中用到的Flume 各组件,以及Put 事务和Take 事务介绍


    1. taildir source

    1. 断点续传、多目录
    2. 哪个版本产生的?Apache1.7、CDH1.6
    3. 在没有断点续传功能时怎么做的?自定义source
    4. taildir挂了怎么办?不会丢数:断点续传。Taildir Source 维护了一个 json 格式的 position File,其会定期的往 position File
      中更新每个文件读取到的最新的位置,因此能够实现断点续传。;重复数据:可能发生,但概率很小。
    5. 怎么处理重复?生产环境通常不处理,因为出现概率较低,处理会影响效率。处理的话:在taildir source里面自定义事务,影响效率。通过下一级处理(hive dwd、spark streaming等)、去重手段(groupby、 开窗取窗口第一条、redis)
    6. taildir source是否支持递归遍历文件夹读取文件?不支持。但可以通过自定义 遍历文件夹 + 读取文件。

    2. file channel/memory channel/kafka channel

    1. File Channel
      • 数据存储在磁盘,可靠性高,但传输速度低
      • 默认容量100W个event
      • File Channel可以通过配置dataDirs指向多个路径,每个路径对应不同的硬盘,增大Flume吞吐量。
    2. Memory Channel
      • 数据存储于内存中,可靠性差,但传输效率高
      • 默认容量100个event
    3. Kafka Channel
      • 数据存于Kafka,基于磁盘,可靠性高。传输速度快 Kafka Channel 大于 Memory Channel + Kafka Sink 原因 省去了Sink阶段。
    4. Kafka Channel那个版本产生的?
      • Flume1.6版本产生,但是由于有bug没有火,Kafka的topic中每一行的前面都会出现奇怪的字符。Flume1.7解决了这个bug,开始火起来了
    5. 生产环境如何选择?
      • 如果下一级是Kafka,优先选择Kafka Channel
      • 如果是金融等对数据要求准确的公司,选择File Channel
      • 如果就是普通的日志,通常可以选择Memory Channel

    事务

    Source到Channel是Put事务
    Channel到Sink是Take事务
    在这里插入图片描述

  • 相关阅读:
    LeetCode-112. Path Sum [C++][Java]
    Flask入门学习教程
    31 数据分析(中)numpy介绍
    C# 反射(一)基础概念
    【MindSpore Profiler】【性能调优】GPU分布式训练卡死
    矩阵求导详解
    python自动化测试selenium(三)下拉选择框、警告框处理、页面截图
    Hadoop核心组件及组件介绍
    元宇宙在南昌起义英雄城吹响了“集结号” | 倪健中共同主席出席江西元宇宙产业发展论坛并发表致辞
    Vue3使用Vite创建项目
  • 原文地址:https://blog.csdn.net/Laoddaaa/article/details/126287635