个人项目中用到的Flume 各组件，以及Put 事务和Take 事务介绍

个人项目中用到的Flume 各组件，以及Put 事务和Take 事务介绍
1. taildir source
1. 断点续传、多目录
2. 哪个版本产生的？Apache1.7、CDH1.6
3. 在没有断点续传功能时怎么做的？自定义source
4. taildir挂了怎么办？不会丢数：断点续传。Taildir Source 维护了一个 json 格式的 position File，其会定期的往 position File
  中更新每个文件读取到的最新的位置，因此能够实现断点续传。；重复数据：可能发生，但概率很小。
5. 怎么处理重复？生产环境通常不处理，因为出现概率较低，处理会影响效率。处理的话：在taildir source里面自定义事务，影响效率。通过下一级处理（hive dwd、spark streaming等）、去重手段（groupby、开窗取窗口第一条、redis）
6. taildir source是否支持递归遍历文件夹读取文件？不支持。但可以通过自定义遍历文件夹 + 读取文件。
2. file channel/memory channel/kafka channel
1. File Channel
  - 数据存储在磁盘，可靠性高，但传输速度低
  - 默认容量100W个event
  - File Channel可以通过配置dataDirs指向多个路径，每个路径对应不同的硬盘，增大Flume吞吐量。
2. Memory Channel
  - 数据存储于内存中，可靠性差，但传输效率高
  - 默认容量100个event
3. Kafka Channel
  - 数据存于Kafka，基于磁盘，可靠性高。传输速度快 Kafka Channel 大于 Memory Channel + Kafka Sink 原因省去了Sink阶段。
4. Kafka Channel那个版本产生的？
  - Flume1.6版本产生，但是由于有bug没有火，Kafka的topic中每一行的前面都会出现奇怪的字符。Flume1.7解决了这个bug，开始火起来了
5. 生产环境如何选择？
  - 如果下一级是Kafka，优先选择Kafka Channel
  - 如果是金融等对数据要求准确的公司，选择File Channel
  - 如果就是普通的日志，通常可以选择Memory Channel
事务

Source到Channel是Put事务
Channel到Sink是Take事务
相关阅读:
LeetCode-112. Path Sum [C++][Java]
Flask入门学习教程
 31 数据分析（中）numpy介绍
 C# 反射（一）基础概念
 【MindSpore Profiler】【性能调优】GPU分布式训练卡死
 矩阵求导详解
 python自动化测试selenium（三）下拉选择框、警告框处理、页面截图
 Hadoop核心组件及组件介绍
 元宇宙在南昌起义英雄城吹响了“集结号” | 倪健中共同主席出席江西元宇宙产业发展论坛并发表致辞
 Vue3使用Vite创建项目
原文地址：https://blog.csdn.net/Laoddaaa/article/details/126287635

1. taildir source

2. file channel/memory channel/kafka channel

事务