• Kafka 搭建过程


    本文主要介绍Kafka基本原理,以及搭建过程。

    1.关于Kafka

    Apache Kafka是一个开源的分布式事件流平台,被设计用来实现实时数据流的发布、订阅、存储和处理。
    Kafka的主要特性包括:

    1. 高吞吐量:Kafka可以处理高速流动的数据,并保证数据的写入和读取的高速性。
    2. 分布式:Kafka集群由多个服务器(Broker)组成,数据会被分布存储。
    3. 持久性:Kafka可以将数据持久化到磁盘,因此可以用于长期存储数据。
    4. 容错性:Kafka可以容忍服务器(Broker)的故障,保证数据的可靠性。
    5. 实时性:Kafka可以实时处理流数据。

    Kafka可以应用于多种场景,主要包括:

    1. 消息队列:Kafka可以作为一个大规模的消息队列服务,处理生产者和消费者之间的消息传递。
    2. 日志收集:Kafka可以用于收集不同来源的日志数据,并将这些数据集中存储在一个地方,方便后续的日志分析。
    3. 用户活动跟踪:Kafka可以用于跟踪用户的在线活动,如页面浏览、搜索、点击等事件。
    4. 实时流处理:配合流处理框架(如Apache Flink、Apache Storm、Apache Samza等),Kafka可以用于实时处理和分析数据流。
    5. 事件源:Kafka可以作为事件驱动型微服务的事件源,存储事件的历史记录。
    6. 指标和日志聚合:Kafka可以用于收集各种指标(如系统监控指标、业务指标等)和日志,然后将这些数据聚合后发送到后端的存储系统。
    7. 集成和解耦:在微服务架构中,Kafka可以用于解耦服务之间的依赖,每个服务只与Kafka进行交互,从而实现服务的解耦。

    以上只是Kafka的部分应用场景,实际上,Kafka的应用非常广泛,可以应用于任何需要处理实时数据流的场景。

    Kafka如此强大,背后的工作原理主要涉及到以下几个方面:

    1. 发布-订阅模型:Kafka基于发布-订阅模型,生产者(Producer)将消息发布到特定的主题(Topic)上,消费者(Consumer)订阅主题并消费其中的消息。
    2. 分布式消息系统:Kafka集群由多个Broker组成,每个Broker是一个独立的服务器。主题(Topic)中的消息被分成多个分区(Partition),每个分区的消息可以存储在不同的Broker上,实现了数据的分布式存储。
    3. 消息持久化:Kafka将所有的消息持久化到硬盘上,即使系统发生故障,消息也不会丢失。消费者在消费消息时,只是改变了一个指向消息的偏移量(Offset),而不会删除消息。
    4. 高吞吐量:Kafka通过批量发送消息、零拷贝等技术提高了系统的吞吐量,可以处理大量的实时数据。
    5. 容错性:Kafka的每个分区都可以有多个副本(Replica),副本之间可以互相备份数据,提高了系统的容错性。如果某个Broker发生故障,Kafka可以自动从其他副本中恢复数据。
    6. 消费者组:Kafka的消费者可以组成消费者组(Consumer Group),组内的每个消费者负责消费不同的分区,实现了负载均衡。如果某个消费者发生故障,Kafka可以自动将其分区分配给其他消费者。

    以上是Kafka的主要工作原理,具体的实现可能会根据Kafka的版本和配置进行调整。详细的原理和实现可以参考Kafka的官方文档。

    另外,简单介绍下 Topic、Partition、Replica之间的关系。

    在Kafka中,Topic和Partition是数据组织的基本单位。Topic负责对消息进行分类,Partition则是实现数据存储和读写的基本单位。

    1. Topic:Topic是消息的类别或者说是消息的主题,生产者将消息发布到特定的Topic,消费者从特定的Topic中订阅消息。每个Topic包含一或多个Partition。
    2. Partition:Partition是Topic的分区,每个Topic可以分为一个或多个Partition。Partition是Kafka实现高吞吐量和数据冗余的关键,每个Partition可以在不同的Broker上,数据被写入不同的Partition可以并行进行。在Kafka中,每条消息在每个Partition中都有一个唯一的偏移量(Offset),消费者通过Offset来定位消息。每个Partition在设计上是不可分割的,即消费者在消费一个Partition的数据时,必须按照Offset的顺序进行。
    3. 副本(Replica)是Partition的备份,用于实现数据的冗余存储,提高数据的可靠性。每个Partition可以有一个或多个副本,这些副本分布在不同的Broker上。其中,有一个副本被指定为Leader,其他的副本称为Follower。所有的读写操作都由Leader处理,Follower只负责从Leader同步数据。当Leader宕机时,Kafka会从Follower中选举出一个新的Leader,这个过程称为Leader Election。这样,即使某个Broker宕机,只要有副本存在,数据就不会丢失,读写操作也可以继续进行。副本的数量可以在创建Topic时指定,通过--replication-factor参数设置。副本数量的设置需要根据数据的重要性和集群的容量来决定,副本数量越多,数据的可靠性越高,但是会占用更多的存储空间和网络带宽。

    可能大家还有一个疑问,Kafka 是如何实现高吞吐的?

    Kafka能够实现高吞吐的原理主要基于以下几个方面:

    1. 分布式架构:Kafka集群由多个Broker组成,每个Topic可以分为多个Partition,每个Partition可以在不同的Broker上,这样可以并行处理多个Partition的读写请求,提高了吞吐量。
    2. 磁盘顺序写:Kafka将所有的消息持久化到硬盘,而且是顺序写入的。顺序写磁盘的速度远高于随机写,因此Kafka的写入性能非常高。
    3. 零拷贝:Kafka在发送消息时使用了零拷贝技术,避免了数据在用户态和内核态之间的多次拷贝,减少了CPU的使用,提高了吞吐量。
    4. 批处理:Kafka的Producer会将多个消息打包成一个Batch发送,Consumer也会一次性从Broker读取多个消息,这样可以减少网络请求的次数,提高了吞吐量。
    5. 消息压缩:Kafka支持消息的压缩,可以减少网络传输的数据量,提高吞吐量。

    以上是Kafka实现高吞吐的主要原理,具体的实现可能会根据Kafka的版本和配置进行调整。详细的原理和实现可以参考Kafka的官方文档。

    2.Kafka 搭建过程

    搭建Kafka集群的基本步骤如下:
    (1)环境准备

    Kafka运行需要Java环境,所以首先需要在服务器上安装Java。

    (2)下载并解压Kafka

    从Kafka官网下载Kafka的tar包,然后解压。

    tar -xzf kafka_2.x.tgz
    cd kafka_2.x
    
    • 1
    • 2

    (3) 配置Kafka

    修改Kafka的配置文件(位于config/server.properties),主要需要配置的参数包括Broker的ID(broker.id)、监听的地址和端口(listeners)、Zookeeper的地址(zookeeper.connect)等。

    (4) 启动Zookeeper
    如果没有单独的Zookeeper集群,可以使用Kafka自带的Zookeeper。
    bin/zookeeper-server-start.sh config/zookeeper.properties

    (5) 启动Kafka
    启动Kafka Broker。
    bin/kafka-server-start.sh config/server.properties

    (6) 创建Topic
    创建一个Kafka Topic:
    bin/kafka-topics.sh --create --topic test --bootstrap-server localhost:9092 --partitions 1 --replication-factor 1

    (7) 测试Kafka
    可以通过Kafka自带的生产者和消费者进行测试。

    #在一个终端中启动生产者
    bin/kafka-console-producer.sh --topic test --bootstrap-server localhost:9092
    
    • 1
    • 2
    # 在另一个终端中启动消费者
    bin/kafka-console-consumer.sh --topic test --from-beginning --bootstrap-server localhost:9092
    
    • 1
    • 2

    以上是搭建单节点Kafka集群的基本步骤,搭建多节点集群的步骤类似,只是需要在多台服务器上重复以上步骤,并且需要为每个Broker配置一个唯一的ID,以及正确的监听地址和Zookeeper地址。

    3.参考

    Apache Kafka文档

    包含了Kafka的详细介绍、快速入门指南、配置说明、API文档等内容,是学习和使用Kafka的重要参考资料。

  • 相关阅读:
    SAP实现文本框多行输入(类cl_gui_textedit)
    mybatisPlus笔记
    计算机的发展史以及未来 App和Cloud这10年发展很快,被忽略的硬性的螺旋上升 QCon 大会2022
    工业制造厂房vr虚拟实景展示,真实立体呈现到客户面前
    魔兽世界地图插件制作代码
    初识 kubernetes
    react ant design Upload 多文件上传 beforeUpload 会调用很多次,怎么只获取一次
    map和set的应用
    Socks5与HTTP的区别与应用场景
    HTML网页设计【足球科普】学生DW静态网页设计
  • 原文地址:https://blog.csdn.net/lanyang123456/article/details/133588915