Kafka传统定义:Kafka是一个分布式的基于发布/订阅模式的消息队列(Message
Queue),主要应用于大数据实时处理领域。
Kafka最新定义:Kafka是一个开源的分布式事件流平台(Event Streaming
Platform),被数千家公司用于高性能数据管道、流分析、数据集成和关键任务应用。
发布/ 订阅:订阅:消息的发布者不会将消息直接发送给特定的订阅者,而是将发布的消息分为不同的类别,订阅者只接收感兴趣的消息
传统消息队列的应用场景
消息队列的两种模式
1.点对点模式
消费者主动拉取数据,消息收到后清除消息
2.发布/订阅模式
每个消费者相互独立,都可以消费到数据
Kafka 的基础架构
Kafka 基础架构图
高吞吐量、低延迟:kafka每秒可以处理几十万条消息,它的延迟最低只有几毫秒;
可扩展性:kafka集群支持热扩展;
持久性、可靠性:消息被持久化到本地磁盘,并且支持数据备份防止丢失;
容错性:允许集群中的节点失败(若分区副本数量为n,则允许n-1个节点失败);
高并发:单机可支持数千个客户端同时读写;
kafka的应用场景:
日志收集:一个公司可以用Kafka收集各种服务的log,通过kafka以统一接口开放给各种消费端,例如hadoop、Hbase、Solr等。
消息系统:解耦生产者和消费者、缓存消息等。
用户活动跟踪:Kafka经常被用来记录web用户或者app用户的各种活动,如浏览网页、搜索记录、点击等活动,这些活动信息被各个服务器发布到kafka的topic中,然后订阅者通过订阅这些topic来做实时的监控分析,或者装载到hadoop、数据仓库中做离线分析和挖掘。
运营指标:Kafka也经常用来记录运营监控数据。