Kafka是由LinkedIn开发的一个分布式基于发布/订阅的消息系统,使用Scala编写,它以可水平扩展和高吞吐率而被广泛使用。
自上次遭受了面试官 「Kafka」 的暴击追问后,回来发奋图强,企图“「吊打面试官」”,奈何还是面试官套路深啊,公司内部大佬给小编准备了一份大佬的Kafka内部使用指南,我看了一下,确实是很强
关于这份Kafka限量笔记,我只能在文章中展示部分的章节内容和核心截图

1.Kafka的基本概念

2.安装与配置

3.生产与消费

4.服务端参数配置

1.客户端开发
生产者拦截器

2.原理分析
元数据的更新

3.重要的生产者参数

1.消费者与****消费组

2.客户端开发
重要的消费者参数

1.主题的管理
删除主题

2.初识KafkaAdminCilent
主题合法性验证

3.分区的管理
修改副本因子

4.如何选择合适的分区数
考量因素

1.文件目录布局
2.日志格式的演变
v0版本
v1版本
消息压缩
变长字段
v2版本
3.日志索引
偏移量索引
时间戳索引
4.日志清理
日志删除
日志压缩
5.磁盘存储
页缓存
磁盘I/O流程
零拷贝

1.协议设计
2.时间轮
3.延时操作
4.控制器
5.参数解密

1.分区分配策略
2.消费者协调器和组协调器
3._consumer_offsets剖析
4.事务

1.副本剖析
2.日志同步机制
3.可靠性分析

1.命令行工具
2.Kafka Connect
3.Kafka Mirror Maker
4.Kafka Streams

1.监控数据的来源
2.消费滞后
3.同步失效分区
4.监控指标说明
5.监控模块

1.过期时间(TTL)
2.延时队列
3.死信队列和重试队列
4.消息路由
5.消息轨迹
6.消息审计
7.消息代理
8.消息中间件选型

1.Spark的安装及简单应用
2.Spark编程模型
3.Spark的运行结构
4.Spark Streaming简介
5.Kafka与Spark Streaming的整合
6.Spark SQL
[图片上传失败...(image-cab1ce-1664085096091)]
7.Structured Streaming
8.Kafka与Structured Streaming的整合

毋庸置疑,目前 Apache Kafka 是整个消息引擎领域的执牛耳者,也是大数据生态圈中颇为重量级的一员。从最早诞生于 LinkedIn 的“分布式消息系统”,到现在集成了分发、存储和计算的“流式数据平台”,Kafka 广泛应用于国内外大厂,比如 BAT、字节跳动、美团、Netflix、Airbnb、Twitter 等等。
我身边也有越来越多的工程师们,把 Kafka 加入到自己的学习列表。的确,我们仅需要学习一套框架,就能在实际业务系统中实现消息队列应用、应用程序集成、分布式存储构建,甚至是流处理应用的开发与部署,可谓相当超值了。