kafka log的清理策略有两种:delete,compact,默认是delete
这个对应了kafka中每个topic对于record的管理模式
delete:一般是使用按照时间保留的策略,当不活跃的segment的时间戳是大于设置的时间的时候,当前segment就会被删除
compact: 日志不会被删除,会被去重清理,这种模式要求每个record都必须有key,然后kafka会按照一定的时机清理segment中的key,对于同一个key只保留罪行的那个key.同样的,compact也只针对不活跃的segment
配置为
cleanup.policy: delete
cleanup.policy: compact
在学习日志清理策略之前,首先了解一下kafka是如何存储和管理日志的,因为他的管理都是基于segment的,所以有必要先了解清楚这个
segement的产生策略。
kafka的日志存储和消费,对外的最小粒度是partion,也就是producer和consumer最小的选择粒度是某个topic的某些partition。
每个partition又多个segment组成,这些segment一般是按照时间顺序产生的。
在单个partition中只有一个处于active的segment,这个segment是正在写入的segment(假设为segmentA),当segmentA的大小达到一定的程度(或者是经过了一定的时长),就会产生一个新的segmentB,这个时候segmentA就不再有数据写入了,变成了不活跃的segment,而segmentB就是当前Active的segment.
日志清理的策略总是针对不活跃的segment进行的。
属性名 | 含义 | 默认值 |
---|---|---|
log.roll.{hours,ms} | 日志滚动的周期时间,到达指定周期时间时,强制生成一个新的segment | 168(7day) |
log.segment.bytes | 每个segment的最大容量。到达指定容量时,将强制生成一个新的segment | 1G(-1为不限制) |
log.retention.check.interval.ms | 日志片段文件检查的周期时间 | 60000 |
Kafka的日志实际上是开始是在缓存中的,然后根据策略定期一批一批写入到日志文件中去,以提高吞吐率。
属性名 | 含义 | 默认值 |
---|---|---|
log.flush.interval.messages | 消息达到多少条时将数据写入到日志文件 | 10000 |
log.flush.interval.ms | 当达到该时间时,强制执行一次flush | null |
log.flush.scheduler.interval.ms | 周期性检查,是否需要将信息flush | 很大的值 |
属性名 | 含义 | 默认值 |
---|---|---|
log.cleanup.polict | 日志清理保存的策略只有delete和compact两种 | delete |
log.retention.hours | 日志保存的时间,可以选择hours,minutes和ms | 168(7day) |
log.retention.bytes | 删除前日志文件允许保存的最大值 | -1 |
log.segment.delete.delay.ms | 日志文件被真正删除前的保留时间 | 60000 |
log.cleanup.interval.mins | 每隔一段时间多久调用一次清理的步骤 | 10 |
log.retention.check.interval.ms | 周期性检查是否有日志符合删除的条件(新版本使用) | 300000 |
日志删除,只是无法被索引到了而已。文件本身仍然是存在的,只有当过了log.segment.delete.delay.ms 这个时间以后,文件才会被真正的从文件系统中删除。
kafka启用delete的清理策略的时候需要注意配置,这些配置都是针对于topic级别的。
配置项 | 配置项说明 | 建议项 |
log.cleanup.policy | delete | |
log.segment.bytes | 每个segment的大小,达到这个大小会产生新的segment, 默认是1G | |
log.segment.ms | 配置每隔n ms产生一个新的segment,默认是168h,也就是7天 | |
log.retention.bytes | 总的segment的大小限制,达到这个限制后会删除旧的segment,默认值为-1,就是不会删除 | 可以设置某个topic最多缓存多少数据 |
log.retention.ms | segment的最后写入record的时间-当前时间 > retention.ms 的segment会被删除,默认是168h, 7天 |
参考链接:
https://blog.csdn.net/u013200380/article/details/106453013/
https://www.msnao.com/2020/11/09/4908.html