• Bug:Zabbix对Kafka topic积压数据监控


    简述

    《Zabbix监控Kafka topic积压数据》一文的目的是通过Zabbix自动发现实现对多个消费者组的Topic及Partition的Lag进行监控。因在实际监控中发现有问题,为给感兴趣的读者不留坑,特通过此文对监控进行优化调整。

    分区自动发现

    # 未优化前的计算方式:
    # 自动发现配置文件
    vim consumer-groups.conf
    #按消费者组(Group)|Topic格式,写入自动发现配置文件
    test-group|test
    
    # 执行脚本自动发现指定消费者和topic的分区
    bash consumer-groups.sh discovery
    {
        "data": [
            { "{#GROUP}":"test-group", "{#TOPICP}":"test", "{#PARTITION}":"0" },
            { "{#GROUP}":"test-group", "{#TOPICP}":"test", "{#PARTITION}":"1" },
            { "{#GROUP}":"test-group", "{#TOPICP}":"test", "{#PARTITION}":"3" },
            { "{#GROUP}":"test-group", "{#TOPICP}":"test", "{#PARTITION}":"2" }
        ]
    }
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16

    经过上线验证,当自动发现配置文件只有一个test-group|test是没有问题的,但当我们按需求再接入test-group|test1 (即test-group消费者组的第二个Topic)时,自动发现的结果如下:

    # 未优化前的计算方式:
    vim consumer-groups.conf
    #按消费者组(Group)|Topic格式,写入自动发现配置文件
    test-group|test
    test-group|test1
    
    # 执行脚本自动发现指定消费者和topic的分区
    bash consumer-groups.sh discovery
    {
        "data": [
            { "{#GROUP}":"test-group", "{#TOPICP}":"test", "{#PARTITION}":"0" },
            { "{#GROUP}":"test-group", "{#TOPICP}":"test", "{#PARTITION}":"1" },
            { "{#GROUP}":"test-group", "{#TOPICP}":"test", "{#PARTITION}":"3" },
            { "{#GROUP}":"test-group", "{#TOPICP}":"test", "{#PARTITION}":"2" }
            { "{#GROUP}":"test-group", "{#TOPICP}":"test1", "{#PARTITION}":"0" },
            { "{#GROUP}":"test-group", "{#TOPICP}":"test2", "{#PARTITION}":"1" },
            { "{#GROUP}":"test-group", "{#TOPICP}":"test3", "{#PARTITION}":"2" }
        ]
    }
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19

    了解Zabbix自动发现格式的同学会发现,每个Topic的Partition会出现',',这种格式是不符合规范,这就是导致我们的监控项会出现问题,因此我们需要进一步修改脚本。

    经修改后,最终效果应该如下:

    # 优化后的计算方式:
    vim consumer-groups.conf
    #按消费者组(Group)|Topic格式,写入自动发现配置文件
    test-group|test
    test-group|test1
    
    # 执行脚本自动发现指定消费者和topic的分区
    bash consumer-groups.sh discovery
    {
        "data": [
            { "{#GROUP}":"test-group", "{#TOPICP}":"test", "{#PARTITION}":"0" },
            { "{#GROUP}":"test-group", "{#TOPICP}":"test", "{#PARTITION}":"1" },
            { "{#GROUP}":"test-group", "{#TOPICP}":"test", "{#PARTITION}":"3" },
            { "{#GROUP}":"test-group", "{#TOPICP}":"test", "{#PARTITION}":"2" },
            { "{#GROUP}":"test-group", "{#TOPICP}":"test1", "{#PARTITION}":"0" },
            { "{#GROUP}":"test-group", "{#TOPICP}":"test1", "{#PARTITION}":"1" },
            { "{#GROUP}":"test-group", "{#TOPICP}":"test1", "{#PARTITION}":"2" }
        ]
    }
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19

    获取监控项“test-group/test/分区X”的Lag

    经过自动发现后的数据,我们可以进一步获取不同分区的lag

    # 优化后的计算方式:
    # test-group test分区0 lag
    bash consumer-groups.sh lag test-group test 0
    # test-group test分区1 lag
    bash consumer-groups.sh lag test-group test 1
    # test-group test1分区0 lag
    bash consumer-groups.sh lag test-group test1 0
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7

    通过命令可以看到,我们的参数通过消费者组、Topic、Partition来获取最终的lag值,如果不加消费者区分,那么无法区分不同消费者组和不同Topic相应的lag结果:

    # 未优化前的计算方式:
    # 获取分区0 lag
    bash consumer-groups.sh lag 0
    # 获取分区1 lag
    bash consumer-groups.sh lag 1
    # 获取分区2 lag
    bash consumer-groups.sh lag 2
    # 获取分区3 lag
    bash consumer-groups.sh lag 3
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9

    最终优化后脚本

    # 自动发现配置文件
    vim consumer-groups.conf
    #按消费者组(Group)|Topic格式,写入自动发现配置文件
    test-group|test
    test-group|test1
    
    # 自动发现、lag计算脚本
    vim consumer-groups.sh
    #!/bin/bash
    ##comment: 根据消费者组监控topic lag,进行监控告警
    #配置文件说明
    #消费者组|Topic
    #test-group|test
    
    #获取topic 信息
    cal_topic() {
        if [ $# -ne 2 ]; then
            echo "parameter num error, 读取topic信息失败"
            exit 1
        else
            /usr/local/kafka/bin/./kafka-consumer-groups.sh --bootstrap-server 192.168.3.55:9092 --describe --group $1 |grep -w $2|grep -v none 
        fi
    }
    #topic+分区自动发现
    topic_discovery() {
        printf "{\n"
        printf "\t\"data\": [\n"
        m=0
        num=`cat /etc/zabbix/monitor_scripts/consumer-groups.conf|wc -l`
        for line in `cat /etc/zabbix/monitor_scripts/consumer-groups.conf`
        do  
            m=`expr $m + 1`
            group=`echo ${line} | awk -F'|' '{print $1}'`
            topic=`echo ${line} | awk -F'|' '{print $2}'`
            cal_topic $group $topic > /tmp/consumer-group-tmp
            count=`cat /tmp/consumer-group-tmp|wc -l`
            n=0
            while read line
            do
                 n=`expr  $n + 1`
                 #判断最后一行
                 if [ $n -eq $count ] && [ $m -eq $num ]; then
                     topicp=`echo $line | awk '{print $1}'`
                     partition=`echo $line  | awk '{print $2}'`
                     printf "\t\t{ \"{#GROUP}\":\"${group}\", \"{#TOPICP}\":\"${topicp}\", \"{#PARTITION}\":\"${partition}\" }\n"
                 else
                     topicp=`echo $line | awk '{print $1}'`
                     partition=`echo $line  | awk '{print $2}'`
                     printf "\t\t{ \"{#GROUP}\":\"${group}\", \"{#TOPICP}\":\"${topicp}\", \"{#PARTITION}\":\"${partition}\" },\n"
                 fi
            done < /tmp/consumer-group-tmp
        done
        printf "\t]\n"
        printf "}\n"
    }
    
    
    if [ $1 == "discovery" ]; then
        topic_discovery
    elif [ $1 == "lag" ];then
        cal_topic $2 $3 > /tmp/consumer-group
        cat /tmp/consumer-group |awk -v t=$3 -v p=$4 '{if($1==t && $2==p ){print $5}}'
    else
        echo "Usage: /data/scripts/consumer-group.sh discovery | lag"
    fi
    
    # 手动运行
    ## 自动发现
    bash consumer-groups.sh discovery
    ## test-group test分区0 lag
    bash consumer-groups.sh lag test-group test 0
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23
    • 24
    • 25
    • 26
    • 27
    • 28
    • 29
    • 30
    • 31
    • 32
    • 33
    • 34
    • 35
    • 36
    • 37
    • 38
    • 39
    • 40
    • 41
    • 42
    • 43
    • 44
    • 45
    • 46
    • 47
    • 48
    • 49
    • 50
    • 51
    • 52
    • 53
    • 54
    • 55
    • 56
    • 57
    • 58
    • 59
    • 60
    • 61
    • 62
    • 63
    • 64
    • 65
    • 66
    • 67
    • 68
    • 69
    • 70
    • 71

    接入Zabbix

    1.Zabbix配置文件

    vim userparameter_kafka.conf
    UserParameter=topic_discovery,bash /data/scripts/consumer-groups.sh discovery
    UserParameter=topic_log[*],bash /data/scripts/consumer-groups.sh lag "$1" "$2" "$3"
    
    • 1
    • 2
    • 3

    2.Zabbix自动发现

    在这里插入图片描述

    3.监控项配置

    在这里插入图片描述

    4.告警信息

    告警主机:Kafka_192.168.3.55
    主机IP:192.168.3.55
    主机组:Kafka
    告警时间:2022.03.21 00:23:10
    告警等级:Average
    告警信息:test-group/test/分区1:数据积压100
    告警项目:topic_lag[test-group,test,1]
    问题详情:
    test-group/test/1: 62
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
  • 相关阅读:
    Spring Boot 中Mybatis使用Like的使用方式和注意点
    uni app 钓鱼小游戏
    java中转义字符的源码数据格式,内存存储数据格式和转换json后的数据格式
    AI应用开发入门12:登录注册表单路由切换教程
    SQL 增删改查
    作为比萨店老板,如何设计一个松耦合的比萨菜单-工厂模式应用
    NR PUCCH(四) UL data operation
    [m0leCon beginner 2022] 部分
    计算机毕业设计Java大学城水电管理系统(源码+系统+mysql数据库+lw文档)
    基于JAVA中学网站设计与实现演示录像2020计算机毕业设计源码+系统+数据库+lw文档+部署
  • 原文地址:https://blog.csdn.net/yanggd1987/article/details/125549305