功能概述:主动告警、被动告警、系统告警、项目性能告警、业务告警
告警指标:成功率、服务响应时间、longUrl、longSQL、OOM 、服务离线、健康检查、服务器性能、自动扩缩容,以及恢复
日志埋点:由开发按个人需要进行日志埋点
日志采集:由运维进行开发,基于现有的日志系统,使用filebeat对日志文件进行过滤采集,将包含error/Error关键字的日志行发送至kafka
Skywalking埋:根据需求,在Skywalking配置相应的告警规则,配置webHook地址
阿里云服务器监控埋点:将阿里云告警模块的webHook地址配置成告警平台地址
告警平台Service
接受kafa消息,分析日志匹配关键字,按规则取值
接受项目告警调用
发送钉钉消息
告警平台UI:
项目组管理:星选项目整理分组,对应负责人管理 配置告警级别, 配置多级告警
告警规则管理:完成基本的告警规则管理,项目、匹配值、阈值、告警人、静默时间等等
出现故障及时报警或预警,能够主动的发现问题,及时解决生产问题;对项目性能监控,发现问题,提示开发人员主动优化性能,以提供服务器利用率,规避风险;监控产品状态,保障产品健康运行的目的。