记一次线上 Spring CPU 高负载的解决思路

记一次线上 Spring CPU 高负载的解决思路
记一次线上CPU高负载的解决思路

背景: 在某一天,运营同事突然发现运营看板好几天没有更新数据了, 然后找了过来?!

这里看似抛出了一个问题 ?

但细想一下, 同时暴露了我们对于线上服务的监控未完全覆盖到!!! 这是致命的!!!

当然, 这篇文章先不讨论监控的问题, 后面会推出完善的监控方案

定位问题

问题抛过来了, 那么我们第一步要怎样做呢?

拿到问题的第一步, 先理解题意, 这里有几个关键的信息点

第一 : 好几天, 具体哪一天, 这个后面确认了一个具体的时间点

第二 : 运营看板, 这是重点, 是我们切入问题的关键

好了, 有了这两个关键的信息, 我们接下来就开始定位问题代码了
1. 从功能出发, 定位到未更新的表
2. 通过表来定位到更新数据的代码
通过上面两步找到了问题代码是某个定时任务

日志搜索

这时按照肌肉记忆, 先是看了代码有没有关键点的日志输出, 发现代码开始和结束都有打印日志的操作

顺藤摸瓜,先登录到服务器端, grep一波关键的日志

发现当天的 info.log 没有打印到日志, 这就很奇怪了, 因为这个定时任务的 cron 是每天凌晨1点开始

然后就查了前一天的日志, 发现有打印到开始的日志, 但是没有打印结束的日志

然后再去找看有没有异常的日志, 发现并没有

监控看板

从日志看出了一点不对劲的味道, 但还没有足够的线索定位到具体的问题

这时去查看容器的资源情况

这里观察的是, 在两台容器中, 有一台容器的 cpu 吃得很紧

另外一台却是风平浪静

从这里
相关阅读:
WaveImpedance(波阻抗和自由空间阻抗)
Rocky Linux 配置邮件发送
 41.企业实战项目rsync + inotify + shell脚本实现实时同步
 下载离线地图地形数据库（3D离线地图开发）
22-07-19 西安 RabbitMQ（03）消息可靠投递、消费端限流、死信队列、延迟队列、集群搭建
 Web3知识科普：什么是多签钱包？
最新接口有关抖音，获取抖音分享口令url API
Character.AI：产品优势和商业壁垒在哪里？
playwright录制脚本
 渗透测试-信息收集
原文地址：https://blog.csdn.net/m0_73088370/article/details/126748002

记一次线上CPU高负载的解决思路

定位问题

日志搜索

监控看板