一个核心业务数据库部署在AWS的EC2实例上,在业务活动期间发生了性能抖动导致业务超时。
下面记录一下问题排查的流程。
发生问题后,第一时间肯定要看监控!首先分析服务器基础监控。
服务器的Load1使用率不足40%,看上去未达到瓶颈。
发现问题发生期间,数据盘的IOPS有不规律的波动,但是整体上IOPS峰值未超过1500,看上去不像达到了瓶颈。
再观察一下MySQL服务指标,可以看到问题发生时数据库运行线程是有突增的,同时也观察到数据库insert和update同样有突增。
这一点与调用方确认当时确实是有大量的写入和更新,但是从服务指标上看并没有达到服务运行的瓶颈。
重新梳理一下各方的情况。
基础监控
我们又重新Review了服务器监控指标,确认当时服务器的CPU使用率、内存使用率、磁盘使用率和磁盘IOPS均没有达到上限