整体总思路:从前到后,从表象到内部,
一、首先确定测试链路信息,然后分部排查:
1、排除自己-----首先排除压力机自身的问题,如CPU、内存,网络,脚本编写,以及jmeter自身缺陷等原因
2、排除网络问题------排查网络问题,监控压力机到后端服务器的网络,以及各服务器间的网络,是否达到网络上限
3、排除资源消耗-----监控服务端所有机器的操作系统负载,如CPU、内存、磁盘、网络是否达到瓶颈
二、从表象入手,查询被测系统的日志:
4、被测系统日志查询----监控中间件的访问日志,观察响应时间,大体确定耗时处于哪一段,
5、监控应用服务器的日志,查看是否存在ERROR日志,比如TimeOut或其他类型报错
三、从内部入手,查询系统的公共参数,jvm、gc、sql
6、监控各中间件的连接数,如nginx、tomcat、mysql等,是否达到上限
7、监控应用程序线程状态,使用jstack或jvisualvm查看是否有死锁、阻塞等情况
8、监控应用程序的jvm,使用jstat或者jmap查看GC情况,是否内存泄漏等
9、使用jprofiler监控应用程序,可以查看耗时比较长的代码方法
10、监控数据库,是否存在慢查询,一般数据库CPU高都是因为SQL语句效率低造成的
11、检查数据库执行计划,是否有全表扫描,以及索引不生效的情况
四、从外部入手,查询关联系统的性能
12、检查系统外部依赖情况,如果外部依赖系统性能差,也会造成本系统性能低
五、分块定位系统瓶颈,
13、对于不好定位的问题,可以考虑采用模块隔离法来确定问题
14、分布式改为单体,去掉部分服务器