作者:马海琴 编辑:毕小烦
在日常的性能测试中,我们除了关注应用本身的性能,比如服务的响应时间、TPS 等,也需要关注服务器本身的资源使用情况,比如 CPU、内存、磁盘、网络等。当然,不光要分析服务器资源,评估应用运行所需要的资源情况,也需要分析服务器资源的异常,找到应用可能存在的问题或者优化方向。
具体应该怎么做呢?本系列文章介绍了 CPU、内存、磁盘、网络的基础知识以及问题的分析方式。本文是第一篇,讲 CPU。
CPU 是Central Processing Unit的缩写,中文也叫中央处理器。它是一块超大规模的集成电路,是硬件系统的核心,是一台计算机的运算核心和控制核心。它的功能主要是解释计算机指令以及处理计算机软件中的数据,能完成算数运算、逻辑运算及控制功能。CPU 就像人体的大脑一样,关键且重要。
CPU 作为系统的关键指标,在任何场合都不能忽视它的重要性。应用上线要评估 CPU 的使用核数,进行合理的资源配置;服务上线之后,也需要时刻监控 CPU 的使用情况,以防资源耗尽影响系统的稳定性;性能测试时,我们更是需要密切关注 CPU 的变化,寻找导致 CPU 异常的场景。
在线上观测或者性能测试当中,当系统出现 CPU 异常或者与预期不一致时,我们可以通过分析 CPU 的具体使用情况,进而找到问题的所在。一般情况下,死锁、频繁的 GC、频繁的上下文切换、线程执行报错、计算密集这些原因都会使 CPU 的使用率飙升。
什么样 CPU 行为是异常的?
一般情况下,对于新系统,我们一般期望系统的平均可用 CPU 不少于 20%,建议 CPU 使用率在 70% 以下;老系统在用户活跃度没有明显增加的情况下,CPU 较日常同比增幅过大,或者直接飙升超过 80% 。
如何找到 CPU 异常的原因?
分 3 步。
STEP 1. 找到导致 CPU 异常的进程
通过top命令检测到某进程 CPU 占用较高,其中PID即为进程号,我们可以通过这个进程号进一步获取需要的信息。

当然如果已知具体服务,可以直接使用ps -ef | grep pname[进程名称]查看进程号。

STEP 2. 通过进程号获取线程号
通过命令top -Hp pid[进程ID]查看进程中各线程的使用情况,找到 CPU 占用最高的线程号,其中PID即为线程号。
如:

再通过命令printf '0x%x\n' nid[线程ID]将线程号转化为十六进制。
如:

STEP 3. 通过进程号查看进程的堆栈信息,并使用线程号定位指定的线程
定位异常可使用命令:
$ jstack pid[进程ID] | grep nid[十六进制的线程ID] -C10 --color
在堆栈中可以定位到影响 CPU 的线程在源码中的文件名称和代码行数,接下来只需要在项目工程中找到该文件的代码行数,分析问题的具体原因,修正即可。
下图例子中,我们可以定位到问题代码在 java 类 MyTest.java 的 78 行。

实际上,我们常用的是将堆栈 dump 下来,然后在本地进行分析。
dump 可使用命令:
$ jstack pid[进程ID] > jstack.txt[文件名称]
下图是一个死锁的例子,线程 2 正在等待一个被线程1持有的锁,线程1也在等待一个被线程 2 持有的锁,两者都在等待对方释放锁,造成死锁。

top 命令是一个综合的命令,不仅可以查看 CPU ,还可以查看内存等。接下来,我们详细介绍一下 top 命令的使用和结果。
$ top [-][d number][qcSsinb][p pid]
参数解释:
结果如下:

与 uptime 执行效果一致
HH:mm:ss:系统当前时间
up x days, HH:mm:从开机到此刻的系统运行时间(单位:分钟)
x user:此刻的登录用户数
who命令查看具体是哪些用户load average: x.xx, x.xx, x.xx:系统在1分钟、5分钟、15分钟内的系统平均负载值。
扩展阅读:
一段时间内 CPU 正在处理以及等待 CPU 处理的进程数之和的统计信息。
cat /proc/cpuinfo | grep 'model name' /proc/cpuinfo | wc -lx total:所有进程数
x running:正在运行的进程数
x sleeping:休眠进程数
x zombie:僵尸进程数
%Cpu(s):表示当前 CPU 的平均值,默认 top 命令配置显示的是平均的 CPU 使用情况,如果按下键盘1可以显示各个逻辑 CPU 的使用情况。
x.x us:user space,用户空间消耗 CPU 时间百分比,通常用户 CPU 高表示有应用程序比较繁忙;x.x sy:sysctl,内核空间消耗 CPU 时间百分比;x.x ni:niced user processes,改变过优先级的用户进程占用的 CPU 百分比;x.x id:System Idle Process,空闲 CPU 时间百分比;x.x **wa**:wait space,CPU 在等待 I/O 操作完成所花费的时间,通常该指标越低越好,否则表示 I/O 存在瓶颈,可以在使用 iostat、sar 等命令做进一步分析;x.x hi:hardware interrupt,处理硬中断的 CPU 时间百分比。硬中断是由外设硬件(如键盘控制器、硬件传感器等)发出的,需要有中断控制器参与,特点是快速执行;x.x si:software interrupt,处理软中断的 CPU 时间百分比。软中断是由软件程序(如网络收发、定时调度等)发出的中断信号,特点是延迟执行;x.x st:steal time,等待 CPU 资源的时间百分比。仅出现在多虚拟机场景。如果该指标过高,可以检查下宿主机或其他虚拟机是否异常。可用内存=free + buffer + cached
xxx total:物理内存总量xxx free:空闲物理内存量xxx used:已使用物理内存量,还包括过去使用过的现在可以被重复利用的内存,内核并不把这些可被重新使用的内存交还到 free 中去,因此在 linux 上 free 内存会越来越少,但不用为此担心xxx buff/cache:缓存的内存量xxx total:交换区总量xxx free:空闲交换区总量xxx used:已使用交换区总量,如果这个数值在不断的变化,说明内核在不断进行内存和 swap 的数据交换,这是真正的内存不够用了;xxx avail Mem:缓冲的交换区总量,可用于进程下一次分配的物理内存数量。默认各进程是按照 CPU 的占用量从高到低进行排序
PID:进程 PID
USER:进程所有者的用户名
PR:进程调度优先级,值越低优先级越高
NI:从用户空间视角的进程优先级(niced值),值越低优先级越高;
VIRT:进程使用的虚拟内存(KB),VIRT=SWAP+RES
RES:进程使用的(未被换出的)物理内存(KB),RES=CODE+DATA
SHR:共享内存大小(KB)
S:进程状态
%CPU:进程占用 CPU 时间比例
%MEM:进程占用的物理内存比例
TIME+:进程占用 CPU 的时间总量(1/100秒),而非进程的存活时间。所以可能存在 TIME+大于程序运行时间,也可能小于程序运行时间,这两没有必然的关系。
COMMAND:运行进程使用的命令
~/.toprc文件中ctrl+c也可以退出 top)top -s以安全模式启动top界面,可以防止在 top 界面对进程进行修改操作。
(完)
如果文章对你有帮助,记得留言、点赞、加关注哦!