• JAVA进程CPU负载过高导致问题分析


    问题描述

    在测试环境发现页面打开速度越来越慢,特别卡。反馈后到服务器排查,发现当前java进程的CPU占用率达到了1000%多。然后进行后续排查。

    问题排查

    CPU和内存占用问题排查

    通过 top 命令查看CPU和内存的占用情况。能看到具体各个进程的CPU使用情况。

    通过top命令,发现PID,10520 的Java进程占用CPU高达900%,出现故障。

    查看进程的执行文件

    通过top命令获取到占用CPU较高的进程号之后,需要了解是哪个程序占用的。

    ll /proc/10520
    
    ll /proc/10520/exe
    
    • 1
    • 2
    • 3

    通过上面命令可以看到指定进程号 10520 的启动文件。

    进一步排查

    找到该进程后,如何定位具体线程或代码呢,首先显示线程列表,并按照CPU占用高的线程排序:

    ps -mp 10520 -o THREAD,tid,time | sort -rn | head -n 10
    
    • 1

    结果

    USER %CPU PRI SCNT WCHAN USER SYSTEM TID TIME
    ubox 88.9 19 – futex_ – – 83032 08:21:49
    ubox 88.9 19 – – – – 83031 08:21:49
    ubox 88.9 19 – – – – 83030 08:21:49
    ubox 88.9 19 – – – – 83028 08:21:49
    ubox 88.9 19 – – – – 83027 08:21:49
    ubox 88.9 19 – – – – 83025 08:21:49
    ubox 88.9 19 – – – – 83024 08:21:49
    ubox 88.9 19 – – – – 83023 08:21:49
    ubox 712 – – – – – – 2-18:57:53
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10

    找到了耗时最高的线程83032,占用CPU时间超过8小时了!

    线程ID转换为16进制

    将需要的线程ID转换为16进制格式:

    printf "%x\n" 83032
    
    • 1

    结果

    14458
    
    • 1

    最后打印线程的堆栈信息

    jstack 10520 | grep 14458 -A 50
    
    • 1

    显示内容也许GC进程,也许是正在执行的代码块。依据此再深度排查。

    问题结论

    最终发现的原因是,在一个列表查询中,有几个大文本字段被查询出来,导致内存占用过多引发频繁GC。最终修改SQL语句,将大文本字段从SQL中移除(列表中也不显示此字段,只是查询习惯写出来而已)。

  • 相关阅读:
    记一次线上故障--HashMap在多线程条件下运行造成CPU 100%
    二、鼎捷T100总账管理之核算项管理篇
    5.区块链系列之私钥管理
    关于需求规范和需求评审的一点看法
    JVM(Java虚拟机) 整理(一):基础理论
    ubuntu 系统 怎么判断系统有没有GPU
    城中村智能水电表改造,提升居民生活品质
    PostgreSQL11.17离线安装过程(X86+Ubuntu)
    Spring 通过注解来存储和读取对象
    【华为OD机试真题 JS】矩形相交的面积
  • 原文地址:https://blog.csdn.net/likeflower950/article/details/126126737