• 如何看懂SparkUI?


    Jobs页面

    在这里插入图片描述

    Stage页面

    在这里插入图片描述

    • 显示额外的指标和摘要指标:
      • 摘要指标(Summary Metrics)统计了所有完成的任务的执行行为,包括执行时间、GC时间、输入输出信息等,并提供了最小值(Min)、第25百分位数(P25)、中位数(P50)、第75百分位数(P75)和最大值(Max)的分布情况。
      • 通过勾选“显示额外指标”(Show Additional Metrics)中的选项,可以查看到额外的详细信息。

    在这里插入图片描述
    在这里插入图片描述

    1. 数据倾斜问题诊断:

      • 检查直方图数据中的Max指标栏,包括数据输入量、运行时间和GC等,与P50和P75的比较。
      • 如果数据量和执行时间远大于平均值,可能存在数据倾斜问题。
    2. Shuffle效率问题诊断:

      • 通过勾选Show Additional Metrics选项,观察ShuffleReadBlockTime指标。
      • 如果Task执行时间短,但ShuffleReadBlockTime较长,可能影响执行效率,甚至导致Shuffle Fetch Failed。
    3. 内存设置问题诊断:

      • 通过GC Time与Duration的比值判断内存设置是否合理。
      • 参考Peak Execution Memory(可能不完全准确)来分析内存使用的峰值。

    使用Aggregated Metrics by Executor功能,对Task执行信息按Executor维度进行统计。

    • 该统计功能允许按照Executor维度对任务执行信息进行聚合。
    • 用户可以点击进行排序。
    • 如果发现作业运行速度比之前慢了很多,并且已经排除了数据倾斜和内存设置不合理的问题,可以通过查看统计值中的Executor数量来确定是否由于资源较少导致运行时间延长。
      在这里插入图片描述

    Environment

    • 显示了当前应用程序使用的Spark版本。
    • 显示了所有的配置项。
    • 日常使用中,可以通过这个页面来确认配置(例如内存设置等)是否正确或者符合预期。
    • 该页面可用于查看和分析配置信息。
    • 如果想确认自己的作业执行主类设置是否正确,有个sun.java.command:
      在这里插入图片描述

    Executors

    • 可以查看整个应用程序级别的Executor维度的概览统计信息。
    • 可以找到Driver以及Executor的日志链接。
    • 通过Executor概览信息中的GC时间等信息,可以判断内存设置是否合理。

    在这里插入图片描述

    SQL

    • 可以查看最近执行的SQL的详情。
    • 包括SQL对应的Job链接。
    • 包括SQL对应的执行图和执行计划。
      在这里插入图片描述

    在这里插入图片描述

  • 相关阅读:
    MySQL日志管理和权限管理(重点)
    概率论与数理统计学习:数字特征(二)——知识总结与C语言实现案例
    【深基16.例1】淘汰赛(下)
    Unity UI Toolkit学习笔记-USS
    VUE获取当前日期的周日和周六
    备战蓝桥杯---动态规划的一些思想2
    杂记1234
    LuatOS-SOC接口文档(air780E)--libcoap - coap数据处理
    java在线问答平台计算机毕业设计MyBatis+系统+LW文档+源码+调试部署
    Java进阶(九)日志框架
  • 原文地址:https://blog.csdn.net/weixin_38643743/article/details/139720345