spark集群问题汇总

一、磁盘问题

问题描述	可能原因	解决措施
core节点磁盘不足, 并且持续增加	未开启spark-history的日志清理	打开日志清理: spark.history.fs.cleaner.enabled
task节点磁盘不足	APP应用使用磁盘过大: 1. 严重的数据倾斜 2. 应用本身数据量大	1. 解决数据倾斜 2. 加大资源, 增加excutor的数量, 分散压力

问题描述

可能原因

解决措施

core节点磁盘不足, 并且持续增加

未开启spark-history的日志清理

打开日志清理:

spark.history.fs.cleaner.enabled

task节点磁盘不足

APP应用使用磁盘过大:

2. 应用本身数据量大

1. 解决数据倾斜

2. 加大资源, 增加excutor的数量, 分散压力

historyserver由于内存不足(大量fullgc)导致CPU使用上涨, 处理方法如下:

1) 老年代内存使用率不断累计上升

开源Spark的bug:

a) 解析Executor Host的时候，会有cache，由于扩缩容，会一直有新的Executor，cache会慢慢变大

b) org.sparkproject.jetty.util.log.Slf4jLog 这个会保留部分解析过的Event的在map里，没有设置清除机制

保存失败;

参数错误;

时间未到;

没有重启;

1. 调度端异常退出后yarn上spark任务不结束

spark yarn-client模型下，am和driver第一次建立连接之前，driver退出的话，就会出现am一直运

行不结束的问题, 这是yarn-client模式下极偶发会触发的一个开源 bug.

https://help.aliyun.com/zh/emr/emr-on-ecs/user-guide/faq-6?spm=a2c4g.11186623.0.0.56755530spT8Xi

相关阅读:
Git之merge与rebase操作命令及问题
vue2实现复制,粘贴功能，使用vue-clipboard2插件
初始Cpp之八、类和对象
别在被MySQL中count(*)和count(1)的区别文章带偏了，count语句特性
前端技能树，面试复习—— 模拟题+真题系列（1）: 树摇的原理 | GPU 硬件加速原理 | 副作用 | 性能监控 | 无缝轮播原理等
27.降维
MYSQL8解压版 windows 主从部署步骤及配置(包含配置文件,教程文件,免积分下载)
TMS WEB Core 2.0.2 Retail
Redis实现分布式锁（setnx方式、配合lua脚本、Redisson方式）
并发原理—如何保证多条指令的原子性（二）

原文地址：https://blog.csdn.net/weixin_40829577/article/details/132722883