spark常用的调参详解

1.在submit中设置
在这里插入图片描述

在submit中设置注意后面的 \

–conf “spark.shuffle.blockTransferService=nio” \ 大数据集shuffle的时候，节点之间传输数据时使用netty 改为nio
–conf “spark.debug.maxToStringFields=500” \ 字段的字符串太长了
–conf “spark.sql.broadcastTimeout=1200” \ 广播等待超时时间，单位秒
–conf “spark.executor.extraJavaOptions=-XX:-UseGCOverheadLimit” \ 关闭限制GC的运行时间（默认启用）
–conf “spark.port.maxRetries=128” \ Spark任务都会绑定一个端口来显示WebUI，默认端口为4040，如果被占用则依次递增+1端口重试，重试次数由参数spark.port.maxRetries=16控制，默认重试16次后就放弃执行
在这里插入图片描述

" class=“reference-link”>2.在代码中设置watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80MTgwNDA0OQ_size_16_color_FFFFFF_t_70 1
.config(“spark.serializer”, “org.apache.spark.serializer.KryoSerializer”) //使用kryo序列化的类库
/* .config(“spark.shuffle.manager”, “hash”)//设置为hashShuffleManager
.config(“spark.shuffle.consolidateFiles”, “true”)//开启consolidate机制这两个不能使用不知道怎么回事 */
.config(“spark.default.parallelism”, “50”) //设置并行度根据所使用的core来算是core的3–5倍
.config(“spark.shuffle.file.buffer”, “64k”) //设置map端内存缓冲区大小
.config(“spark.reducer.maxSizeInFlight”, “96M”) //设置reduce端拉取数据的大小
.config(“spark.shuffle.memoryFraction”, “0.3”) //reduce端聚合内存占比
.config(“spark.shuffle.io.maxRetries”, “6”) //最多拉取次数

相关阅读:
“因遭勒索软件攻击，我被认定工作失职开除，并被老东家索赔 21.5 万元”
chromedriverUnable to obtain driver for chrome using ,selenium找不到chromedriver
在linux实现一个文件上传的服务器
河北安新复合型水稻国稻种芯·中国水稻节：雄安生态示范区
WPF 截图控件之移除控件(九)「仿微信」
Java线程安全与对象头结构信息
（2022版）一套教程搞定k8s安装到实战 | Service
多线程---锁策略与CAS
antd5 虚拟列表原理（rc-virtual-list）
【TA 工具积累】参考图展示 PureRef | 截图 Snipaste

原文地址：https://blog.csdn.net/weixin_43214644/article/details/126930517