spark sql官网优化指南 - 码农知识堂 - 文章详情页

spark sql官网优化指南
两句话概括
1. 缓存数据
2. 调整参数
缓存数据

把数据缓存到内存，spark sql能够只扫描需要列并且会自动压缩数据，占用最小的内存和减小GC压力。这无需多言，内存远远要快于磁盘，spark效率比hive高这个就是一个主要原因。
- 缓存数据代码
```
spark.catalog.cacheTable("tableName")
或
dataFrame.cache()
1
2
3
```
- 释放缓存
```
spark.catalog.uncacheTable("tableName")
或
dataFrame.unpersist()
1
2
3
```
用完后一定要记得释放掉，不要空占的内存浪费资源。
- 内存相关参数
  spark sql可以使用SparkSession的setConf方法，或者使用sql命令 set key=value的方法来配置内存中的缓存。主要的配置参数有两个：
  
  参数默认值含义开始版本
  
  spark.sql.inMemoryColumnarStorage.comp
相关阅读:
SpringMVC中的接口传参接参总结
 SVN服务器搭建+SVN客户端+TeamCity集成环境搭建+VS2019开发
 leetcode.754 到达终点数字 - 数学思维
 『手撕Vue-CLI』自动安装依赖
 广西建筑模板厂家批发——能强优品木业
 【Apipost】常用预（后）执行脚本方法
 浏览器输入url到页面展示过程
 TCP编程
 最长序列问题（动态规划）
金三银四，风控建模面试高频问题大全
原文地址：https://blog.csdn.net/Android_xue/article/details/136069528