SparkCore算子及案例，220719， - 码农知识堂

SparkCore算子及案例，220719，

Combiner

Shuffle过程中可以在Map端提前聚合

减少进入Reduce数据量

RDD2[K, List[V]]

分组目的：一定是为了做聚合

groupByKey：二元组RDD

groupBy：没有限制

2个分区，按分区进行排序，

分区内有序

有时候需要对聚合以后的结果进行排序

数据量：万以下的级别

经过shuffle，数据量大：无法放在单台节点内存中处理，全局分组，

环形缓冲：溢写时候：内存中对80%数据和索引做快排

调大分区，必须经过shuffle，

为了方便大家编程，写的更加简洁

为了做程序优化

每天出现个数 = 每个单词出现的次数

Combiner是Map端的聚合

每个MapTask内部会先对数据进行分组聚合

快捷键 alt + enter, 自动导包

Spark中不叫做map端聚合

Spark中叫做分区内聚合

初始化1，实际加3，

reduce（1个参数：计算逻辑函数）

fold（2个参数：初始值，计算逻辑函数）

aggregate（3个参数：初始值，分区内聚合逻辑函数，分区间聚合逻辑函数）

sequence: 序列

16*41

对每个Key的Value做map一对一转换

Dict

setmaster怎么设置yarn模式

review，tonight，

preview
相关阅读:
Vue3基础
 SpringBoot的初始文件与类分析
 C# SqlSugar ORM管理数据
 Vue项目配置项搭建过程（详细）
LeetCode75——Day31
记录一次Docker与Redis冲突
 Android SystemServer进程解析
 VirtualBox 下 CentOS7 静态 IP 的配置 → 多次踩坑总结，蚌埠住了！
vue 点击当前元素进行显示隐藏，上次点过的元素隐藏
 java File类基本概念基本构造方法使用
原文地址：https://blog.csdn.net/m0_48941160/article/details/125865017