
Combiner
Shuffle过程中可以在Map端提前聚合
减少进入Reduce数据量
RDD2[K, List[V]]
分组目的:一定是为了做聚合

groupByKey:二元组RDD
groupBy:没有限制
2个分区,按分区进行排序,
分区内有序


有时候需要对聚合以后的结果进行排序
数据量:万以下的级别
经过shuffle,数据量大:无法放在单台节点内存中处理 ,全局分组,
环形缓冲:溢写时候:内存中对80%数据和索引做快排



调大分区,必须经过shuffle,

为了方便大家编程,写的更加简洁
为了做程序优化
每天出现个数 = 每个单词出现的次数

Combiner是Map端的聚合
每个MapTask内部会先对数据进行分组聚合


快捷键 alt + enter, 自动导包
Spark中不叫做map端聚合
Spark中叫做分区内聚合



初始化1,实际加3,

reduce(1个参数:计算逻辑函数)
fold(2个参数:初始值,计算逻辑函数)
aggregate(3个参数:初始值,分区内聚合逻辑函数,分区间聚合逻辑函数)
sequence: 序列
16*41


对每个Key的Value做map一对一转换
Dict
setmaster怎么设置yarn模式
review,tonight,




preview

