Spark bucketing bucket分桶原理和应用

介绍Spark分桶的原理以及如何在数据分析和数据准备中更好的应用分桶。

分桶概念

spark的bucketing分桶是一种组织存储系统中数据的方式。以便后续查询中用到这种机制，来提升计算效率。

如果分桶设计得比较合理，可以避免关联和聚合查询中的混洗(洗牌、打散、重分布)的操作，从而提升性计算性能。

一些查询（sort-merge join、shuffle-hash join、聚合、开窗函数）都需要输入数据按照关联键或聚合键被重分布。更具体地说，具有相同键值的行要被重分布到同一分区。为了满足这个要求，spark需要对数据进行重分布，物理上就是说spark要把数据从一个executor移动到另一个executor，这也就是常说的shuffle。

有了bucketing，我们相当于提前进行了shuffle，并把重分布的结果保存到了存储系统。当我们从存储系统读回这些分桶后的数据时，spark将会感知到这些分布并不会再次执行重分布。也就是常说的，空间换时间。

分桶代码


df.write
  .mode(saving_mode)  # append/overwrite
  .bucketBy(n, field1, field2, ...)
  .sortBy(field1, field2, ...)
  .option("path", output_path)
  .saveAsTable(table_name)

注意点：

1、必须以saveAsTable的方式保存为表。因为分区信息需要保存到元数据中。spark在访问表时会得到关于这个表的分桶信息。

2、sortBy是个可选操作。分桶在没有排序下也可以工作。

3、bucketBy第一个参数是桶的个数。设置桶数量是个挑战，需要考虑数据集整体

相关阅读:
38、RabbitMQ hello world
STM32实现硬件I2C通讯，读取MPU6050的ID号
Linux--gcc与make
Java中Scanner类的使用
【js】-【DFS、BFS应用】-学习笔记
FMT固定翼无人机目标搜寻与投掷
UE5 官方案例LyraStarter 全特性详解 5.LyraPlayerStart
理解面向过程与面向对象
Python统计学05——假设检验
扫地机器人的“新故事”，从“第三次革命”开始

原文地址：https://blog.csdn.net/haohaizijhz/article/details/126500900