• Spark bucketing bucket分桶原理和应用


    介绍Spark分桶的原理以及如何在数据分析和数据准备中更好的应用分桶。

    分桶概念

    spark的bucketing分桶是一种组织存储系统中数据的方式。以便后续查询中用到这种机制,来提升计算效率。

    如果分桶设计得比较合理,可以避免关联和聚合查询中的混洗(洗牌、打散、重分布)的操作,从而提升性计算性能

    一些查询(sort-merge join、shuffle-hash join、聚合、开窗函数)都需要输入数据按照关联键或聚合键被重分布。更具体地说,具有相同键值的行要被重分布到同一分区。为了满足这个要求,spark需要对数据进行重分布,物理上就是说spark要把数据从一个executor移动到另一个executor,这也就是常说的shuffle。

    有了bucketing,我们相当于提前进行了shuffle,并把重分布的结果保存到了存储系统。当我们从存储系统读回这些分桶后的数据时,spark将会感知到这些分布并不会再次执行重分布。也就是常说的,空间换时间。

    分桶代码

    1. df.write
    2. .mode(saving_mode) # append/overwrite
    3. .bucketBy(n, field1, field2, ...)
    4. .sortBy(field1, field2, ...)
    5. .option("path", output_path)
    6. .saveAsTable(table_name)

    注意点:

    1、必须以saveAsTable的方式保存为表。因为分区信息需要保存到元数据中。spark在访问表时会得到关于这个表的分桶信息。

    2、sortBy是个可选操作。分桶在没有排序下也可以工作。

    3、bucketBy第一个参数是桶的个数。设置桶数量是个挑战,需要考虑数据集整体

  • 相关阅读:
    38、RabbitMQ hello world
    STM32实现硬件I2C通讯,读取MPU6050的ID号
    Linux--gcc与make
    Java中Scanner类的使用
    【js】-【DFS、BFS应用】-学习笔记
    FMT固定翼无人机目标搜寻与投掷
    UE5 官方案例LyraStarter 全特性详解 5.LyraPlayerStart
    理解面向过程与面向对象
    Python统计学05——假设检验
    扫地机器人的“新故事”,从“第三次革命”开始
  • 原文地址:https://blog.csdn.net/haohaizijhz/article/details/126500900