• 什么是hive的高级分组聚合,它的用法和注意事项以及性能分析


     

    hive的高级分组聚合是指在聚合时使用GROUPING SETS、CUBE和ROLLUP的分组聚合。

    高级分组聚合在很多数据库类SQL中都有出现,并非hive独有,这里只说明hive中的情况。

    使用高级分组聚合不仅可以简化SQL语句,而且通常情况下会提升SQL语句的性能。

    1.Grouping sets 的使用

    示例:

    -- 使用方式
    select a,b,sum(c) from tbl group by a,b grouping sets(a,b)
    

    Grouping sets的子句允许在一个group by 语句中,指定多个分组聚合列。所有含有Grouping sets 的子句都可以用union连接的多个group by 查询逻辑来表示。

    如下一些常见的等价替换示例:

    -- 语句1
    select a, b sum(c) from tbl group by a,b grouping sets((a,b))
    -- 相当于 
    select a,b,sum(c) from tbl group by a,b
    
    -- 语句2
    select a,b,sum(c) from tbl group by a,b grouping sets((a,b),a)
    -- 相当于
    select a,b,sum(c) from tbl group by a,b
    union
    select a,null ,sum(c) from tbl group by a
    
    -- 语句3
    select a,b,sum(c) from tbl group by a,b grouping sets(a,b)
    -- 相当于
    select a,null,sum(c) from tbl group by a
    union
    select null ,b,sum(c) from tbl group by b
    
    -- 语句4
    select a,b,sum(c) from tbl group by a,b grouping sets((a,b),a,b,())
    -- 相当于
    select a,b,sum(c) from tbl group by a,b
    union
    select a,null,sum(c) from tbl group by a
    union
    select null,b,sum(c) from tbl group by b
    union
    select null,null,sum(c) from tbl
    
    

    可以看到通过等价替换的改写之后,语句会变得简洁,性能我们之后分析。

    2.cube 和rollup的使用

    示例:

    -- cube使用示例
    select a,b,c,count(1) from tbl group by a,b,c with cube
    -- rollup使用示例
    select a,b,c,count(1) from tbl group by a,b,c with rollup
    

    用法说明:

    以上两个高级分组函数都可以在一个group by 语句中完成多个分组聚合,它们都可以用grouping sets来等价替换。

    • cube 会计算所有group by 列的所有组合
    -- cube语句
    select a,b,c,count(1) from tbl group by a,b,c with cube
    -- 相当于
    select a,b,c count(1) from tbl group by a,b,c
    grouping sets((a,b,c),(a,b),(b,c),(a,c),(a),(b),(c),())
    
    • rollup 会按照group by 指定的列从左到右进行分组聚合
    -- rollup语句 滚动式聚合
    select a,b,c,count(1) from tbl group by a,b,c with rollup
    -- 相当于
    select a,b,c,count(1) from tbl group by a,b,c s
    grouping sets((a,b,c),(a,b),(a),())
    

    3.使用高级分组聚合函数的性能分析

    我们可以通过执行计划的执行来分析高级分组聚合SQL语句的执行过程,比对其优化的节点。

    例1 含grouping sets关键词的SQL执行案例。

    set hive.map.aggr=true;
    explain
    -- 小于30岁人群的不同性别平均年龄
    select gender,avg(age) as avg_age from temp.user_info_all where ymd = '20230505'
    and age < 30 
    group by gender;
    
    -- 将以上语句改为grouping sets关键词执行语句
    set hive.map.aggr=true;
    explain
    select gender,avg(age) as num from temp.user_info_all 
    where ymd = '20230505'
    and age < 30 
    group by gender grouping sets((gender));
    

    查看其执行计划:

    STAGE DEPENDENCIES:
      Stage-1 is a root stage
      Stage-0 depends on stages: Stage-1
    
    STAGE PLANS:
      Stage: Stage-1
        Map Reduce
          Map Operator Tree:
              TableScan
                alias: user_info_all
                Statistics: Num rows: 32634295 Data size: 783223080 Basic stats: COMPLETE Column stats: NONE
                Filter Operator
                  predicate: (age < 30) (type: boolean)
                  Statistics: Num rows: 10878098 Data size: 261074352 Basic stats: COMPLETE Column stats: NONE
                  Group By Operator
                    aggregations: avg(age)
                    keys: gender (type: int), 0 (type: int)
                    mode: hash
                    outputColumnNames: _col0, _col1, _col2
                    Statistics: Num rows: 10878098 Data size: 261074352 Basic stats: COMPLETE Column stats: NONE
                    Reduce Output Operator
                      key expressions: _col0 (type: int), _col1 (type: int)
                      sort order: ++
                      Map-reduce partition columns: _col0 (type: int), _col1 (type: int)
                      Statistics: Num rows: 10878098 Data size: 261074352 Basic stats: COMPLETE Column stats: NONE
                      value expressions: _col2 (type: structsum:double,input:bigint>)
          Reduce Operator Tree:
            Group By Operator
              aggregations: avg(VALUE._col0)
              keys: KEY._col0 (type: int), KEY._col1 (type: int)
              mode: mergepartial
              outputColumnNames: _col0, _col2
              Statistics: Num rows: 5439049 Data size: 130537176 Basic stats: COMPLETE Column stats: NONE
              pruneGroupingSetId: true
              Select Operator
                expressions: _col0 (type: int), _col2 (type: double)
                outputColumnNames: _col0, _col1
                Statistics: Num rows: 5439049 Data size: 130537176 Basic stats: COMPLETE Column stats: NONE
                File Output Operator
                  compressed: true
                  Statistics: Num rows: 5439049 Data size: 130537176 Basic stats: COMPLETE Column stats: NONE
                  table:
                      input format: org.apache.hadoop.mapred.SequenceFileInputFormat
                      output format: org.apache.hadoop.hive.ql.io.HiveSequenceFileOutputFormat
                      serde: org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe
    
      Stage: Stage-0
        Fetch Operator
          limit: -1
          Processor Tree:
            ListSink
    

    对以上内容进行关键字解读:

    map阶段:

    • Group By Operator :Map端开启聚合操作
    • aggregations:分组聚合的算法,该案例采取avg(age)
    • keys: 这里是分组列+ 一个固定列 0
    • mode:Hash
    • outputColumnNames:最终输出三列。_col0, _col1, _col2
    • Reduce Output Operator:该阶段为map阶段聚合后的操作
    • key expressions:map端最终输出的key,该例为gender和0两列。
    • sort order:输出两列都正序排序
    • Map-reduce partition columns:表示Map阶段数据输出的分区列,该案例为gender和0两列进行分区。
    • value expressions:map端最终输出value,为一个结构体。

    Reduce阶段:

    • Group By Operator:reduce阶段的分组聚合操作。
    • aggregations: 分组聚合算法,avg(VALUE._col0)表示对map阶段输出的 value expressions的 _col0取平均值。
    • keys:指定分组聚合的key,有两列。为map阶段输出的key。
    • mode: mergepartial
    • outputColumnNames: 表示最终输出的列,该例为gender和num。
    • pruneGroupingSetId: 表示是否对最终输出的grouping id进行修剪,如果为true,则表示将keys最后一列抛弃。案例中为0列。
    • Select Operator:进行列投影操作。
    • expressions:输出的列。gender和num。

    通过查看以上的执行计划,可以看出在使用含有grouping sets语句的SQL中,hive执行计划并没有给出具体的实现细节。

    再执行具有多个聚合列的实例来看看:

    例2 聚合年龄和聚合性别多列合并测试。

    set hive.map.aggr=true;
    explain
    select gender,age,count(0) as num from temp.user_info_all 
    where ymd = '20230505'
    and age < 30 
    group by gender,age grouping sets(gender,age);
    

    注:grouping sets后进行分组的列一定要在之前的group by中进行申明。

    STAGE DEPENDENCIES:
      Stage-1 is a root stage
      Stage-0 depends on stages: Stage-1
    
    STAGE PLANS:
      Stage: Stage-1
        Map Reduce
          Map Operator Tree:
              TableScan
                alias: user_info_all
                Statistics: Num rows: 32634295 Data size: 783223080 Basic stats: COMPLETE Column stats: NONE
                Filter Operator
                  predicate: (age < 30) (type: boolean)
                  Statistics: Num rows: 10878098 Data size: 261074352 Basic stats: COMPLETE Column stats: NONE
                  Group By Operator
                    aggregations: count(0)
                    keys: gender (type: int), age (type: bigint), 0 (type: int)
                    mode: hash
                    outputColumnNames: _col0, _col1, _col2, _col3
                    Statistics: Num rows: 21756196 Data size: 522148704 Basic stats: COMPLETE Column stats: NONE
                    Reduce Output Operator
                      key expressions: _col0 (type: int), _col1 (type: bigint), _col2 (type: int)
                      sort order: +++
                      Map-reduce partition columns: _col0 (type: int), _col1 (type: bigint), _col2 (type: int)
                      Statistics: Num rows: 21756196 Data size: 522148704 Basic stats: COMPLETE Column stats: NONE
                      value expressions: _col3 (type: bigint)
          Reduce Operator Tree:
            Group By Operator
              aggregations: count(VALUE._col0)
              keys: KEY._col0 (type: int), KEY._col1 (type: bigint), KEY._col2 (type: int)
              mode: mergepartial
              outputColumnNames: _col0, _col1, _col3
              Statistics: Num rows: 10878098 Data size: 261074352 Basic stats: COMPLETE Column stats: NONE
              pruneGroupingSetId: true
              Select Operator
                expressions: _col0 (type: int), _col1 (type: bigint), _col3 (type: bigint)
                outputColumnNames: _col0, _col1, _col2
                Statistics: Num rows: 10878098 Data size: 261074352 Basic stats: COMPLETE Column stats: NONE
                File Output Operator
                  compressed: true
                  Statistics: Num rows: 10878098 Data size: 261074352 Basic stats: COMPLETE Column stats: NONE
                  table:
                      input format: org.apache.hadoop.mapred.SequenceFileInputFormat
                      output format: org.apache.hadoop.hive.ql.io.HiveSequenceFileOutputFormat
                      serde: org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe
    
      Stage: Stage-0
        Fetch Operator
          limit: -1
          Processor Tree:
            ListSink
    

    通过以上两个例子可以看出hive执行计划中没有具体的高级分组聚合如何实现分组方案。两者执行方式基本上差不多。

    在数据扫描和查询上的确减少了多次数据扫描和数据io操作。在一定程度上节省了计算资源。

    例3 使用cube替代grouping sets 。

    set hive.map.aggr=true;
    explain
    select gender,age,count(0) as num from temp.user_info_all 
    where ymd = '20230505'
    and age < 30 
    group by gender,age with cube;
    
    -- 等价语句
    select gender,age,count(0) as num from temp.user_info_all 
    where ymd = '20230505'
    and age < 30 
    group by gender,age grouping sets((gender,age),(gender),(age),());
    
    STAGE DEPENDENCIES:
      Stage-1 is a root stage
      Stage-0 depends on stages: Stage-1
    
    STAGE PLANS:
      Stage: Stage-1
        Map Reduce
          Map Operator Tree:
              TableScan
                alias: user_info_all
                Statistics: Num rows: 32634295 Data size: 783223080 Basic stats: COMPLETE Column stats: NONE
                Filter Operator
                  predicate: (age < 30) (type: boolean)
                  Statistics: Num rows: 10878098 Data size: 261074352 Basic stats: COMPLETE Column stats: NONE
                  Group By Operator
                    aggregations: count(0)
                    keys: gender (type: int), age (type: bigint), 0 (type: int)
                    mode: hash
                    outputColumnNames: _col0, _col1, _col2, _col3
                    Statistics: Num rows: 43512392 Data size: 1044297408 Basic stats: COMPLETE Column stats: NONE
                    Reduce Output Operator
                      key expressions: _col0 (type: int), _col1 (type: bigint), _col2 (type: int)
                      sort order: +++
                      Map-reduce partition columns: _col0 (type: int), _col1 (type: bigint), _col2 (type: int)
                      Statistics: Num rows: 43512392 Data size: 1044297408 Basic stats: COMPLETE Column stats: NONE
                      value expressions: _col3 (type: bigint)
          Reduce Operator Tree:
            Group By Operator
              aggregations: count(VALUE._col0)
              keys: KEY._col0 (type: int), KEY._col1 (type: bigint), KEY._col2 (type: int)
              mode: mergepartial
              outputColumnNames: _col0, _col1, _col3
              Statistics: Num rows: 21756196 Data size: 522148704 Basic stats: COMPLETE Column stats: NONE
              pruneGroupingSetId: true
              Select Operator
                expressions: _col0 (type: int), _col1 (type: bigint), _col3 (type: bigint)
                outputColumnNames: _col0, _col1, _col2
                Statistics: Num rows: 21756196 Data size: 522148704 Basic stats: COMPLETE Column stats: NONE
                File Output Operator
                  compressed: true
                  Statistics: Num rows: 21756196 Data size: 522148704 Basic stats: COMPLETE Column stats: NONE
                  table:
                      input format: org.apache.hadoop.mapred.SequenceFileInputFormat
                      output format: org.apache.hadoop.hive.ql.io.HiveSequenceFileOutputFormat
                      serde: org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe
    
      Stage: Stage-0
        Fetch Operator
          limit: -1
          Processor Tree:
            ListSink
    

    以上例3 cube语句和例2语句输出数据完全是不一样的。但其输出执行计划内容基本和例2一致。可以看出hive的执行计划对高级分组聚合拆分执行计划的支持还不是很好。

    使用高级分组聚合,要注意开启map端聚合模式。

    使用高级分组聚合,如上案例,仅使用一个作业就能够实现union写法需要多个作业才能实现的逻辑。

    从这点上来看能够减少多个作业在磁盘和网络I/O时的负担,是一种优化。

    但是同时也要注意因过度使用高级分组聚合语句而导致的数据急速膨胀问题。

    • 通常使用简单的group by 语句,一份数据只有一种聚合结果,一个分组聚合通常只有一个记录;

    • 使用高级分组聚合,例如cube,在一个作业中一份数据会存在多种聚合情况,最终输出是,每种聚合情况各自对应一条数据。

    注意事项:

    如果使用高级分组聚合的语句处理的底表,在数据量很大的情况下容易导致Map或者Reduce任务因硬件资源不足而崩溃。

    hive中使用hive.new.job.grouping.set.cardinality 配置项来应对以上情况。

    如果SQL语句中处理分组聚合情况超过该配置项指定的值,默认值为(30),则会创建一个新的作业。

    下一期:hive窗口分析函数解读以及带窗口分析函数的SQL性能分析

    按例,欢迎点击此处关注我的个人公众号,交流更多知识。

    后台回复关键字 hive,随机赠送一本鲁边备注版珍藏大数据书籍。

  • 相关阅读:
    2022年数维杯国际赛C题 如何利用大脑结构诊断阿尔茨海默氏病
    Vue3+node.js网易云音乐实战项目(七)
    使用Barrier共享鼠标键盘,通过macos控制ubuntu系统
    傻妞机器人对接TG【无需QQ】
    【Java基础篇 | 面向对象】—— 封装详解
    Linux项目自动化构建工具-make/Makefile
    从HashMap的执行流程开始 揭开HashMap底层实现
    Matlab论文插图绘制模板第44期—二元直方图(Histogram2)
    pytorch MNIST 手写数字识别 + 使用自己的测试集 + 数据增强后再训练
    高可用(keepalived)部署方案
  • 原文地址:https://www.cnblogs.com/lubians/p/17514776.html