hive、spark、presto 中的增强聚合-grouping sets、rollup、cube


-- TODO 必须开区map端合并
select 
     维度A
    ,维度B
    ,维度C
    ,聚合函数(度量字段) 
    ,grouping__id
from 表名 [where ]
group by A,B,C 
grouping sets( (A),(A,B),(A,B,C),..维度组合 )

presto、FlinkSQL、SparkSQL-语法：


select 
     维度A
    ,维度B
    ,维度C
    ,聚合函数(度量字段) 
    ,grouping(A,B,C) as grouping_id
from 表名 [where ]
group by
grouping sets( (A),(A,B),(A,B,C),..维度组合 )

语法区别：

1、hiveSQL中 group by 后面必须添加分组的字段

presto、flinksql、sparksql group by 后面不需要指定分组字段

2、hiveSQL中可以使用 grouping__id字段

presto、flinksql、sparksql 中并没有提供 grouping__id字段，需要使用grouping(a,b,c) 函数来计算

代码示例(HiveSQL):


-- TODO 必须开区map端合并
set hive.map.aggr=true;
SELECT prov,city,area,count(1),grouping__id
FROM (select '河北省' as prov,'石家庄市' as city,'新华区' as area,'张1' as name union all 
      select '河北省','石家庄市','新华区','张2' union all 
      select '河南省','郑州市','高开区','张3' union all 
      select '河南省','郑州市','高开区','张4' union all 
      select '河南省','郑州市','高开区','张5' union all 
      select '河南省','新乡市','中华区','张6') AS person_info_df
group by prov,city,area grouping sets (
    (prov,city,area),
    (prov)
)
;

代码示例(presto、flinkSQL、sparkSQL):


SELECT prov,city,area,count(1),grouping(prov,city,area) as grouping_id
FROM (VALUES  ('河北省','石家庄市','新华区','张1'),
              ('河北省','石家庄市','新华区','张2'),
              ('河南省','郑州市','高开区','张3'),
              ('河南省','郑州市','高开区','张4'),
              ('河南省','郑州市','高开区','张5'),
              ('河南省','新乡市','中华区','张6')) AS person_info_df (prov,city,area,name)
group by grouping sets (
    (prov,city,area),
    (prov)
)
;

3、with rollup - 上卷维度组合

功能说明：

上卷维度组合，较grouping sets相比，不需要指定维度组合

GROUP BY a, b, c, WITH ROLLUP 等价于

GROUP BY a, b, c GROUPING SETS ( (a, b, c), (a, b), (a), ( ))

hive-语法：


-- TODO 必须开区map端合并
select 
     维度A
    ,维度B
    ,维度C
    ,聚合函数(度量字段) 
    ,grouping__id
from 表名 [where ]
group by A,B,C 
with rollup

presto、FlinkSQL、SparkSQL-语法：


select 
     维度A
    ,维度B
    ,维度C
    ,聚合函数(度量字段) 
    ,grouping(A,B,C) as grouping_id
from 表名 [where ]
group by
rollup(A,B,C)

代码示例(HiveSQL):


-- 1.必须开区map端合并
set hive.map.aggr=true;
SELECT prov,city,area,count(1),grouping__id
FROM (select '河北省' as prov,'石家庄市' as city,'新华区' as area,'张1' as name union all 
      select '河北省','石家庄市','新华区','张2' union all 
      select '河南省','郑州市','高开区','张3' union all 
      select '河南省','郑州市','高开区','张4' union all 
      select '河南省','郑州市','高开区','张5' union all 
      select '河南省','新乡市','中华区','张6') AS person_info_df
group by prov,city,area with rollup
;

代码示例(presto、flinkSQL、sparkSQL):


SELECT prov,city,area,count(1),grouping(prov,city,area) as grouping_id
FROM (VALUES  ('河北省','石家庄市','新华区','张1'),
              ('河北省','石家庄市','新华区','张2'),
              ('河南省','郑州市','高开区','张3'),
              ('河南省','郑州市','高开区','张4'),
              ('河南省','郑州市','高开区','张5'),
              ('河南省','新乡市','中华区','张6')) AS person_info_df (prov,city,area,name)
group by rollup(prov,city,area) 
;

4、with cube - 全维度组合

功能说明：

多维度组合，会计算所有分组字段的维度组合，较grouping sets相比，不需要指定维度组合

GROUP BY a, b, c, WITH CUBE 等价于

GROUP BY a, b, c GROUPING SETS ( (a, b, c), (a, b), (b, c), (a, c), (a), (b), (c), ( ))

cube(key1,key2...) 维度组合数：

hive-语法：


-- TODO 必须开区map端合并
select 
     维度A
    ,维度B
    ,维度C
    ,聚合函数(度量字段) 
    ,grouping__id
from 表名 [where ]
group by A,B,C 
with cube

presto、FlinkSQL、SparkSQL-语法：


select 
     维度A
    ,维度B
    ,维度C
    ,聚合函数(度量字段) 
    ,grouping(A,B,C) as grouping_id
from 表名 [where ]
group by
cube(A,B,C)

代码示例(HiveSQL):


-- 1.必须开区map端合并
set hive.map.aggr=true;
SELECT prov,city,area,count(1),grouping__id
FROM (select '河北省' as prov,'石家庄市' as city,'新华区' as area,'张1' as name union all 
      select '河北省','石家庄市','新华区','张2' union all 
      select '河南省','郑州市','高开区','张3' union all 
      select '河南省','郑州市','高开区','张4' union all 
      select '河南省','郑州市','高开区','张5' union all 
      select '河南省','新乡市','中华区','张6') AS person_info_df
group by prov,city,area with cube
;

代码示例(presto、flinkSQL、sparkSQL):


SELECT prov,city,area,count(1),grouping(prov,city,area) as grouping_id
FROM (VALUES  ('河北省','石家庄市','新华区','张1'),
              ('河北省','石家庄市','新华区','张2'),
              ('河南省','郑州市','高开区','张3'),
              ('河南省','郑州市','高开区','张4'),
              ('河南省','郑州市','高开区','张5'),
              ('河南省','新乡市','中华区','张6')) AS person_info_df (prov,city,area,name)
group by cube(prov,city,area) 
;

5、Grouping__ID、grouping() 的使用场景

功能说明：

可以用来判断分组字段是否参与聚合，下面为 Grouping__ID 、grouping() 计算逻辑

使用场景：

当使用 grouping sets、with rollup、with cube进行聚合时，对不参与聚合的字段会使用null进行填充，这就导致查询结果中分组字段为null时，无法区分是填充的null还是分组字段本身的null

遇到上述情况，可以使用下面两种解决方式

1、将分组字段中的null进行替换处理，比如9999、other、其他

2、使用 Grouping__ID 或者 grouping() 进行区分

6、使用增强聚合会不会对查询性能有提升呢？

测试用例-grouping sets：


-- TODO 必须开区map端合并
set hive.map.aggr=true;
SELECT prov,city,area,count(1),grouping__id
FROM (select '河北省' as prov,'石家庄市' as city,'新华区' as area,'张1' as name union all 
      select '河北省','石家庄市','新华区','张2' union all 
      select '河南省','新乡市','中华区','张6') AS person_info_df
group by prov,city,area grouping sets (
    (prov,city,area),
    (prov,city),
    (prov)
)
;

测试用例-group by + union all：


set hive.map.aggr=true;
SELECT prov,city,area,count(1)
FROM (select '河北省' as prov,'石家庄市' as city,'新华区' as area,'张1' as name union all 
      select '河北省','石家庄市','新华区','张2' union all 
      select '河南省','新乡市','中华区','张6'
) AS person_info_df
group by prov,city,area
 
union all 
 
SELECT prov,city,null as area,count(1)
FROM (select '河北省' as prov,'石家庄市' as city,'新华区' as area,'张1' as name union all 
      select '河北省','石家庄市','新华区','张2' union all 
      select '河南省','新乡市','中华区','张6') AS person_info_df
group by prov,city
 
union all 
 
SELECT prov,null as city,null as area,count(1)
FROM (select '河北省' as prov,'石家庄市' as city,'新华区' as area,'张1' as name union all 
      select '河北省','石家庄市','新华区','张2' union all 
      select '河南省','新乡市','中华区','张6') AS person_info_df
group by prov

对比执行计划：

对比运行时长：

结论：

通过上面执行计划和运行时长的对比，使用 grouping sets、with cube、with rollup 确实比

group by + union all 方式的性能要好，因为增强group by避免了多次读取底表，降低生成

job的个数，从而减轻了磁盘和网络I/O时的压力。

7、对grouping sets、with cube、with rollup 的优化

由于在使用增强group by时，会在同一个job中完成多种维度组合的聚合(2的N次方)，当底表数据量太大或维度过多时，可能造成计算资源不够而导致任务失败。

在 Hive中可以使用 set hive.new.job.grouping.set.cardinality=30 来对job进行拆分。

参数说明：

验证SQL-实验组：

验证SQL-对照组：

相关阅读:
golang 定时器timer实用记录
 idea请问这两处标红是哪错了
 全球与中国亚麻籽行业消费量调研及未来产销需求分析报告2022-2028年
 pytorch测试的时候为何要加上model.eval()？
图片转文字怎么转？这些方法我只告诉你
 如何在熊市中寻找机会？
【Docker 基础教程】Mysql主从服务搭建------Mysql容器闪退及容器名冲突系列问题
 【Scss】＞＞＞或 /deep/ 或 ::v-deep 的作用
 详解 SpringMVC 中获取请求参数
 艾美捷RPMI-1640培养基L-谷氨酰胺化学性质说明
原文地址：https://blog.csdn.net/weixin_42845827/article/details/132970245

hive、spark、presto 中的增强聚合-grouping sets、rollup、cube

1、什么是增强聚合和多维分析函数？

2、grouping sets - 指定维度组合

3、with rollup - 上卷维度组合

4、with cube - 全维度组合

5、Grouping__ID、grouping() 的使用场景

6、使用 增强聚合 会不会对查询性能有提升呢？

7、对grouping sets、with cube、with rollup 的优化

6、使用增强聚合会不会对查询性能有提升呢？