【Hive】MapReduce 如何实现 Hive SQL 的基本操作-count

Hive SQL 语法本质上分为 3 类：过滤模式、聚合模式、连接模式。

过滤模式：例如 where、having 等；
聚合模式：存在 Shuffle 过程，需要特别注意；
连接模式：分为有 Shuffle 连接和无 Shuffle 连接。

今天介绍聚合。

2.聚合模式

2.1 distinct

【Hive】MapReduce 如何实现 Hive SQL 的基本操作-distinct

2.2 count

count 分如下三种：

count(列)：null 值不会被计算；
count(*)：不会出现 count(列) 是 null 值情况下不计入行数的问题；统计时不会读取数据，只会使用 HDFS 文件每一行的偏移量；
count(1)：类似 count(*)。

2.2.1 count(列)

select count(score) from stu_tb;
1

MR 伪代码：

map(inkey, invalue, context):
	# 输入在 MR 看来只是字符串
	colsArray = invalue.split("\t")
	score = colsArray[4]
    # 将数据输出到 combine，每一行记录都会保存到 invalues 集合
    context.write(null, score)

combine(inkey, invalues, context):
    long part_sum = 0
    part_sum = invalues.size()
    context.write(null, part_sum)
    
reduce(inkey, invalues, context):
    long all_sum = 0
    # 将 combine 中汇总的数据进行加总，得到最终记录数
    for item in invalues:
        all_sum +== item
    context.write(null, all_sum)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18

2.2.2 count(*)

set hive.map.aggr=true;
select count(*) from stu_tb;
1
2

MR 伪代码：

map(inkey, invalue, context):
    context.write(null, inkey)

combine(inkey, invalues, context):
    # 逻辑和 count(列) 一致
    ...
    
reduce(inkey, invalues, context):
    # 逻辑和 count(列) 一致
    ...
1
2
3
4
5
6
7
8
9
10

2.2.3 count(1)

set hive.map.aggr=true;
select count(1) from stu_tb;
1
2

MR 伪代码：

map(inkey, invalue, context):
    # 不对 invalue 进行操作，直接输出，invalue 就是 1
    context.write(null, invalue)

combine(inkey, invalues, context):
    # 逻辑和 count(列) 一致
    ...
    
reduce(inkey, invalues, context):
    # 逻辑和 count(列) 一致
    ...
1
2
3
4
5
6
7
8
9
10
11

2.2.4 总结

count(列) 是针对列的计数，而 count(1) 和 count(*) 是针对表的计数。

count(列) 涉及字段的筛选，序列化与反序列化，所以 count(1) 和 count(*) 的性能占优。

但在 ORC 文件中性能差别不大。

相关阅读:
类和对象（一）this指针详解
maven-surefire-plugin 单元测试套件
网络安全学习：操作系统安装部署
使用 SolidJS 和 TypeScript 构建任务跟踪器
剑指Offer面试题解总结1-10
如何从消失的异常堆栈定位线上问题
windows编程之计时器
大数据下一代变革之必研究数据湖技术Hudi原理实战双管齐下-下
vue+springboot实现登录或注册滑动验证码（ AJ-Captcha）
css问题

原文地址：https://blog.csdn.net/weixin_45545090/article/details/126699636