Hive谓词下推

在实际数仓开发中，我们经常会遇到多表关联，这个时候就会涉及到where与on的使用

Hive中的where与on在HQL中的区别为：

相同点
- where与on都是用作筛选条件
不同点
- on会显示所有匹配条件的值，不匹配条件的数据补NULL；where只显示满足条件的数据
- on作用不同类型的多表连接时结果不同；where只起连接作用，不同类型的多表连接时结果相同

首先，来看一个例子：使用a表指定数据关联b表：

写法一：

select * from a left join b on a.id=b.id where a.id='1';
1

写法二：

select * from a left join b on a.id=b.id and a.id='1';
1

写法三：

select * from (select * from a where id='1') t left join b on t.id=b.id;
1

三种写法的结果是等同的，也没有问题。如果需要以b表作为主表，关联查询a表，只需要修改连接类型为右外连接就可以了

但三种写法存在效率上的差异！

写法一与写法三都为高效写法，Hive只会取指定的数据进行join

写法二则效率较低，Hive先会查出所有数据进行join，然后再去过滤指定的数据

这可以通过explain执行计划证明：

写法一和写法三：

在这里插入图片描述

写法二：

在这里插入图片描述

从执行计划可以得出，写法一和写法三的数据在一开始扫描时候就已经过滤了。而写法二会拿所有的数据先进行查询join，然后再进行过滤

这种将过滤表达式提前执行的过程我们称为谓词下推

谓词下推（Predicate Pushdown，PPD）是指将过滤表达式尽可能移动至靠近数据源的位置，以使真正执行时能直接跳过无关的数据。简而言之，就是在合适的场景下，优先执行过滤条件

在这里插入图片描述

在Hive生成物理执行计划中，有一个配置项用于管理谓词下推优化是否开启：

set hive.optimize.ppd=true;
1

需要注意的是，Hive的PPD控制参数默认开启

基本概念：

保留行表(Preserved Row table)： 外连接中的表必须返回所有行。对于左外连接，左表是保留行表；对于右外连接，右表是保留行表；对于全外连接，两个表都是保留行表
空供应表(Null Supplying table)： 该表的不匹配行中的列使用空值填充。对于左外连接，左表数据全部返回，左表在右表中无法匹配的数据的列用NULL表示；对于右外连接，刚好相反；对于全外连接，左表和右表都会用NULL来填充无法匹配的数据
JOIN中的谓词(During Join predicate)： join on子句中的谓词。例如，在R1 join R2 on R1.x = 5中，谓词R1.x = 5是JOIN中的谓词
JOIN后的谓词(After Join predicate)： where子句中的谓词。例如，在R1 join R2 on R1.m = R2.n where R1.x = 5中，谓词R1.x = 5是JOIN后的谓词

官网对谓词下推规则的概括如下：

总结来说就是：

因此，可以得到如下谓词下推规则表：

item	[inner] join		left [outer] join		right [outer] join		full [outer] join
item	left table	right table	left table	right table	left table	right table	left table	right table
where	PPD	PPD	PPD	Not PPD	Not PPD	PPD	Not PPD	PPD
on	PPD	PPD	Not PPD	PPD	PPD	Not PPD	Not PPD	Not PPD

Hive谓词下推规则表中各场景分析案例详见文章：传送门

相关阅读:
智能疾病查询接口
JVS多账号统一登录方式介绍（包括低代码与原生应用）
离线学习(岭回归)
将 Python 项目打包成可输入参数的exe可执行文件
基于openssl的aes_cbc加解密操作、基于libxml2的xml文件解析
10-09 周一图解机器学习之深度学习感知机学习
Adobe是什么？
LeetCode //C - 637. Average of Levels in Binary Tree
华为云云耀云服务器L实例评测｜部署个人音乐流媒体服务器 navidrome
UnityVR一体机报错：GL_OUT_OF_MEMORY，[EGL] Unable to acquire context

原文地址：https://blog.csdn.net/weixin_55629186/article/details/134256044