根据定义,自关联是表自身的关联。自连接通常仅在给定数据中存在父子关系时使用。在本文中,我们将检查如何在Hive中编写自连接查询,它的性能问题以及如何优化它。开始之前我们可以看一下之前关于关联的文章
有个需求就是我们需要从一个查询结果上进行自关联,这里我使用WITH
语法构造了这个查询,更多关于WITH
的可以看看我们之前的文章
WITH sub_query AS(
SELECT * FROM employee_manager
)
select EMPL.EID, EMPL.NAME, MANAGER.NAME as MANAGER_NAME
from sub_query EMPL, sub_query MANAGER
where EMPL.eid = MANAGER.mid;
其实我们可以使用临时表来替代WITH
语法,这个时候可能会看到性能有所提示,常见的创建临时表的方式如下
CREATE TEMPORARY TABLE temp1(col1 string);
CREATE TEMPORARY TABLE temp2 AS Select * from table_name;
CREATE TEMPORARY TABLE temp3 LIKE table_name;
其实关于自关联的优化手段,和我们之前优化join
的差不多,我们简单看一下
WITH
,因为你通过WITH
创建出来的对象在多次使用时会多次执行查询