窗口函数能够为每行数据划分 一个窗口,然后对窗口范围内的数据进行计算,最后将计算结果返回给该行数据。
窗口函数的语法主要包括 窗口 和 函数 两个部分。其中窗口用于定义计算范围,函数用于定义计算逻辑。
- select order_id,
- order_date,
- amount,
- 函数(amount) over (窗口范围) 别名
- from order_info;
绝大多数的聚合函数都可以配合窗口函数使用,例如 max、min、sum、count、avg、以及前面学到的 collect_list、collect_set 等。
窗口范围的定义分为两种,一种是基于行的,一种是基于值的。
sum(amount) over(order by 排序字段 rows between 起点 and 终点) 别名
如果起点是下面两种:
则终点可以是:
如果起点是:
那么终点可以是:
如果起点是:
则终点可以是:
注意:
真正进行窗口函数计算的时候,必须选定一个排序的字段(order by),因为每个窗口函数的作用范围会由于 MapReduce 切片、Shuffle 这些因素而不确定(上一行和下一行可能在不同的切片中)。
实际意义:截止当前订单的销售总额。
sum(amount) over (order by 划分窗口范围的字段 range between 起点 and 终点) 别名
除了 over 关键字换成了 range ,别的没有变化。
注意:这里的 order by 并不是指的排序字段,基于值的窗口函数并不会排序,这里的 order by 指的是基于哪个字段在值进行窗口范围的划分。 order by 的字段可以是数值型(比如计算指定窗口范围值 num 的就必须是数值型)也可以是别的类型(这时 order by 的字段不可以通过 num 指定窗口范围 )。
同样,基于列的窗口函数中,[num] preceding 和 [num] following 中的 num 指的是当前值 -num 和 +num。
实际意义:截止当前日期的销售总额。
定义窗口范围时,可以指定分区字段,每个分区单独划分一个窗口。
sum(amount) over (partition by 划分窗口范围的字段 rows between 起点 and 终点) 别名
实际意义:每个用户截止到最后下单的累计下单金额。
over() 中的三部分内容 partition by、order by 、(rows |range) between ... and ... 均可省略不写。
partition by 省略不写,代表不分区。
order by 省略不写:
(rows |range) between ... and ...省略不写:
按照功能,常用窗口可划分为如下几类:聚合函数、跨行取值函数、排名函数。
功能:获取当前行的上/下边某行、某个字段的值。
- select
- order_id,
- user_id,
- order_date,
- amount,
- lag(order_date,1,'1970-01-01') over (partition by user_id order by order_date) last_date,
- lead(order_date,1,'9999-12-31') over (partition by user_id order by order_date) next_date
- from order_info;
注意:lead 和 lag 不能够自定义窗口范围(也就是不能添加 range between ... / rows between ...),因为 lead 和 lag 有它特定的逻辑,如果真的支持自定义窗口范围的话,上面的代码中应该默认是基于列的: range between unbounded preceding and current row ,这样的话根本无法实现取上一行或者下一行。
其中,lag 和 lead 的3个参数分别代表:(字段名,偏移量,默认值)。
运行结果:
实际意义:获取用户两次下单时间,我们可以计算出两次下单时间的差值。
功能:获取窗口内某一列的第一个值/最后一个值
- select
- order_id,
- user_id,
- order_date,
- amount,
- first_value(order_date,false) over (partition by user_id order by order_date) first_date,
- last_value(order_date,false) over (partition by user_id order by order_date) last_date
- from order_info;
first_value 和 last_value 的2个参数分别代表:(字段名,是否跳过 null)。
注意:这里的 first_value 和 last_value 是可以自定义窗口范围的,上面的代码中我们有 order by 字段,所以默认是基于列的 range between unbounded preceding and current row (<= 当前值,当前值)。
运行结果:
常用的排名函数: rank、dense_rank、row_number。
遇到相同名次时,rank 的结果是:1 1 3 ;而 dense_rank 是密集排名,结果是:1 1 2 ;row_number 是 1 2 3;
注意:排名函数也不支持自定义窗口范围!
- select
- st_id,
- course
- score,
- rank() over (partition by course order by score) rk,
- dense_rank() over(partition by course order by score desc) dense_rk,
- row_number() over(partition by course order by score desc) rn
- from score_info;
运行结果: