• 面试题: LEAD 和 LAG 求每个用户的页面停留时长


    我们先来看看这两个函数的语法:

    LEAD(col,n,default) OVER()

    • 说明: 用于统计窗口内向下第n行的值
    • 参数1: 为要取值的列名
    • 参数2: 为向下第n行,默认值为1,这个值是固定的,不能动态的变化
    • 参数3: 为默认值,当向下第n行的值为NULL时,取默认值,如果不指定,则默认值为NULL

    LAG(col,n,default) OVER()

    • 说明: 用于统计窗口内向上第n行的值,与lead()刚好相反
    • 参数1: 为要取值的列名
    • 参数2: 为向上第n行,默认值为1,这个值是固定的,不能动态的变化
    • 参数3: 为默认值,当向上第n行的值为NULL时,取默认值,如果不指定,则默认值为NULL

    实例:求每个用户的页面停留时长

    页面停留时长:用户进入A页面,又进入B页面。进入A页面的时间为date1,进入B页面的时间为date2,那么在A页面的停留时间为date2-date1。实际生产场景中,可能会考虑不超过30min等等因素。

    1.1、创造数据

    CREATE TABLE log_info
    ( 
     uid string,
     dateline string,
     page string
    );
    -- 模拟数据 
    INSERT INTO log_info VALUES ('1001', '2021-08-10 10:18:31', 'url3'),
    ('1001', '2021-08-10 10:01:24', 'url1'),
    ('1001', '2021-08-10 10:05:22', 'url2'),
    ('1002', '2021-08-10 10:10:31', 'url1'),
    ('1002', '2021-08-10 10:15:31', 'url2'),
    ('1002', '2021-08-10 10:18:31', 'url3');
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13

    1.2、常规方法: 排序,自关联

    1.2.1、排序

    SELECT *, 
        ROW_NUMBER() OVER(PARTITION BY uid ORDER BY dateline) rank
    FROM log_info 
    
    • 1
    • 2
    • 3

    在这里插入图片描述

    1.2.2、自关联

    SELECT t1.uid,
        t1.dateline start_time,
        t2.dateline end_time,
        t1.page
    FROM 
        (SELECT *,
             ROW_NUMBER() OVER(PARTITION BY uid ORDER BY  dateline) rank
        FROM log_info ) t1
    LEFT JOIN 
        (SELECT *,
             ROW_NUMBER() OVER(PARTITION BY uid ORDER BY  dateline) rank
        FROM log_info ) t2
    ON t1.uid = t2.uid AND t1.rank+1=t2.rank;
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13

    用户进入一个页面和跳到另一个页面的时间,通过这两个时间的差值就是我们要计算的用户页面停留时长
    在这里插入图片描述

    1.3、LEAD

    SELECT   uid,
       dateline,
       lead(dateline,1) over(distribute by uid sort by dateline asc) as dateline_end,
       page
     FROM log_info; 
    
    • 1
    • 2
    • 3
    • 4
    • 5
  • 相关阅读:
    IO示例练习
    Linux打包和使用动静态库
    SpringMVC自定义视图解析器
    【校招VIP】产品项目分析之竞品分析
    【unaipp】tabBar配置/tabBar图标无法显示
    ElasticSearch Query DSL(四)
    android 快速实现 圆角矩形控件 及 圆形控件
    基于java的大学教室管理系统——计算机毕业设计
    第五届“强网”拟态防御国际精英挑战赛——预选赛入围战队篇
    qt 复杂界面信号槽设计
  • 原文地址:https://blog.csdn.net/wuxintdrh/article/details/128199338