• 面试题: LEAD 和 LAG 求每个用户的页面停留时长


    我们先来看看这两个函数的语法:

    LEAD(col,n,default) OVER()

    • 说明: 用于统计窗口内向下第n行的值
    • 参数1: 为要取值的列名
    • 参数2: 为向下第n行,默认值为1,这个值是固定的,不能动态的变化
    • 参数3: 为默认值,当向下第n行的值为NULL时,取默认值,如果不指定,则默认值为NULL

    LAG(col,n,default) OVER()

    • 说明: 用于统计窗口内向上第n行的值,与lead()刚好相反
    • 参数1: 为要取值的列名
    • 参数2: 为向上第n行,默认值为1,这个值是固定的,不能动态的变化
    • 参数3: 为默认值,当向上第n行的值为NULL时,取默认值,如果不指定,则默认值为NULL

    实例:求每个用户的页面停留时长

    页面停留时长:用户进入A页面,又进入B页面。进入A页面的时间为date1,进入B页面的时间为date2,那么在A页面的停留时间为date2-date1。实际生产场景中,可能会考虑不超过30min等等因素。

    1.1、创造数据

    CREATE TABLE log_info
    ( 
     uid string,
     dateline string,
     page string
    );
    -- 模拟数据 
    INSERT INTO log_info VALUES ('1001', '2021-08-10 10:18:31', 'url3'),
    ('1001', '2021-08-10 10:01:24', 'url1'),
    ('1001', '2021-08-10 10:05:22', 'url2'),
    ('1002', '2021-08-10 10:10:31', 'url1'),
    ('1002', '2021-08-10 10:15:31', 'url2'),
    ('1002', '2021-08-10 10:18:31', 'url3');
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13

    1.2、常规方法: 排序,自关联

    1.2.1、排序

    SELECT *, 
        ROW_NUMBER() OVER(PARTITION BY uid ORDER BY dateline) rank
    FROM log_info 
    
    • 1
    • 2
    • 3

    在这里插入图片描述

    1.2.2、自关联

    SELECT t1.uid,
        t1.dateline start_time,
        t2.dateline end_time,
        t1.page
    FROM 
        (SELECT *,
             ROW_NUMBER() OVER(PARTITION BY uid ORDER BY  dateline) rank
        FROM log_info ) t1
    LEFT JOIN 
        (SELECT *,
             ROW_NUMBER() OVER(PARTITION BY uid ORDER BY  dateline) rank
        FROM log_info ) t2
    ON t1.uid = t2.uid AND t1.rank+1=t2.rank;
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13

    用户进入一个页面和跳到另一个页面的时间,通过这两个时间的差值就是我们要计算的用户页面停留时长
    在这里插入图片描述

    1.3、LEAD

    SELECT   uid,
       dateline,
       lead(dateline,1) over(distribute by uid sort by dateline asc) as dateline_end,
       page
     FROM log_info; 
    
    • 1
    • 2
    • 3
    • 4
    • 5
  • 相关阅读:
    React学习(六)— 状态管理Redux
    [运维|系统] Centos设置本地编码
    活性染料研究:Lumiprobe AF594 NHS 酯,5-异构体
    SpringMVC----自定义注解
    技术干货|昇思MindSpore NLP模型迁移之LUKE模型——阅读理解任务
    vConsole调试工具的三种使用方式
    Android修行手册 - POI操作Excel常用样式(字体,背景,颜色,Style)
    【数学建模】Topsis法python代码
    Java--Java版本和JDK版本
    Excel里实现 sum(case when xxx then xxx else xxx end)的用法
  • 原文地址:https://blog.csdn.net/wuxintdrh/article/details/128199338