码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 【hive】计算相邻两行时间戳的间隔(lag、lead)


    业务需要,需要计算同一个用户,通过同一个访问渠道,每次访问的时间间隔。

    主要要用到的lag和lead分析函数。这边借这个例子,详细展开来讲一下。

    一、lag和lead说明

    1. lag

    lag(col, n, default) over()

    • 说明: 用于统计窗口内向上第n行的值,与lead()刚好相反
    • 参数1: 为要取值的列名
    • 参数2: 为向上第n行,默认值为1,这个值是固定的,不能动态的变化
    • 参数3: 为默认值,当向上第n行的值为NULL时,取默认值,如果不指定,则默认值为NULL
       

    2. lead

    lead(col, n, default) over()

    • 说明: 用于统计窗口内向下第n行的值
    • 参数1: 为要取值的列名
    • 参数2: 为向下第n行,默认值为1,这个值是固定的,不能动态的变化
    • 参数3: 为默认值,当向下第n行的值为NULL时,取默认值,如果不指定,则默认值为NULL

    3. 用法说明

    1. select
    2. *,
    3. lag(col_1, 1, 'none') over(partition by col_2 order by col_3) as lag_col
    4. from table;
    • over()表示 lag()与lead()操作的数据都在over()的范围内,它里面可以使用partition by 语句(用于分组)和 order by 语句(用于排序)。
    • partition by col_2 order by col_3 表示以col_2字段进行分组,再以col_3字段进行排序。

    二、具体用法

    构造原始数据如下,表名为user_visit_table:

    使用lag函数,按user_id和visit_channel分组、然后按visit_time排序,获取到相邻的visit_time列,生成一个新的列,命名为time_lag,代码如下:

    1. SELECT
    2. user_id
    3. ,visit_channel
    4. ,visit_time
    5. ,LAG(visit_time) OVER(PARTITION BY user_id, visit_channel ORDER BY visit_time) AS time_lag
    6. FROM user_visit_table;

    执行结果如下:

    然后再计算visit_time和time_lag的差值,就比较简单了,代码如下: 

    1. SELECT
    2. *
    3. ,IF(t.time_lag IS NOT null, unix_timestamp(t.visit_time)-unix_timestamp(t.time_lag), 0) AS time_diff
    4. FROM
    5. (
    6. SELECT
    7. user_id
    8. ,visit_channel
    9. ,visit_time
    10. ,LAG(visit_time) OVER(PARTITION BY user_id, visit_channel ORDER BY visit_time) AS time_lag
    11. FROM user_visit_table
    12. ) t;

    执行结果如下:

    参考链接:

    hive分析函数lead()和lag()的应用_不想起的昵称的博客-CSDN博客_hive lead

  • 相关阅读:
    迭代器 Iterator
    音视频项目—基于FFmpeg和SDL的音视频播放器解析(十一)
    交换高级特性 —— DTP协商(trunk链路动态协商)+(交换机接口速率+双工模式 协商问题)+ 光接口无法UP常见的原因
    有手就行10——Jenkins+SonarQube代码审查
    金仓数据库KingbaseES安全指南--3.1. 用户管理
    Shell-基础(一):Shell解释器、Shell脚本
    最新ChatGPT4.0工具使用教程:GPTs,Midjourney绘画,AI换脸,GPT语音对话,文档分析一站式系统
    浅谈双指针技巧(三)利用快慢指针,查找链表中指定位置节点
    WEB安全之数据库mysql(一):Mysql数据库的基本操作、table表的操作、数据的增删改
    mysql超级聚合with rollup
  • 原文地址:https://blog.csdn.net/u011590738/article/details/125613952
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号