• 每天一道大厂SQL题【Day26】脉脉真题实战(二)活跃时长的均值


    每天一道大厂SQL题【Day26】脉脉真题实战(二)活跃时长的均值

    大家好,我是Maynor。相信大家和我一样,都有一个大厂梦,作为一名资深大数据选手,深知SQL重要性,接下来我准备用100天时间,基于大数据岗面试中的经典SQL题,以每日1题的形式,带你过一遍热门SQL题并给出恰如其分的解答。

    一路走来,随着问题加深,发现不会的也愈来愈多。但底气着实足了不少,相信不少朋友和我一样,日积月累才是最有效的学习方式!

    每日语录

    C:\Users\ADMINI~1\AppData\Local\TemputoolsDoutuPlugin/tempImage1686573886875.gif

    学习!还是他娘地学习!

    第26题 中级题: 活跃时长的均值

    1. 需求列表

    昨日的活跃用户中,各个级别人才,当日最大活跃时长模块的活跃时长,占当日活跃总时长的比值的均值

    思路分析

    1. 计算每个用户每天在各个模块的活跃时长总和。
    2. 找到每个用户每天活跃时长最大的模块。
    3. 计算每个用户每天活跃时长最大模块的活跃时长占当天活跃总时长的比值。
    4. 按照用户的职业水平分组,计算每组用户当天活跃时长最大模块的活跃时长占当天活跃总时长比值的均值。

    答案获取

    建议你先动脑思考,动手写一写再对照看下答案,如果实在不懂可以点击下方卡片,回复:大厂sql 即可。
    参考答案适用HQL,SparkSQL,FlinkSQL,即大数据组件,其他SQL需自行修改。

    加技术群讨论

    点击下方卡片关注 联系我进群

    或者直接私信我进群

    附表

    表1:maimai.dau

    duidmoduleactive_duration列说明
    2020-01-011jobs324d: 活 跃 的 日 期 uid:用户的唯一编码module:用户活跃模块actre.duration:该模块下对应的活跃时长(单位:s)
    2020-01-012feeds445
    2020-01-013im345
    2020-01-022network765
    2020-01-023jobs342

    表2:maimai.users

    uidcareer_levelcitywork_length列说明
    1中级人才北京4uid:用户的唯一编码career level:人才级别
    2高级人才上海7
    3初级人才北京1city:用户所在城市work_length:用户工作年限
    4普通人才平顶山2
    -- 建表
    -- 表1 dau	记录了每日脉脉活跃用户的uid和不同模块的活跃时长
    create	or	replace	temporary	view	dau(d,	uid,	module, active_duration) as
    values ('2020-01-01', 1, 'jobs', 324),
    ('2020-01-01', 2, 'feeds', 445),
    ('2020-01-01', 3, 'im', 345),
    ('2020-01-02', 2, 'network', 765),
    ('2020-01-02', 3, 'jobs', 342);
    
    -- 表2 users 脉脉所有用户得一些注册属性
    create	or	replace	temporary	view	users(uid,	career_level, city, work_length) as
    values (1, '中级人才', '北京', 4),
    (2, '高级人才', '上海', 7),
    (3, '初级人才', '北京', 1),
    (4, '普通人才', '平顶山', 2); 
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15

    文末SQL小技巧

    提高SQL功底的思路。
    1、造数据。因为有数据支撑,会方便我们根据数据结果去不断调整SQL的写法。
    造数据语法既可以create table再insert into,也可以用下面的create temporary view xx as values语句,更简单。
    其中create temporary view xx as values语句,SparkSQL语法支持,hive不支持。
    2、先将结果表画出来,包括结果字段名有哪些,数据量也画几条。这是分析他要什么。
    从源表到结果表,一路可能要走多个步骤,其实就是可能需要多个子查询,过程多就用with as来重构提高可读性。
    3、要由简单过度到复杂,不要一下子就写一个很复杂的。
    先写简单的select from table…,每个中间步骤都执行打印结果,看是否符合预期, 根据中间结果,进一步调整修饰SQL语句,再执行,直到接近结果表。
    4、数据量要小,工具要快,如果用hive,就设置set hive.exec.mode.local.auto=true;如果是SparkSQL,就设置合适的shuffle并行度,set spark.sql.shuffle.partitions=4;

    后记

    📢博客主页:https://manor.blog.csdn.net

    📢欢迎点赞 👍 收藏 ⭐留言 📝 如有错误敬请指正!
    📢本文由 Maynor 原创,首发于 CSDN博客🙉
    📢不能老盯着手机屏幕,要不时地抬起头,看看老板的位置⭐
    📢专栏持续更新,欢迎订阅:https://blog.csdn.net/xianyu120/category_12182595.html

  • 相关阅读:
    O2OA(翱途)常见知识之 mysql 数据库备份
    基于SSH开发网上电器(购物商城)销售系统
    SelfKG代码阅读及相关工作
    FebHost:荷兰.NL域名一个富有影响力域名
    2. 一步步搭建多层神经网络及应用
    Factory Method
    阿冰的思考
    centos7 装机遇到的问题
    SQL通用语法与DDL操作
    iloc函数
  • 原文地址:https://blog.csdn.net/xianyu120/article/details/131786751