码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 【用户画像】将数据迁移到ClickHouse(源码实现)、位图的介绍(bitmap)、位图在用户分群中的应用、位图的使用


    文章目录

    • 一 数据迁移至Clickhouse
      • 1 为何要迁移
      • 2 方案选型
      • 3 任务目标
      • 4 设计分析
      • 5 代码实现
        • (1 )pom.xml
        • (2)配置文件
        • (3)创建库
      • 6 打包发布
    • 二 在clickhouse中宽表转换为Bitmap表
      • 1 为什么用位图(Bitmap)?
        • (1)存储成本
        • (2)天然去重
        • (3)快速定位
        • (4)集合间计算
        • (5)优势场景
        • (6)局限性
      • 2 Bitmap在用户分群中的应用
        • (1)现状
        • (2)传统解决方案
        • (3)更好的方案
      • 3 在clickhouse中使用Bitmap表
        • (1) SQL实现
        • (2) 在clickhouse中使用Bitmap表
          • 建表和数据
          • 数据转换
          • 创建Bitmap表
          • 插入数据
          • 对Bitmap进行查询
            • 对Bitmap进行查询
            • 范围值查询
          • 函数总结

    一 数据迁移至Clickhouse

    1 为何要迁移

    标签计算完成后保存在hive虽然可以查询但是性能非常糟糕。而标签的使用往往是即时的。最常见的场景就是“用户分群”,也称“人群圈选”、“圈人”等等。

    分群操作就是根据多个标签组合,产生一个用户集合,供营销、广告等部门使用。而这些操作计算量大,产生结果需要时效性高。

    2 方案选型

    选择方案最重要的依据就是数据量和时效性要求。

    时效性 数据量 分群方案
    能接受隔天 无所谓 HIVE宽表
    即时产生 千万以下,标签百级 OLAP宽表(Elasticsearch,Clickhouse,Tidb…)
    即时产生 亿级,标签千级 Bitmap方式(Clickhouse,doris)

    适合的才是最好的,此任务选择用Clickhouse实现Bitmap方式存储。

    3 任务目标

    把hive中标签宽表数据,写入至Clickhouse的宽表。

    4 设计分析

    • 读取hive的宽表,在clickhouse中建立对应的宽表。

      因为并不是hive表到hive表,所以并不能够直接用insert select 解决。

    • 先通过把数据查询成为Dataframe ,再通过行动算子写入至Clickhouse的宽表。

    5 代码实现

    搭建模块 – task-export-ck

    (1 )pom.xml

    在poml文件中添加配置

        <dependencies>
            <dependency>
                <groupId>com.hzy.userprofilegroupId>
                <artifactId>task-commonartifactId>
                <version>1.0-SNAPSHOTversion>
            dependency>
        dependencies>
    
        <build>
            <plugins>
                
                <plugin>
                    <groupId>net.alchim31.mavengroupId>
                    <artifactId>scala-maven-pluginartifactId>
                    <version>3.4.6version>
                    <executions>
                        <execution>
                            
                            <goals>
                                <goal>compilegoal>
                                <goal>testCompilegoal>
                            goals>
                        execution>
                    executions>
                plugin>
    
                <plugin>
                    <groupId>org.apache.maven.pluginsgroupId>
                    <artifactId>maven-assembly-pluginartifactId>
                    <version>3.0.0version>
                    <configuration>
                        
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23
    • 24
    • 25
    • 26
    • 27
    • 28
    • 29
    • 30
    • 31
  • 相关阅读:
    榜单首发——前装搭载率站上10%大关,数字钥匙方案供应商TOP10
    【Python】使用 pyecharts 模块绘制动态时间线柱状图 ① ( 列表排序 | 使用 sorted 函数对容器进行排序 | 使用 list.sort 函数对列表进行排序 | 设置排序函数 )
    Python 自动化测试:数据驱动
    一幅长文细学Vue(一)——项目开发工具
    天翼云数字政府智慧数据中台通过认证
    弘扬时代新风建设网络文明,小趣带你揭秘肾透明细胞癌致瘤机制
    数据结构课设:基于字符串模式匹配算法的病毒感染检测问题
    asp.net售后维修管理系统VS开发sqlserver数据库web结构c#编程Microsoft Visual Studio
    解决“413 Request Entity Too Large”错误 代表请求包太大,服务器拒绝响应
    【Python实战】全球疫情数据采集, 并做可视化展示
  • 原文地址:https://blog.csdn.net/weixin_43923463/article/details/127628177
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号