【用户画像】将数据迁移到ClickHouse（源码实现）、位图的介绍（bitmap）、位图在用户分群中的应用、位图的使用

文章目录

一数据迁移至Clickhouse
二在clickhouse中宽表转换为Bitmap表

一数据迁移至Clickhouse

1 为何要迁移

标签计算完成后保存在hive虽然可以查询但是性能非常糟糕。而标签的使用往往是即时的。最常见的场景就是“用户分群”，也称“人群圈选”、“圈人”等等。

分群操作就是根据多个标签组合，产生一个用户集合，供营销、广告等部门使用。而这些操作计算量大，产生结果需要时效性高。

2 方案选型

选择方案最重要的依据就是数据量和时效性要求。

时效性	数据量	分群方案
能接受隔天	无所谓	HIVE宽表
即时产生	千万以下，标签百级	OLAP宽表(Elasticsearch,Clickhouse,Tidb…)
即时产生	亿级，标签千级	Bitmap方式(Clickhouse，doris)

适合的才是最好的，此任务选择用Clickhouse实现Bitmap方式存储。

3 任务目标

把hive中标签宽表数据，写入至Clickhouse的宽表。

4 设计分析

读取hive的宽表，在clickhouse中建立对应的宽表。

因为并不是hive表到hive表，所以并不能够直接用insert select 解决。
先通过把数据查询成为Dataframe ，再通过行动算子写入至Clickhouse的宽表。

5 代码实现

搭建模块 – task-export-ck

（1 ）pom.xml

在poml文件中添加配置

    <dependencies>
        <dependency>
            <groupId>com.hzy.userprofilegroupId>
            <artifactId>task-commonartifactId>
            <version>1.0-SNAPSHOTversion>
        dependency>
    dependencies>

    <build>
        <plugins>
            
            <plugin>
                <groupId>net.alchim31.mavengroupId>
                <artifactId>scala-maven-pluginartifactId>
                <version>3.4.6version>
                <executions>
                    <execution>
                        
                        <goals>
                            <goal>compilegoal>
                            <goal>testCompilegoal>
                        goals>
                    execution>
                executions>
            plugin>

            <plugin>
                <groupId>org.apache.maven.pluginsgroupId>
                <artifactId>maven-assembly-pluginartifactId>
                <version>3.0.0version>
                <configuration>
                    
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31

相关阅读:
3D格式转换工具
【Go ~ 0到1 】第四天 6月30 defer,结构体,方法
Linux学习第23天：Linux中断驱动开发（二）：突如其来
Bert基础(十六)--Bert实战：中文文本分类任务-- transformers库实现
前端三剑客 - CSS
【NI国产替代】高速数据采集模块，最大采样率为 125 Msps，支持 FPGA 定制化
13.java中的抽象类和接口[20220622]
项目经理--要具备的能力
力扣 731. 我的日程安排表 II
数据中台稳定性的“四高” | StartDT Tech Lab 18

原文地址：https://blog.csdn.net/weixin_43923463/article/details/127628177