ClickHouse配置Hdfs存储数据

ClickHouse配置Hdfs存储数据
文章目录
- 背景
  配置单机
  配置HA高可用Hdfs集群
  性能测试
  统计trait最多的10个trait term
  统计性状xxx minValue > 500 0000的数量
  结论
  
  参考文档
背景

由于公司初始使用Hadoop这一套，所以希望ClickHouse也能使用Hdfs作为存储
看了下ClickHouse的文档，拿Hdfs举例来说，有两种方式来完成，一种是直接关联Hdfs上的数据文件，比如说TSV格式的文件，这种模式不支持插入数据。第二种是将Hdfs作为存储，可以理解为云存储方式，这篇文章讲解第二种方式的配置

官方文档：External Disks for Storing Data

配置单机

修改config.xml文件，一般路径在/etc/clickhouse-server/config.xml
```
 	<storage_configuration>
        <disks>
            <hdfs>
                <type>hdfstype>
                <endpoint>hdfs://hdfs1:9000/clickhouse/endpoint>
            hdfs>
        disks>
        <policies>
            <hdfs>
                <volumes>
                    <main>
                        <disk>hdfsdisk>
                    main>
                volumes>
            hdfs>
        policies>
    storage_configuration>

    <merge_tree>
        <min_bytes_for_wide_part>0min_bytes_for_wide_part>
    merge_tree>
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
```
配置后重启

 配置HA高可用Hdfs集群
1. 复制hadoop下的配置文件hdfs-site.xml到/etc/clickhouse-server/下
2. 修改config.xml配置文件，将endpoint中的标签内容，替换为cluster
```
        <disks>
            <hdfs>
                <type>hdfstype>
                <endpoint>hdfs://cluster1/clickhouse/endpoint>
            hdfs>
        disks>
1
2
3
4
5
6
```
这种方式的配置是没有端口的
1. 拷贝了hdfs-site.xml文件，但是ClickHouse还不能识别到该文件，所以需要配置在config.xml的配置文件下
```
    <hdfs>
        <libhdfs3_conf>/etc/clickhouse-server/hdfs-site.xmllibhdfs3_conf>
    hdfs>
1
2
3
```
这里在官方文档的另外一处有提到
地址：HDFS

配置完成，重启

这里配置集群模式有些折腾，看到之前有讲如果是hdfs-client.xml这种的，可以参考下。中间还设置过环境变量：
How do I use an HDFS engine in HA mode

性能测试

使用hdfs作为外部存储的时候，需要在建表时，设置存储策略，举例如下：
```
CREATE TABLE trait_term
(
	id UUID,
	termName String
)
ENGINE = MergeTree
PRIMARY KEY (id)
ORDER BY id
SETTINGS index_granularity = 1024, storage_policy='hdfs', index_granularity_bytes = 0;
1
2
3
4
5
6
7
8
9
```
需要添加storage_policy='hdfs', 这样数据就会存储到hdfs中，在hdfs文件系统中查看

查询性能对比：

trait表大概有1700w条数据，这里主要和之前不使用外部存储，使用clickhouse当前机器的存储做对比

统计trait最多的10个trait term

场景内部存储 hdfs存储
直接查询 0.767s 0.723s
创建视图查询 0.495s 0.471s
子查询优化 0.157s 0.172s

统计性状xxx minValue > 500 0000的数量

场景内部存储 hdfs存储
直接查询 0.263s 0.353s
子查询优化 0.131s 0.207s
创建视图走索引 0.01s 0.023s
降低稀疏索引粒度 0.007s 0.015s

结论

根据测试结果，hdfs外部存储会比直接内部存储性能差一点点，但是也差不了多少，使用hdfs可以避免单机存储不够的问题，与公司的技术栈也会保持一致

 参考文档

clickhouse之HDFS云存储
 clickhouse hive/hdfs引擎由于HDFS-HA报错问题解决
 How do I use an HDFS engine in HA mode
相关阅读:
数值分析复习：Richardson外推和Romberg算法
 C语言和Rust语言的互相调用(1)（C调用Rust）
pydantic 数据验证
 Java进阶03 IO基础
 Nginx 学习（五）Tomcat 服务器
 Linux--文件、进程、fork、open、系统调用、库函数相关知识
 Spring中事务传播特性（Propagation）
AI-Prompt 1.0 版简介&公测！你的AI提示词网站！
springboot医美容院预约管理系统java ssm
数据结构——堆
原文地址：https://blog.csdn.net/weixin_42220532/article/details/132629161

场景	内部存储	hdfs存储
直接查询	0.767s	0.723s
创建视图查询	0.495s	0.471s
子查询优化	0.157s	0.172s

场景	内部存储	hdfs存储
直接查询	0.263s	0.353s
子查询优化	0.131s	0.207s
创建视图走索引	0.01s	0.023s
降低稀疏索引粒度	0.007s	0.015s

文章目录

背景

配置单机

配置HA高可用Hdfs集群

性能测试

统计trait最多的10个trait term

统计性状xxx minValue > 500 0000的数量

结论

参考文档