ClickHouse基本原理

ClickHouse基本原理
数据分片

数据分片是将数据进行横向切分，这是一种在面对海量数据的场景下，解决存储和查询瓶颈的有效手段，是一种分治思想的体现。 ClickHouse支持分片，而分片则依赖集群。每个集群由1到多个分片组成，而每个分片则对应了ClickHouse的1个服务节点。分片的数量上限取决于节点数量（1个分片只能对应1个服务节点）。

当创建好了这张表之后，那么一次批量插入，就可能形成多个分区，其实每个分区，就是表存储目录中的一个子文件夹

假设用一个文件夹来存储这张表的所有数据，为了提高效率，可以考虑把表的所有数据，按照某个维度，分割成多个子文件夹，假设以日期字段为例，查询不同的月份，到表文件夹的不同子文件夹中寻找即可

列式存储

对于 OLAP 技术来说，一般都是这对大量行少量列做聚合分析，所以列式存储技术基本可以说是 OLAP 必用的技术方案。列式存储相比于行式存储，列式存储在分析场景下有着许多优良的特性。
- 分析场景中往往需要读大量行但是少数几个列。在行存模式下，数据按行连续存储，所有列的数据都存储在一个block中，不参与计算的列在IO时也要全部读出，读取操作被严重放大。而列存模式下，只需要读取参与计算的列即可，极大的减低了IO cost，加速了查询。
- 同一列中的数据属于同一类型，压缩效果显著，压缩比高。列存往往有着高达十倍甚至更高的压缩比，节省了大量的存储空间，降低了存储成本。
- 更高的压缩比意味着更小的data size，从磁盘中读取相应数据耗时更短。
- 自由的压缩算法选择。不同列的数据具有不同的数据类型，适用的压缩算法也就不尽相同。可以针对不同列类型，选择最合适的压缩算法。
- 高压缩比，意味着同等大小的内存能够存放更多数据，系统cache效果更好。
一级索引

MergeTree 的主键使用 PRIMARY KEY 定义，待主键定义之后，MergeTree 会依据index_granularity 间隔(默认 8192 行)，为数据表生成一级索引并保存至 primary.idx 文件内。一级索引是稀疏索引，意思就是说:每一段数据生成一条索引记录，而不是每一条数据都生成索引，如果是每一条数据都生成索引，则是稠密索引。稀疏索引的好处，就是少量的索引标记，就能记录大量的数据区间位置信息，比如不到 24414 条标记信息，就能为 2E 条数据提供索引(算法:200000000 / 8192)。在 ClickHouse 中，一级索引常驻内存。总的来说: 一级索引和标记文件一一对齐，两个索引标记之间的数据，就是一个数据区间，在数据文件中，这个数据区间的所有数据，生成一个压缩数据块。

二级索引

又称之为跳数索引。目的和一级索引一样，是为了减少待搜寻的数据的范围。跳数索引的默认是关闭的，需要通过参数来开启，索引生成粒度由 granularity 控制，如果生成了二级索引，则会在分区目录下生成额外的:skp_idx_[Column].idx 与 skp_idx_[Column].mrk 文件。跳数索引的生成规则:按照特定规则每隔 granularity 个 index_granularity 条数据，就会生成一条跳数索引。比如 minmax 跳数索引，生成的是:granularity 个 index_granularity 条数据内的最大值最小值生成一条索引，如果将来需要针对构建二级索引的这个字段求最大值最小值，则可以帮助提高效率。跳数索引一共支持四种类型:minmax(最大最小)、set(去重集合)、 ngrambf_v1(ngram 分词布隆索引) 和 tokenbf_v1(标点符号分词布隆索引)，一张数据表支持同时声明多个跳数索引。比如:

GRANULARITY = 你在创建二级索引索引的指定的

INDEX_GRANULARITY = 8192 构建一条主键索引

GRANULARITY * INDEX_GRANULARITY 构建一条二级索引
```
CREATE TABLE skip_test(
    ID String,
    URL String,
    Code String,
    EventTime Date,
    INDEX a ID TYPE minmax GRANULARITY 5,
    INDEX b (length(ID) * 8) TYPE set(2) GRANULARITY 5,
    INDEX c (ID, Code) TYPE ngrambf_v1(3, 256, 2, O) GRANULARITY 5,
    INDEX d ID TYPE tokenbf_v1(256, 2, 0) GRANULARITY 5
) ENGINE= MergeTree()
    order by id;
```
关于跳数索引支持的多种类型的区别:
1. minmax:以 index_granularity 为单位，存储指定表达式计算后的 min、max 值;在等值和范围查询中能够帮助快速跳过不满足要求的块，减少 IO。
2. set(max_rows):以 index granularity 为单位，存储指定表达式的 distinct value 集合，用于快速判断等值查询是否命中该块，减少 IO。
3. ngrambf_v1(n, size_of_bloom_filter_in_bytes, number_of_hash_functions, random_seed):将 string 进行 ngram 分词后，构建 bloom filter，能够优化等值、like、in 等查询条件.
4. tokenbf_v1(size_of_bloom_filter_in_bytes, number_of_hash_functions, random_seed):与 ngrambf_v1 类似，区别是不使用 ngram 进行分词，而是通过标点符号进行词语分割。
5. bloom_filter([false_positive]):对指定列构建 bloom filter，用于加速等值、like、in 等查询条件的执行。
数据压缩

ClickHouse 的数据存储文件 column.bin 中存储是一列的数据，由于一列是相同类型的数据，所以方便高效压缩。在进行压缩的时候，请注意:一个压缩数据块由头信息和压缩数据两部分组成，头信息固定使用 9 位字节表示，具体由 1 个 UInt8(1字节)整型和 2 个 UInt32(4字节)整型组成，分别代表使用的压缩算法类型、压缩后的数据大小和压缩前的数据大小。每个压缩数据块的体积，按照其压缩前的数据字节大小，都被严格控制在 64KB~1MB，其上下限分别由 min_compress_block_size(默认65536=64KB)与 max_compress_block_size(默认1048576=1M)参数指定。具体压缩规则:

原理的说法: 每 8192 条记录，其实就是一条一级索引、一个索引区间压缩成一个数据块。

1、单个批次数据 size < 64KB:如果单个批次数据小于 64KB，则继续获取下一批数据，直至累积到size >= 64KB时，生成下一个压缩数据块。如果平均每条记录小于8byte，多个数据批次压缩成一个数据块

2、单个批次数据 64KB <= size <=1MB:如果单个批次数据大小恰好在 64KB 与 1MB 之间，则直接生成下一个压缩数据块。

3、单个批次数据 size > 1MB:如果单个批次数据直接超过 1MB，则首先按照 1MB 大小截断并生成下一个压缩数据块。剩余数据继续依照上述规则执行。此时，会出现一个批次数据生成多个压缩数据块的情况。如果平均每条记录的大小超过 128byte,则会把当前这一个批次的数据压缩成多个数据块。
相关阅读:
北京迪文DWIN 4.3吋 DMT48270C043_06WT 触控屏(DGUS II屏) Bring-up
post和get
工作中常见的linux命令
 vue项目，如何关闭eslint检测？多种解决办法
 MySQL数据库更换数据路径
 使用Apache ECharts同时绘制多个统计图表
 20.移植Freetype字体库
 AES缓存碰撞攻击在美国太空安全挑战赛中的应用
 【Transformers】第 6 章：总结
 详解QColor的使用
原文地址：https://blog.csdn.net/weixin_35973945/article/details/125895889

数据分片

列式存储

一级索引

二级索引

数据压缩