• 聊一聊数据库的行存与列存


    好多人最开始学习数据库的时候,是关系数据库,数据以表格形式存储,一行表示一条记录。其实这种就是典型的行存储(Row-based store),将表按行存储到磁盘分区上。

    而一些数据库还支持列存储(Column-based store),它将表按列存储到磁盘分区上。

    存储方式比较

    这两者的差异如下图:

    从图上可以看出,行存的时候,一行记录的属性值存储在临近的空间,然后接着是下一条记录的属性值。

    而列存的时候,单个属性所有的值存储在临近的的空间,即一列的所有数据连续存储的,每个属性有不同的空间。

    这里,大家可以自行思考一下这两种那种更适合查询,那种更适合修改?

    在数据写入上的对比:

    1)行存储的写入是一次完成。写入建立在操作系统的文件系统上,可以保证写入过程的成功或者失败,数据的完整性因此可以确定。

    2)列存储由于需要把一行记录拆分成单列保存,写入次数明显比行存储多,再加上磁头需要在盘片上移动和定位花费的时间,实际时间消耗会更大。所以,行存储在写入上占有很大的优势。

    3)还有数据修改,这实际也是一次写入过程。所以,数据修改也是以行存储占优。

    在数据读取上的对比:

    1)行存储通常将一行数据完全取出,如果只需要其中几列数据的情况,就会存在冗余列,出于缩短处理时间的考量,消除冗余列的过程通常是在内存中进行的。

    2)列存储每次读取的数据是集合的一段或者全部,不存在冗余性问题,查找内容连续存储,特别适合投影。

    3) 两种存储的数据分布。由于列存储的每一列数据类型是同质的,不存在二义性问题。比如说某列数据类型为整型 (int),那么它的数据集合一定是整型数据。这种情况使数据解析变得十分容易。相比之下,行存储则要复杂得多,因为在一行记录中保存了多种类型的数据,数据解析需要在多种数据类型之间频繁转换,这个操作很消耗 CPU,增加了解析的时间。所以,列存储的解析过程更有利于分析大数据。

    4)从数据的压缩以及更性能的读取来对比。同一列的数据,数据类型一致,列存的模式下就适合数据压缩,不同的列可以采用不同的压缩算法,压缩存储就会带来 IO 性能的提升。

    优缺点比较

    表的存储类型是表定义设计的第一步,客户业务类型是决定表的存储类型的主要因素。行、列存储模型各有优劣,建议根据实际情况选择。

    行、列存优缺点及适用场景比较见下表:

    行存

    列存

    优点

    数据被保存在一起。INSERT/UPDATE 容易。

    1. 查询时只有涉及到的列会被读取。

    2. 投影 (Projection) 很高效。

    3. 任何列都能作为索引。

    缺点

    选择 (Selection) 时即使只涉及某几列,所有数据也都会被读取。

    1. 选择完成时,被选择的列要重新组装。

    2. INSERT/UPDATE 比较麻烦。

    3. 点查询不适合。

    适用场景

    1. 点查询 (返回记录少,基于索引的简单查询)。

    2. 增、删、改操作较多的场景。

    1. 统计分析类查询 (OLAP,比如数据仓库业务,此类型的表上会做大量的汇聚计算,且涉及的列操作较少,关联、分组操作较多)。

    2. 即时查询(查询条件不确定,行存表扫描难以使用索引)。

    行存与列存实验

    openGauss 支持行列混合存储,可以在建表的时候指定存储方式。下面我们进行一下实验。

    实验环境:华为云服务器 + openGauss 企业版 3.0.0 + openEuler20.03
    创建行存表 custom1 和列存表 custom2 ,插入 50 万条记录。

    openGauss=# create table custom1 (id integer,name varchar2(20)); CREATE TABLE openGauss=# create table custom2 (id integer,name varchar2(20)) with (orientation = column); CREATE TABLE openGauss=# insert into custom1 select n,'testtt'||n from generate_series(1,500000) n; INSERT 0 500000 openGauss=# insert into custom2 select * from custom1; INSERT 0 500000

    我们看下两个表的存储空间,比较 Size 列,可以看出列存表比行存表占用存储空间小的非常多,差不多是行存表空间的 1/7。

    openGauss=# \d+                                            List of relations  Schema |    Name    | Type  | Owner |    Size    |               Storage                | Description --------+------------+-------+-------+------------+--------------------------------------+-------------  public | custom1    | table | omm   | 24 MB      | {orientation=row,compression=no}     |  public | custom2    | table | omm   | 3104 kB    | {orientation=column,compression=low} |

    比较下插入一条新记录的时间,列存表要稍微慢一点。

    openGauss=# explain analyze insert into custom1 values(1,'zhang3');                                           QUERY PLAN -----------------------------------------------------------------------------------------------  [Bypass]  Insert on custom1  (cost=0.00..0.01 rows=1 width=0) (actual time=0.059..0.060 rows=1 loops=1)    ->  Result  (cost=0.00..0.01 rows=1 width=0) (actual time=0.001..0.001 rows=1 loops=1)  Total runtime: 0.135 ms (4 rows)  openGauss=# explain analyze insert into custom2 values(1,'zhang3');                                           QUERY PLAN -----------------------------------------------------------------------------------------------  Insert on custom2  (cost=0.00..0.01 rows=1 width=0) (actual time=0.119..0.120 rows=1 loops=1)    ->  Result  (cost=0.00..0.01 rows=1 width=0) (actual time=0.001..0.002 rows=1 loops=1)  Total runtime: 0.207 ms (3 rows)

    最后删除测试表。

    openGauss=# drop table custom1; DROP TABLE openGauss=#drop table custom2; DROP TABLE

    感兴趣的同学可以自己测试更多的的场景,比如创建大宽表、update 表等场景测试下。

    选择建议

    • 更新频繁程度:数据如果频繁更新,选择行存表。

    • 插入频繁程度:频繁的少量插入,选择行存表。一次插入大批量数据,选择列存表。

    • 表的列数:一般情况下,如果表的字段比较多即列数多(大宽表),查询中涉及到的列不多的情况下,适合列存储。如果表的字段个数比较少,查询大部分字段,那么选择行存储比较好。

    • 查询的列数:如果每次查询时,只涉及了表的少数(<50% 总列数)几个列,选择列存表。(不要问剩下的列干啥用,甲方说有用就是有用。)

    • 压缩率:列存表比行存表压缩率高。但高压缩率会消耗更多的 CPU 资源。

    注意事项

    列存由于特殊的存储方式,使用时约束比较多。比如,列存表不支持数组、不支持生成列、不支持创建全局临时表、不支持外键,支持的数据类型也会比行存要少。使用时需要查看对应的数据库文档。

     

  • 相关阅读:
    IT行业就业方向:探索未来的职业机会
    R语言编写用户自定义函数:处理可能出错的代码、遇到错误继续处理而不停止代码运行
    [EI复现】基于主从博弈的新型城镇配电系统产消者竞价策略(Matlab代码实现)
    IgH详解十二、IgH实现使用ENI文件配置从站(一)
    [Java]Redission入门使用
    C语言源代码系列-管理系统之小学生测验
    高速电路设计----第三章
    excel中怎样将数据合并到一个单元格用逗号隔开
    工行(工银聚富通)-申请退款
    OSI模型与TCP/IP协议族
  • 原文地址:https://blog.csdn.net/hebiwen95/article/details/126058340