• 下一代实时数据库:Apache Doris 【五】数据表的创建


    3 章 数据表的创建

    3.1 创建用户和数据库

    1)创建 test 用户

    mysql -h hadoop1 -P 9030 -uroot -p

    create user ‘test’ identified by ‘test’;

    2)创建数据库

    create database test_db;

    3)用户授权

    grant all on test_db to test;

    3.2 基本概念

    在 Doris 中,数据都以关系表(Table)的形式进行逻辑上的描述。

    3.2.1 Row & Column

    一张表包括行(Row)和列(Column)。Row 即用户的一行数据。Column 用于描述一

    行数据中不同的字段。

    ⚫ 在默认的数据模型中,Column 只分为排序列和非排序列。存储引擎会按照排序列

    对数据进行排序存储,并建立稀疏索引,以便在排序数据上进行快速查找。

    ⚫ 而在聚合模型中,Column 可以分为两大类:Key 和 Value。从业务角度看,Key 和

    Value 可以分别对应维度列和指标列。从聚合模型的角度来说,Key 列相同的行,

    会聚合成一行。其中 Value 列的聚合方式由用户在建表时指定。

    3.2.2 Partition & Tablet

    在 Doris 的存储引擎中,用户数据首先被划分成若干个分区(Partition),划分的规则通

    常是按照用户指定的分区列进行范围划分,比如按时间划分。而在每个分区内,数据被进一

    步的按照 Hash 的方式分桶,分桶的规则是要找用户指定的分桶列的值进行 Hash 后分桶。

    每个分桶就是一个数据分片(Tablet),也是数据划分的最小逻辑单元。

    ⚫ Tablet 之间的数据是没有交集的,独立存储的。Tablet 也是数据移动、复制等操作

    的最小物理存储单元。

    ⚫ Partition 可以视为是逻辑上最小的管理单元。数据的导入与删除,都可以或仅能针

    对一个 Partition 进行。

    3.3 建表示例

    3.3.1 建表语法

    使用 CREATE TABLE 命令建立一个表(Table)。更多详细参数可以查看:

    HELP CREATE TABLE;

    建表语法:

    CREATE [EXTERNAL] TABLE [IF NOT EXISTS] [database.]table_name

    (column_definition1[, column_definition2, …]

    [, index_definition1[, index_definition12,]])

    [ENGINE = [olap|mysql|broker|hive]]

    [key_desc]

    [COMMENT “table comment”];

    [partition_desc]

    [distribution_desc]

    [rollup_index]

    [PROPERTIES (“key”=“value”, …)]

    [BROKER PROPERTIES (“key”=“value”, …)];

    Doris 的建表是一个同步命令,命令返回成功,即表示建表成功。

    Doris 支持支持单分区和复合分区两种建表方式。

    1)复合分区:既有分区也有分桶

    第一级称为 Partition,即分区。用户可以指定某一维度列作为分区列(当前只支持整型

    和时间类型的列),并指定每个分区的取值范围。

    第二级称为 Distribution,即分桶。用户可以指定一个或多个维度列以及桶数对数据进

    行 HASH 分布。

    2)单分区:只做 HASH 分布,即只分桶。

    3.3.2 字段类型

    image-20230921143418355

    image-20230921143437696

    注:聚合模型在定义字段类型后,可以指定字段的 agg_type 聚合类型,如果不指定,

    则该列为 key 列。否则,该列为 value 列, 类型包括:SUM、MAX、MIN、REPLACE。

    3.3.2 建表示例

    我们以一个建表操作来说明 Doris 的数据划分。

    3.3.2.1 Range Partition

    CREATE TABLE IF NOT EXISTS example_db.expamle_range_tbl

    (

    user_id LARGEINT NOT NULL COMMENT “用户 id”,

    date DATE NOT NULL COMMENT “数据灌入日期时间”,

    timestamp DATETIME NOT NULL COMMENT “数据灌入的时间戳”,

    city VARCHAR(20) COMMENT “用户所在城市”,

    age SMALLINT COMMENT “用户年龄”,

    sex TINYINT COMMENT “用户性别”,

    last_visit_date DATETIME REPLACE DEFAULT "1970-01-01

    00:00:00" COMMENT “用户最后一次访问时间”,

    cost BIGINT SUM DEFAULT “0” COMMENT “用户总消费”,

    max_dwell_time INT MAX DEFAULT “0” COMMENT “用户最大停留时间”,

    min_dwell_time INT MIN DEFAULT “99999” COMMENT “用户最小停留时间”

    )

    ENGINE=olap

    AGGREGATE KEY(user_id, date, timestamp, city, age, sex)

    PARTITION BY RANGE(date)

    (

    PARTITION p201701 VALUES LESS THAN (“2017-02-01”),

    PARTITION p201702 VALUES LESS THAN (“2017-03-01”),

    PARTITION p201703 VALUES LESS THAN (“2017-04-01”)

    )

    DISTRIBUTED BY HASH(user_id) BUCKETS 16

    PROPERTIES

    (

    “replication_num” = “3”,

    “storage_medium” = “SSD”,

    “storage_cooldown_time” = “2018-01-01 12:00:00”

    );

    3.3.2.2 List Partition

    CREATE TABLE IF NOT EXISTS example_db.expamle_list_tbl

    (

    user_id LARGEINT NOT NULL COMMENT “用户 id”,

    date DATE NOT NULL COMMENT “数据灌入日期时间”,

    timestamp DATETIME NOT NULL COMMENT “数据灌入的时间戳”,

    city VARCHAR(20) COMMENT “用户所在城市”,

    age SMALLINT COMMENT “用户年龄”,

    sex TINYINT COMMENT “用户性别”,

    last_visit_date DATETIME REPLACE DEFAULT "1970-01-01

    00:00:00" COMMENT “用户最后一次访问时间”,

    cost BIGINT SUM DEFAULT “0” COMMENT “用户总消费”,

    max_dwell_time INT MAX DEFAULT “0” COMMENT “用户最大停留时间”,

    min_dwell_time INT MIN DEFAULT “99999” COMMENT “用户最小停留时间”

    )

    ENGINE=olap

    AGGREGATE KEY(user_id, date, timestamp, city, age, sex)

    PARTITION BY LIST(city)

    (

    PARTITION p_cn VALUES IN (“Beijing”, “Shanghai”, “Hong Kong”),

    PARTITION p_usa VALUES IN (“New York”, “San Francisco”),

    PARTITION p_jp VALUES IN (“Tokyo”)

    )

    DISTRIBUTED BY HASH(user_id) BUCKETS 16

    PROPERTIES

    (

    “replication_num” = “3”,

    “storage_medium” = “SSD”,

    “storage_cooldown_time” = “2018-01-01 12:00:00”

    );

    后记

    📢博客主页:https://manor.blog.csdn.net

    📢欢迎点赞 👍 收藏 ⭐留言 📝 如有错误敬请指正!
    📢本文由 Maynor 原创,首发于 CSDN博客🙉
    📢不能老盯着手机屏幕,要不时地抬起头,看看老板的位置⭐
    📢专栏持续更新,欢迎订阅:https://blog.csdn.net/xianyu120/category_12401955.html

  • 相关阅读:
    【Flutter 面试题】如何理解Flutter中的Widget、State、Context ,他们是为了解决什么问题?
    【微信小程序】无纸化会议OA系统之首页搭建
    软考 系统架构设计师 简明教程 | 软件开发方法
    【记录】电脑无法访问https://spring.io/
    GEE图表——利用MODIS数据绘制同一点不同时序的NDVI均值ui.Chart.image.doySeriesByYear函数
    【排序15:多数元素 II】
    Invalid bound statement (not found)出现的原因和解决方法
    Python变量与注释高级用法
    C语言程序的编译(预处理) —— 下
    【运维知识进阶篇】集群架构-Nginx高可用Keepalived
  • 原文地址:https://blog.csdn.net/xianyu120/article/details/133134167