码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 使用 Databend 助力 MySQL 的数据分析


    目标

    Databend 是一个非常先进的基于对象存储云原生数仓1可以提强大的计算分析及存储能力。让 MySQL DBA 非常眼馋。今天想把 MySQL 的 wubx 库从 MySQL 全量迁移到 Databend 中。 借助工具: dumpling2

    Dumpling 介绍

    Dumpling3 是支持以 SQL 文本或者 CSV 格式将 MySQL/TiDB 数据导出的工具。设计初衷是为了替代Mydumper4, 所以基本用法可以参考 Mydumper, 当然在实现中没有完全照搬 Mydumper, 因此存在与 Mydumper 不同的用法。更多帮助:github.com/pingcap/tid…

    遗憾的 TiDB 没有提供 dumpling 的单独下载,只提供了大的 package:pingcap.com/zh/product-… 内含:dumpling 二进制包,下载安装就省略了。

    环境说明

    现在 MySQL 中 wubx 库是 sysbench 生成的数据,10 个表,每个表 1000 万数据。迁移目标:DatabendDatabend 安装部署参考:databend.rs/doc/deploy

    使用 dumpling 备份现有数据库

    dumpling -uwubx -pwubxwubx -P3306 -h 192.168.2.10 --filetype csv -t 8 -o ./ -F 256M -B wubx
    

    命令说明:
    -u   mysql 用户名
    -p   mysql 密码
    -P   mysql 端口
    -h   mysql 机器 ip
    --filetype csv  指定使用 CSV 格式导出(非常重要)
    -t  8  使用 8 进程导出
    -o  ./ 指定导出来的文件存放位置
    -F 导出文件的大小
    -B  wubx  指定导出的数据库
    命令运行后导出来文件如下:

    因为 Databend 对 MySQL 的语法并没有完全兼容,这里需要去除 schema 上的一定义:

    • engine=InnoDB
    • 二级索引
    • 注释,这个在新的 planner 中已经支持

    针对 sbtest 表处理可以比较爆力的:

    sed -i 's/ ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_0900_ai_ci//g' *.sql
    

    处理完表结构如下:

    1.  cat wubx.sbtest1-schema.sql 
    2. /*!40101 SET NAMES binary*/;
    3. CREATE TABLE `sbtest1` (
    4.   `id` int NOT NULL,
    5.   `k` int NOT NULL DEFAULT '0',
    6.   `c` char(120) NOT NULL DEFAULT '',
    7.   `pad` char(60) NOT NULL DEFAULT '',
    8.   PRIMARY KEY (`id`)
    9. );

    好了,后续的我们开始使用 streaming_load 来加载数据了。

    使用 databend 的 streaming load 加载数据

    这里导入数据的核心是利用了 databend streaming load 功能,具体参考:databend.rs/doc/load-da… 首先在 databend 中创建 wubx 数据库

    echo "create database wubx"|mysql -h 127.0.0.1 -P3307 -uroot 
    

    因为表的数量较多,这里使用了一个脚本cat im.sh

    1. #!/bin/bash
    2. t=''
    3. getTable(){
    4.  str=${1#*.}
    5.  t=${str%%-*}
    6. }
    7. for i in `ls *-schema.sql`
    8. do
    9.         getTable $i
    10.         echo $t
    11.         cat $i | mysql -h127.0.0.1 -P3307 -uroot wubx
    12.         time ls *$t*.csv |xargs -P 8 -I{} curl -H "insert_sql:insert into wubx.$t format CSV" -H "skip_header:1" -F "upload=@{}" -XPUT http://root:@localhost:8000/v1/streaming_load
    13. done

    脚本比较粗糙,可以根据实际情况调整。运行脚本就可以完成数据加载。

    ‍

    进行分析计算

    到这里数据已经加载到 Databend 中了, 如果是你用的真实数据,你可以运行一下统计分析类数据测试一下了。顺便说一下,如果你为了体验 databend 的 join 功能。可以把新 planner 打开

    set enable_planner_v2=1;
    

    利用 show settings 确认 enable_planner =1 就可以使用 Databend 的 join 功能。目前 join 差不多 1-2 周就可以对外默认开放,大家在使用不足的方也可以在 github 上反馈一下。

    关于 Databend

    Databend 是一款开源、弹性、低成本,基于对象存储也可以做实时分析的新式数仓。期待您的关注,一起探索云原生数仓解决方案,打造新一代开源 Data Cloud。

    • Databend 文档:databend.rs/

    • Twitter:twitter.com/Datafuse_La…

    • Slack:datafusecloud.slack.com/

    • Wechat:Databend

    • GitHub :github.com/datafuselab…

    文章首发于公众号:Databend

    参考链接

    1. github.com/datafuselab…↩
    2. github.com/pingcap/tid…↩
    3. github.com/pingcap/tid…↩
    4. github.com/pingcap/myd…↩
  • 相关阅读:
    Python数据分析实验一:Python数据采集与存储
    STC单片机选择外部晶振烧录程序无法切换回内部晶振导致单片机不能使用
    Typescript 函数类型详解
    目标识别项目实战:基于Yolov7-LPRNet的动态车牌目标识别算法模型(二)
    工作中实用的 Git 操作
    Elasticserch教程(35) ik中文分词器+pinyin拼音分词器+同义词
    【PSO】基于PSO粒子群优化的物料点货物运输成本最低值计算matlab仿真,包括运输费用、代理人转换费用、运输方式转化费用和时间惩罚费用
    【Git】git多人共享协作添加成员并授权与git拉取或提交冲突解决
    云原生技术实践:Kubernetes集群的部署与运维
    【图解 HTTP】 Web及网络基础
  • 原文地址:https://blog.csdn.net/Databend/article/details/125517214
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号