码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • GaussDB(DWS)基于Flink的实时数仓构建


    合集 - 数据库最新分享(32)
    1.华为云峰会2024,GaussDB扬帆出海,给世界一个更优选择02-282.预算有限,资源冗余?DWS集群缩容如何帮你解决烦劳02-293.数智融合,华为云GaussDB(for MySQL)助力企业释放数据新价值03-014.RDS for MySQL Serverless公测上线:弹性伸缩,最高可降成本超80%03-045.GaussDB跨云容灾:实现跨地域的数据库高可用能力03-056.实例详解如何构建动态SQL语句03-057.GaussDB(DWS)运维利刃:TopSQL工具解析03-078.手把手带你认识GaussDB轻量化运维管理工具03-089.守护更多女性健康,华为云GeminiDB助力美柚数据库高效稳定迁移03-0810.GaussDB(DWS)集群通信:详解pooler连接池03-1111.Libcomm通信库:GaussDB(DWS) 为解决建联过多的小妙招03-1212.实例带你了解GaussDB数据库的LOCK TABLE03-1213.RDS for MariaDB“智能DBA助手”,让运维效率嗖嗖地!03-1214.实例带你了解GaussDB的索引管理03-1415.详解GaussDB(DWS)中3个防过载检查项03-1816.华为云数据库创新发展论坛,打造行业更优数据库底座!03-1917.GaussDB(分布式)实例故障处理03-1918.华为云GeminiDB新版本发布:全面支持Redis 6.203-2019.究竟什么样的数据库,才能承接RTA广告这个技术活!03-2020.GaussDB(DWS) 业务高可靠的三大利器:CN RETRY、远程读、ELB03-2521.走在前、做示范,苏州农商银行携华为云完成超级网银系统改造03-2522.分布式数据库技术的演进和发展方向03-2623.新版Redis不再“开源”,对使用者都有哪些影响?03-2724.cgroup、资源池、用户的关系..涉及到GaussDB(DWS)的资源设置03-2925.GeminiDB Cassandra接口新特性FLASHBACK发布:任意时间点秒级闪回04-0126.探索GaussDB(DWS)湖仓融合:Hudi与元数据打通的深度解析04-0127.详解数仓对象设计中序列SEQUENCE原理与应用04-0228.数仓调优实战:GUC参数调优04-0729.详讲openGauss 5.0 单点企业版如何部署_Centos7_x8604-0830.华为云GeminiDB,广告RTA的“登云梯”04-0931.DTC2024,华为云数据库创新融合大发展,打造世界级数据库!04-17
    32.GaussDB(DWS)基于Flink的实时数仓构建04-18
    收起

    本文分享自华为云社区《GaussDB(DWS)基于Flink的实时数仓构建》,作者:胡辣汤。

    大数据时代,厂商对实时数据分析的诉求越来越强烈,数据分析时效从T+1时效趋向于T+0时效,为了给客户提供极速分析查询能力,华为云数仓GaussDB(DWS)基于流处理框架Flink实现了实时数仓构建。在本期《GaussDB(DWS)基于Flink的实时数仓构建》的主题直播中,华为云数仓GaussDB(DWS)解决方案专家Eric老师,为您深度解析GaussDB(DWS)+Flink如何增强湖仓增量数据在不同数据模型层之间的实时流动能力,如何为消息数据流提供高性能通用入库能力,又如何构建极致的端到端实时数仓解决方案。

    1、增量计算的背景

    随着数智化时代的到来,数据量不断增长,为了充分挖掘数据价值,实时获取数据动态,GaussDB(DWS)通过与流引擎Flink结合,优化ETL Pipeline,从而数据分析时效实现T+0。

    Flink是一款开源的流处理框架,它能够实时处理大规模数据流,并具有高可靠性和高性能的特点。Flink支持流式数据处理、批处理和图形处理等多种计算模式,并提供了丰富的API和工具,可以方便地进行数据处理和分析。GaussDB(DWS)与Flink结合构建下一代Stream Warehouse,实现增量计算,可以为用户提供更加全面、高效的数据处理和分析能力。

    为什么需要增量计算能力?增量计算能力解决了哪些场景的痛点问题?

    • 高性能场景

    一些需要高性能的典型场景如下:

    (1)增量数据的实时ETL并更新物化视图,秒级更新;

    (2)数据在仓湖之间实时流动能力;

    (3)实时流数据不落盘,直达实时大屏。

    • 数据入库场景

    Kafka的数据直接入湖

    2、GaussDB(DWS)+Flink实现增量计算的架构设计

    GaussDB(DWS)与流引擎结合,实现企业数仓模型的分层、增量化加工,统一批流处理逻辑,一站式支持批、流、交互式、点查等多种场景,简化数据生产线架构复杂度,构建新一代实时增量数仓,满足企业日趋便捷化的数据生产线场景。

    三大实时能力

    GaussDB(DWS)

    Flink

    实时入出仓

    提升入库性能,支持Binlog表CDC功能,实现 “流表一体”

    GaussDB(DWS)对接Flink元数据,GaussDB(DWS)可以作为Flink的源表、结果表

    实时增量加工

    支持基于数据流表达的增量加工

    复杂SQL下推GaussDB(DWS),流表关联,多流关联等

    实时查询

    支持数据高效点查

    GaussDB(DWS)对接Flink元数据,GaussDB(DWS)可以作为Flink的维表,支持维表点查

    如下图,增量数据可以被流引擎实时地感知捕获到,并运行预置的增量计算任务,然后再写回到数仓的下一层模型里面。通过几次流引擎的迭代,使得贴源层的增量数据能迅速的反映到明细层以及最终的集市层,来支撑实时的BI报表分析、交互式分析等业务场景。

    3、 GaussDB(DWS)+Flink增量计算能力图介绍

    GaussDB(DWS)结合Flink的能力构建,涵盖以下四大功能:

    Catalog

    打通Flink元数据与湖仓元数据。

    Source

    仓内表通过Binlog将增量数据暴露出来让Flink及时感知,从而驱动实时增量数据运算任务的开始。

    Source connector算子,可以将一些条件下推至仓中完成点查任务。

    Sink

    Sink connector算子可以将job中的数据写回数仓中。

    流维

    流维算子提供了流数据关联维表的能力。

    GaussDB(DWS)结合Flink的非功能性构建:

    • CKPT建设

    每个算子implements flink的指定接口,将计算中间结果持久化下去,并做到功能幂等,即可接入flink灾难恢复处理能力,做到job的端到端数据exactly once。

    4、 生态工具streamer介绍

    为了便于用户一键操作数据入库,GaussDB(DWS)研发了streamer生态工具,用户不再需要自己写SQL,只需要在IDE中进行操作。

    操作步骤如下:

    第一步:配置kafka及数仓表。

    第二步:创建POJO类分别对应kafka消息体及数仓表行数据。

    第三步:编写自定义算子,实现自定义Mapping功能。系统提供默认1对1 Mapping算子,可直接使用。

    本期分享到此结束,更多关于GaussDB(DWS)产品技术解析、数仓产品新特性的介绍,请关注GaussDB(DWS)开发者平台,GaussDB(DWS)开发者平台为开发者们提供最新、最全的信息咨询,包括精品技术文章、最佳实践、直播集锦、热门活动、海量案例、智能机器人。让您学+练+玩一站式体验GaussDB(DWS)。

    GaussDB(DWS)开发者平台链接:https://bbs.huaweicloud.com/contents/dws/learning.html

    点击关注,第一时间了解华为云新鲜技术~

     

  • 相关阅读:
    【SpringCloud微服务全家桶学习笔记-GateWay网关(微服务入口)】
    刷题指南:关于输出内容的程序的小窍门
    拥抱 Spring 全新 OAuth 解决方案
    基于ssm的旅店管理系统
    中国国债发行数据集(2002-2023)
    基于R语言APSIM模型进阶应用与参数优化、批量模拟技术教程
    周赛368 合法分组的最少组数(灵神笔记)
    Linux-安装jenkins
    在安装pytorch过程中遇到mxnet安装问题
    Anaconda安装之后Spyder闪退解决办法
  • 原文地址:https://www.cnblogs.com/huaweiyun/p/18142923
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号