• 用Google CDC来同步Cloud SQL的数据到Bigquery


    在Google的云平台中,我创建了一个Cloud SQL的Postgresql实例,在上面保存了一些业务数据。现在需要定期把这些数据同步到Bigquery数据仓库中,这样我们就能在Bigquery上进行数据的后续分析处理,生成数据报表。

    Google提供了一个Datastream的服务,通过CDC(Capture data change)的方式,把Cloudsql数据库的改动,例如增删更新等操作,同步到Bigquery的数据集。以下将介绍如何设置Datastream来完成。

    因为我的Cloudsql实例没有暴露公网IP,因此我们需要设置VPC peering的方式,把Datastream的VPC和我的GCP项目的VPC网络连接起来。另外Cloudsql是在一个单独的Service network中,我们还需要通过反向代理的方式来连接到cloudsql

    设置Datastream私有连接

    在Datastream的Private Connectivity里面,新建一个连接profile。在profile里面我们需要设置VPC network,这个就是我们项目当前所在的VPC网络。然后需要分配一个IP地址段给Datastream来起一个子网。这个IP地址段不能是已分配的IP地址段,并且至少要具备/29的地址。

    设置防火墙规则

    在VPC网络的防火墙设置里面,新增两条规则,分别对应ingress和egress。其中target需要输入我们刚才分配的地址段,然后开放TCP:5432端口。

    设置反向代理

    在VPC网络里面设置一台VM,然后运行以下代码的脚本,设置一个反向代理

    1. #! /bin/bash
    2. export DB_ADDR=[IP]
    3. export DB_PORT=[PORT]
    4. export ETH_NAME=$(ip -o link show | awk -F': ' '{print $2}' | grep -v lo)
    5. export LOCAL_IP_ADDR=$(ip -4 addr show $ETH_NAME | grep -Po 'inet \K[\d.]+')
    6. echo 1 > /proc/sys/net/ipv4/ip_forward
    7. iptables -t nat -A PREROUTING -p tcp -m tcp --dport $DB_PORT -j DNAT \
    8. --to-destination $DB_ADDR:$DB_PORT
    9. iptables -t nat -A POSTROUTING -j SNAT --to-source $LOCAL_IP_ADDR

    这里的DB_ADDR,DB_PORT填写CloudSQL的PG数据库的地址和端口

    PG配置

    连接到PG数据库,创建一个publication和replication slot

    以下命令将赋予用户创建replication的role

    ALTER USER USER_NAME WITH REPLICATION;

    创建一个publication,这里假设我们要复制public这个schma的test表,那么把以下的SCHEMA1替换为public,把TABLE1替换为test

    CREATE PUBLICATION PUBLICATION_NAME FOR TABLE SCHEMA1.TABLE1, SCHEMA2.TABLE2;

    创建一个replication slot

    SELECT PG_CREATE_LOGICAL_REPLICATION_SLOT('REPLICATION_SLOT_NAME', 'pgoutput');

    设置Datastream

    最后就可以设置一个stream了,这里连接数据库的地址需要输入刚才我们设置的反向代理的VM的地址和端口,以及我们之前配置的PG的publication和replication slot的name。最后就可以成功运行了。我们可以测试一下,在PG数据表里面做相应的改动,然后在Bigquery的数据表里面等待一会儿就可以看到数据能同步过去了。

  • 相关阅读:
    初学kotlin 01
    【Mysql】模糊查询
    前端实战|React18极客园——编辑文章模块(文案适配、回显数据)
    使用rpm包制作本地镜像源(本地yum源)
    15. SAP ABAP OData 服务里 EntityType 和 EntitySet 的区别
    pytest与unittest对比
    js实现日历 完整版
    LTE小区搜索过程及SCH/BCH设计
    【LearnOpenGL基础入门——2】搭建第一个OpenGL窗口
    基于CNTK/C#实现图像分类【附部分源码及模型】
  • 原文地址:https://blog.csdn.net/gzroy/article/details/132696375