Flink CDC 是基于 Flink 开发的变化数据获取组件(Change data capture),简单的说就是来捕获变更的数据,Apache Hudi 是一个数据湖平台,又支持对数据做增删改查操作,所以 Flink CDC 可以很好的和 Hudi 结合起来,打造实时数仓,实时湖仓一体的架构,下面就来演示一下同步的过程。
| 组件 | 版本 |
|---|---|
| Flink | 1.15.1 |
| Hadoop | 2.9.0 |
| Hudi | 0.12.0 |
| Mysql | 5.x |
| Flink CDC | 2.3.0 |
为了方便演示,这里就直接采用 sql-client 提交任务的方式,在提交任务之前,需要先添加几个必要的 Jar 包。
flink-sql-connector-mysql-cdc-2.3.0.jar
hudi-flink1.15-bundle-0.12.0.jar
mysql-connector-java-5.1.47.jar
把这三个 Jar 包添加到 flink/lib 下面。