• 数据同步MySQL -> Elasticsearch


    大家好我是苏麟,今天聊聊数据同步 .

    数据同步

    一般情况下,如果做查询搜索功能,使用 ES 来模糊搜索,但是数据是存放在数据库 MySQL 里的,所以说我们需要把 MySQL 中的数据和 ES 进行同步,保证数据一致(以 MySQL 为主)。

    MySQL =>ES(单向)

    同步方式

    首次安装完 ES,把 MySQL 数据全量同步到 ES 里,写一个单次脚本 4 种方式 , 全量同步(首次)+增量同步(新数据)

    1.定时任务 (推荐 : 简单)

    定时任务 : 比如1分钟1次,找到 MySQL 中过去几分钟内(至少是定时周期的2 倍)发生改变的数据,然后更新到 ES.

    • 优点:简单易懂、占用资源少、不用引入第三方中间件
    • 缺点:有时间差
    • 应用场景:数据短时间内不同步影响不大、或者数据几乎不发生修改
    2.双写 

    双写 : 写数据的时候,必须也去写 ES;更新删除数据库同理。(事务:建议先保证 MySQL写成功,如果ES 写失败了,可以通过定时任务 + 日志 +告警进行检测和修复(补偿))

    • 优点 : 不知道
    • 缺点 : 繁琐
    3. Logstash

    用 Logstash 数据同步管道 (一般要配合 kafka 消息队列 + beats 采集器)

    • 优点 : 用起来方便,插件多
    • 缺点 : 成本更大 : 一般要配合其他组件使用 (比如 kafka) , 维护成本 : 多维护一个组件 , 学习成本 : 学习使用
    4.Canal (推荐 : 简单 , 实时性非常强)

    Canal 监听 MySQL Binlog,实时同步

    • 优点 : 实时同步 , 实时性非常强
    • 缺点 :  忽略不计   (MySQL8版本可能连接失败)

    定时任务

    找到 MySQL 中过去几分钟内发生改变的数据,然后更新到 ES.

    双向写入

    写数据的时候,也去写 ES .

    这个不推荐!

    Logstash

    传输 处理 数据的管道

    文章 : Getting Started with Logstash | Logstash Reference [7.17] | Elastic

    下载 : https://artifacts.elastic.co/downloads/logstash/logstash-7.17.9-windows-x86_64.zip

    快速开始 : Running Logstash on Windows | Logstash Reference [7.17] | Elastic 

    这里需要学习成本 , 有兴趣的小伙伴自己了解 , 这里不过多赘述 .

    订阅数据库流水的同步方式 Canal

    地址 : GitHub - alibaba/canal: 阿里巴巴 MySQL binlog 增量订阅&消费组件

    原理 : 数据库每次修改时,会修改 binlog 文件,只要监听该文件的修改,就能第一时间得到消息并处理canal : 帮你监听 binlog,并解析 binlog 为你可以理解的内容。 

    它伪装成了 MySQL 的从节点,获取主节点给的 binlog,如图:

    快速开始 : QuickStart · alibaba/canal Wiki · GitHub

    windows 系统,找到你本地的 mysql 安装目录,在根目录下新建 my.ini 文件:

    Linux 系统,找到你本地的 mysql 安装目录,在根目录下新建 my.cnf 文件:

    1. [mysqld]
    2. log-bin=mysql-bin # 开启 binlog
    3. binlog-format=ROW # 选择 ROW 模式
    4. server_id=1 # 配置 MySQL replaction 需要定义,不要和 canal 的 slaveId 重复

    授权 canal 链接 MySQL 账号具有作为 MSQL slave 的权限, 如果已有账户可直接 grant

    1. CREATE USER canal IDENTIFIED BY 'canal';
    2. GRANT SELECT, REPLICATION SLAVE, REPLICATION CLIENT ON *.* TO 'canal'@'%';
    3. -- GRANT ALL PRIVILEGES ON *.* TO 'canal'@'%' ;
    4. FLUSH PRIVILEGES;

    这里有个报错 java 找不到,修改 startup.bat 脚本为你自己的 java home

    1. set JAVA_HOME=C:\Users\59278\.jdks\corretto-1.8.0_302 (自己MySQL路径)
    2. set PATH=%JAVA_HOME%\bin;%PATH%

    Java 中引入依赖

    1. com.alibaba.otter
    2. canal.client
    3. 1.1.0

    Demo  

    1. import java.net.InetSocketAddress;
    2. import java.util.List;
    3. import com.alibaba.otter.canal.client.CanalConnectors;
    4. import com.alibaba.otter.canal.client.CanalConnector;
    5. import com.alibaba.otter.canal.common.utils.AddressUtils;
    6. import com.alibaba.otter.canal.protocol.Message;
    7. import com.alibaba.otter.canal.protocol.CanalEntry.Column;
    8. import com.alibaba.otter.canal.protocol.CanalEntry.Entry;
    9. import com.alibaba.otter.canal.protocol.CanalEntry.EntryType;
    10. import com.alibaba.otter.canal.protocol.CanalEntry.EventType;
    11. import com.alibaba.otter.canal.protocol.CanalEntry.RowChange;
    12. import com.alibaba.otter.canal.protocol.CanalEntry.RowData;
    13. public class SimpleCanalClientExample {
    14. public static void main(String args[]) {
    15. // 创建链接
    16. CanalConnector connector = CanalConnectors.newSingleConnector(new InetSocketAddress(AddressUtils.getHostIp(),
    17. 11111), "example", "", "");
    18. int batchSize = 1000;
    19. int emptyCount = 0;
    20. try {
    21. connector.connect();
    22. connector.subscribe(".*\\..*");
    23. connector.rollback();
    24. int totalEmptyCount = 120;
    25. while (emptyCount < totalEmptyCount) {
    26. Message message = connector.getWithoutAck(batchSize); // 获取指定数量的数据
    27. long batchId = message.getId();
    28. int size = message.getEntries().size();
    29. if (batchId == -1 || size == 0) {
    30. emptyCount++;
    31. System.out.println("empty count : " + emptyCount);
    32. try {
    33. Thread.sleep(1000);
    34. } catch (InterruptedException e) {
    35. }
    36. } else {
    37. emptyCount = 0;
    38. // System.out.printf("message[batchId=%s,size=%s] \n", batchId, size);
    39. printEntry(message.getEntries());
    40. }
    41. connector.ack(batchId); // 提交确认
    42. // connector.rollback(batchId); // 处理失败, 回滚数据
    43. }
    44. System.out.println("empty too many times, exit");
    45. } finally {
    46. connector.disconnect();
    47. }
    48. }
    49. private static void printEntry(List entrys) {
    50. for (Entry entry : entrys) {
    51. if (entry.getEntryType() == EntryType.TRANSACTIONBEGIN || entry.getEntryType() == EntryType.TRANSACTIONEND) {
    52. continue;
    53. }
    54. RowChange rowChage = null;
    55. try {
    56. rowChage = RowChange.parseFrom(entry.getStoreValue());
    57. } catch (Exception e) {
    58. throw new RuntimeException("ERROR ## parser of eromanga-event has an error , data:" + entry.toString(),
    59. e);
    60. }
    61. EventType eventType = rowChage.getEventType();
    62. System.out.println(String.format("================> binlog[%s:%s] , name[%s,%s] , eventType : %s",
    63. entry.getHeader().getLogfileName(), entry.getHeader().getLogfileOffset(),
    64. entry.getHeader().getSchemaName(), entry.getHeader().getTableName(),
    65. eventType));
    66. for (RowData rowData : rowChage.getRowDatasList()) {
    67. if (eventType == EventType.DELETE) {
    68. printColumn(rowData.getBeforeColumnsList());
    69. } else if (eventType == EventType.INSERT) {
    70. printColumn(rowData.getAfterColumnsList());
    71. } else {
    72. System.out.println("-------> before");
    73. printColumn(rowData.getBeforeColumnsList());
    74. System.out.println("-------> after");
    75. printColumn(rowData.getAfterColumnsList());
    76. }
    77. }
    78. }
    79. }
    80. private static void printColumn(List columns) {
    81. for (Column column : columns) {
    82. System.out.println(column.getName() + " : " + column.getValue() + " update=" + column.getUpdated());
    83. }
    84. }
    85. }

    在启动之后 修改MySQL中数据 , java控制台就能实时输出 .

    这期就到这里 , 下期见 !

  • 相关阅读:
    JVS规则引擎及智能BI又更新新功能啦!赶紧来试试
    Vue实战篇三十四:给新闻WebApp加入模拟注册登录功能
    IDEA使用database
    “好声音“连唱10年,星空华文如何唱响港交所?
    用python表格初级尝试
    PyTorch中,卷积层、池化层、转置卷积层输出特征图形状计算公式总结
    两年Java开发工作经验面试总结
    帷幄内容管理系统:从立人设、做内容到定向投流,品牌 KOS 体系打造「百万导购」
    ide 快捷键
    Apache Cassandra:分布式NoSQL数据库
  • 原文地址:https://blog.csdn.net/sytdsqzr/article/details/136249485