使用阿里canal，实现如何将MySQL实时同步数据到ElasticSearch

作者：手机用户2602916275 | 来源：互联网 | 2023-07-10 01:17

概述canal主要用途是对MySQL数据库增量日志进行解析，提供增量数据的订阅和消费，简单说就是可以对MySQL的增量数据进行实时同步，支持同步到MySQL、Elasti

概述

canal主要用途是对MySQL数据库增量日志进行解析，提供增量数据的订阅和消费，简单说就是可以对MySQL的增量数据进行实时同步，支持同步到MySQL、Elasticsearch、HBase等数据存储中去

工作原理

canal会模拟MySQL主库和从库的交互协议，从而可以看成是一个MySQL的从库，然后向MySQL主库发送dump协议，MySQL主库收到dump请求会向canal推送binlog，canal通过解析binlog将数据同步到其他存储中去。

使用阿里canal，实现如何将MySQL实时同步数据到ElasticSearch

canal工作原理

实际应用canal

下载canal
下载地址：https://github.com/alibaba/canal/releases,下载canal-server、canal-adapter、canal-admin三个包

canal组件下载

这三个组件的功能如下

canal-server（canal-deploy）
可以直接监听MySQL的binlog，把自己伪装成MySQL的从库，只负责接收数据，并不做处理。
canal 使用 client-server 模式，数据传输协议使用 protobuf 3.0（很多RPC框架也在使用例如gRPC）
canal-adapter
相当于canal的客户端，会从canal-server中获取数据，然后对数据进行同步，可以同步到MySQL、Elasticsearch和HBase等存储中去。
canal-admin
为canal提供整体配置管理、节点运维等面向运维的功能，提供相对友好的WebUI操作界面，方便更多用户快速和安全的操作。
对mysql、ElasticSearch、canal组件版本的要求

version

下面来设置MySQL的配置
由于canal是通过订阅MySQL的binlog来实现数据同步的，所以我们需要开启MySQL的binlog写入功能，并设置binlog-format为ROW模式，我的配置文件为/mydata/mysql/conf/my.cnf，改为如下内容即可

[mysqld]
## 设置server_id，同一局域网中需要唯一
server_id=101 
## 指定不需要同步的数据库名称
binlog-ignore-db=mysql  
## 开启二进制日志功能
log-bin=mall-mysql-bin  
## 设置二进制日志使用内存大小（事务）
binlog_cache_size=1M  
## 设置使用的二进制日志格式（mixed,statement,row）
binlog_format=row  
## 二进制日志过期清理时间。默认值为0，表示不自动清理。
expire_logs_days=7  
## 跳过主从复制中遇到的所有错误或指定类型的错误，避免slave端复制中断。
## 如：1062错误是指一些主键重复，1032错误是因为主从数据库数据不一致
slave_skip_errors=1062

配置完成后需要重新启动MySQL，重启成功后通过如下命令查看binlog是否启用

show variables like '%log_bin%'

显示如下:

+---------------------------------+-------------------------------------+
| Variable_name                   | Value                               |
+---------------------------------+-------------------------------------+
| log_bin                         | ON                                  |
| log_bin_basename                | /var/lib/mysql/mall-mysql-bin       |
| log_bin_index                   | /var/lib/mysql/mall-mysql-bin.index |
| log_bin_trust_function_creators | OFF                                 |
| log_bin_use_v1_row_events       | OFF                                 |
| sql_log_bin                     | ON                                  |
+---------------------------------+-------------------------------------+

如果未开启则需要修改mysql配置文件

sudo vi /etc/mysql/mysql.conf.d/mysqld.cnf

在文件末尾添加：

log-bin=/var/lib/mysql/mysql-bin
binlog-format=ROW
server-id=1

保存文件，重启mysql服务(因为用了lnmp所以用了lnmp命令)：

sudo lnmp mysql restart
#不用lnmp命令的话如下:
sudo service mysql restart

接着再查看下MySQL的binlog模式

show variables like 'binlog_format%';

显示如下信息:

+---------------+-------+
| Variable_name | Value |
+---------------+-------+
| binlog_format | ROW   |
+---------------+-------+

接下来需要创建一个拥有从库权限的账号，用于订阅binlog，这里创建的账号为canal:canal

CREATE USER canal IDENTIFIED BY 'canal';  
GRANT SELECT, REPLICATION SLAVE, REPLICATION CLIENT ON *.* TO 'canal'@'%';
FLUSH PRIVILEGES;

创建好测试用的数据库canal-test，之后创建一张商品表product，建表语句如下

CREATE TABLE `product`  (
  `id` bigint(20) NOT NULL AUTO_INCREMENT,
  `title` varchar(255) CHARACTER SET utf8 COLLATE utf8_general_ci NULL DEFAULT NULL,
  `sub_title` varchar(255) CHARACTER SET utf8 COLLATE utf8_general_ci NULL DEFAULT NULL,
  `price` decimal(10, 2) NULL DEFAULT NULL,
  `pic` varchar(255) CHARACTER SET utf8 COLLATE utf8_general_ci NULL DEFAULT NULL,
  PRIMARY KEY (`id`) USING BTREE
) ENGINE = InnoDB AUTO_INCREMENT = 2 CHARACTER SET = utf8 COLLATE = utf8_general_ci ROW_FORMAT = Dynamic;

使用canal-server
将我们下载好的压缩包canal.deployer-1.1.5-SNAPSHOT.tar.gz上传到Linux服务器，然后解压到指定目录/mydata/canal-server，可使用如下命令解压

tar -zxvf canal.deployer-1.1.5-SNAPSHOT.tar.gz

解压完成后目录结构如下：

├── bin
│   ├── restart.sh
│   ├── startup.bat
│   ├── startup.sh
│   └── stop.sh
├── conf
│   ├── canal_local.properties
│   ├── canal.properties
│   └── example
│       └── instance.properties
├── lib
├── logs
│   ├── canal
│   │   └── canal.log
│   └── example
│       ├── example.log
│       └── example.log
└── plugin

修改配置文件conf/example/instance.properties，按如下配置即可，主要是修改数据库相关配置

# 需要同步数据的MySQL地址
canal.instance.master.address=127.0.0.1:3306
canal.instance.master.journal.name=
canal.instance.master.position=
canal.instance.master.timestamp=
canal.instance.master.gtid=
# 用于同步数据的数据库账号
canal.instance.dbUsername=canal
# 用于同步数据的数据库密码
canal.instance.dbPassword=canal
# 数据库连接编码
canal.instance.cOnnectionCharset= UTF-8
# 需要订阅binlog的表过滤正则表达式
canal.instance.filter.regex=.*\..*

使用startup.sh脚本启动canal-server服务：

sh bin/startup.sh

启动成功后可使用如下命令查看服务日志信息：

tail -f logs/canal/canal.log

2020-11-18 16:18:13.354 [main] INFO  com.alibaba.otter.canal.deployer.CanalController - ## start the canal server[172.17.0.1(172.17.0.1):11111]
2020-11-18 16:18:19.978 [main] INFO  com.alibaba.otter.canal.deployer.CanalStarter - ## the canal server is running now ......

启动成功后可使用如下命令查看instance日志信息:

2020-11-18 16:18:16.056 [main] INFO  c.a.o.c.i.spring.support.PropertyPlaceholderConfigurer - Loading properties file from class path resource [canal.properties]
2020-11-18 16:18:16.061 [main] INFO  c.a.o.c.i.spring.support.PropertyPlaceholderConfigurer - Loading properties file from class path resource [example/instance.properties]
2020-11-18 16:18:18.259 [main] INFO  c.a.otter.canal.instance.spring.CanalInstanceWithSpring - start CannalInstance for 1-example 
2020-11-18 16:18:18.282 [main] WARN  c.a.o.canal.parse.inbound.mysql.dbsync.LogEventConvert - --> init table filter : ^.*..*$
2020-11-18 16:18:18.282 [main] WARN  c.a.o.canal.parse.inbound.mysql.dbsync.LogEventConvert - --> init table black filter : ^mysql.slave_.*$
2020-11-18 16:18:19.543 [destination = example , address = /127.0.0.1:3306 , EventParser] WARN  c.a.o.c.p.inbound.mysql.rds.RdsBinlogEventParserProxy - ---> begin to find start position, it will be long time for reset or first position
2020-11-18 16:18:19.578 [main] INFO  c.a.otter.canal.instance.core.AbstractCanalInstance - start successful....
2020-11-18 16:18:19.912 [destination = example , address = /127.0.0.1:3306 , EventParser] WARN  c.a.o.c.p.inbound.mysql.rds.RdsBinlogEventParserProxy - prepare to find start position just last position
 {"identity":{"slaveId":-1,"sourceAddress":{"address":"localhost","port":3306}},"postion":{"gtid":"","included":false,"journalName":"mall-mysql-bin.000006","position":2271,"serverId":101,"timestamp":1605669864000}}
2020-11-18 16:18:22.435 [destination = example , address = /127.0.0.1:3306 , EventParser] WARN  c.a.o.c.p.inbound.mysql.rds.RdsBinlogEventParserProxy - ---> find start position successfully, EntryPosition[included=false,journalName=mall-mysql-bin.000006,position=2271,serverId=101,gtid=,timestamp=1605669864000] cost : 2768ms , the next step is binlog dump

如果想要停止canal-server服务可以使用如下命令:

sh bin/stop.sh

使用canal-adapter
将我们下载好的压缩包canal.adapter-1.1.5-SNAPSHOT.tar.gz上传到Linux服务器，然后解压到指定目录/mydata/canal-adpter，解压完成后目录结构如下

├── bin
│   ├── adapter.pid
│   ├── restart.sh
│   ├── startup.bat
│   ├── startup.sh
│   └── stop.sh
├── conf
│   ├── application.yml
│   ├── es6
│   ├── es7
│   │   ├── biz_order.yml
│   │   ├── customer.yml
│   │   └── product.yml
│   ├── hbase
│   ├── kudu
│   ├── logback.xml
│   ├── META-INF
│   │   └── spring.factories
│   └── rdb
├── lib
├── logs
│   └── adapter
│       └── adapter.log
└── plugin

修改配置文件conf/application.yml，按如下配置即可，主要是修改canal-server配置、数据源配置和客户端适配器配置

canal.conf:
  mode: tcp # 客户端的模式，可选tcp kafka rocketMQ
  flatMessage: true # 扁平message开关, 是否以json字符串形式投递数据, 仅在kafka/rocketMQ模式下有效
  zookeeperHosts:    # 对应集群模式下的zk地址
  syncBatchSize: 1000 # 每次同步的批数量
  retries: 0 # 重试次数, -1为无限重试
  timeout: # 同步超时时间, 单位毫秒
  accessKey:
  secretKey:
  consumerProperties:
    # canal tcp consumer
    canal.tcp.server.host: 127.0.0.1:11111 #设置canal-server的地址
    canal.tcp.zookeeper.hosts:
    canal.tcp.batch.size: 500
    canal.tcp.username:
    canal.tcp.password:

  srcDataSources: # 源数据库配置
    defaultDS:
      url: jdbc:mysql://127.0.0.1:3306/canal_test?useUnicode=true
      username: canal
      password: canal
  canalAdapters: # 适配器列表
  - instance: example # canal实例名或者MQ topic名
    groups: # 分组列表
    - groupId: g1 # 分组id, 如果是MQ模式将用到该值
      outerAdapters:
      - name: logger # 日志打印适配器
      - name: es7 # ES同步适配器
        hosts: 127.0.0.1:9200 # ES连接地址
        properties:
          mode: rest # 模式可选transport(9300) 或者 rest(9200)
          # security.auth: test:123456 #  only used for rest mode
          cluster.name: elasticsearch # ES集群名称

添加配置文件canal-adapter/conf/es7/product.yml，用于配置MySQL中的表与Elasticsearch中索引的映射关系

dataSourceKey: defaultDS # 源数据源的key, 对应上面配置的srcDataSources中的值
destination: example  # canal的instance或者MQ的topic
groupId: g1 # 对应MQ模式下的groupId, 只会同步对应groupId的数据
esMapping:
  _index: canal_product # es 的索引名称
  _id: _id  # es 的_id, 如果不配置该项必须配置下面的pk项_id则会由es自动分配
  sql: "SELECT
         p.id AS _id,
         p.title,
         p.sub_title,
         p.price,
         p.pic
        FROM
         product p"        # sql映射
  etlCondition: "where a.c_time>={}"   #etl的条件参数
  commitBatch: 3000   # 提交批大小

使用startup.sh脚本启动canal-adapter服务

sh bin/startup.sh

启动成功后可使用如下命令查看服务日志信息

tail -f logs/adapter/adapter.log

如果需要停止canal-adapter服务可以使用如下命令

sh bin/stop.sh

开始数据同步

经过上面的一系列步骤，canal的数据同步功能已经基本可以使用了，下面我们来演示下数据同步功能

首先我们需要在Elasticsearch中创建索引，和MySQL中的product表相对应，直接在Kibana的Dev Tools中使用如下命令创建即可

PUT canal_product
{
  "mappings": {
    "properties": {
      "title": {
        "type": "text"
      },
      "sub_title": {
        "type": "text"
      },
      "pic": {
        "type": "text"
      },
      "price": {
        "type": "double"
      }
    }
  }
}

创建完成后可以查看下索引的结构

GET canal_product/_mapping

canal_product

之后使用如下SQL语句在MySQL数据库中创建一条记录

INSERT INTO product ( id, title, sub_title, price, pic ) VALUES ( 5, '小米8', ' 全面屏游戏智能手机 6GB+64GB', 1999.00, NULL );

创建成功后，在Elasticsearch中搜索下，发现数据已经同步了

GET canal_product/_search

数据同步

再使用如下SQL对数据进行修改

UPDATE product SET title='小米10' WHERE id=5

修改成功后，在Elasticsearch中搜索下，发现数据已经修改了

UPDATE
再使用如下SQL对数据进行删除操作

DELETE FROM product WHERE id=5

删除成功后，在Elasticsearch中搜索下，发现数据已经删除了，至此MySQL同步到Elasticsearch的功能完成了

DELETE

使用canal-admin

将我们下载好的压缩包canal.admin-1.1.5-SNAPSHOT.tar.gz上传到Linux服务器，然后解压到指定目录/mydata/canal-admin，解压完成后目录结构如下

├── bin
│   ├── restart.sh
│   ├── startup.bat
│   ├── startup.sh
│   └── stop.sh
├── conf
│   ├── application.yml
│   ├── canal_manager.sql
│   ├── canal-template.properties
│   ├── instance-template.properties
│   ├── logback.xml
│   └── public
│       ├── avatar.gif
│       ├── index.html
│       ├── logo.png
│       └── static
├── lib
└── logs

创建canal-admin需要使用的数据库canal_manager，创建SQL脚本为/mydata/canal-admin/conf/canal_manager.sql，会创建如下表

MYSQL
修改配置文件conf/application.yml，按如下配置即可，主要是修改数据源配置和canal-admin的管理账号配置，注意需要用一个有读写权限的数据库账号，比如管理账号root:root

server:
  port: 8089
spring:
  jackson:
    date-format: yyyy-MM-dd HH:mm:ss
    time-zone: GMT+8

spring.datasource:
  address: 127.0.0.1:3306
  database: canal_manager
  username: root
  password: root
  driver-class-name: com.mysql.jdbc.Driver
  url: jdbc:mysql://${spring.datasource.address}/${spring.datasource.database}?useUnicode=true&characterEncoding=UTF-8&useSSL=false
  hikari:
    maximum-pool-size: 30
    minimum-idle: 1

canal:
  adminUser: admin
  adminPasswd: admin

接下来对之前搭建的canal-server的conf/canal_local.properties文件进行配置，主要是修改canal-admin的配置，修改完成后使用sh bin/startup.sh local重启canal-server

# register ip
canal.register.ip =

# canal admin config
canal.admin.manager = 127.0.0.1:8089
canal.admin.port = 11110
canal.admin.user = admin
canal.admin.passwd = 4ACFE3202A5FF5CF467898FC58AAB1D615029441
# admin auto register
canal.admin.register.auto = true
canal.admin.register.cluster =

使用startup.sh脚本启动canal-admin服务

sh bin/startup.sh

启动成功后可使用如下命令查看服务日志信息

tail -f logs/admin.log

访问canal-admin的Web界面，输入账号密码admin:123456即可登录，访问地址
http://127.0.0.1:8089

canal-admin
登录成功后即可使用Web界面操作canal-server

操作界面

总结

canal是一个比较方便的数据库同步工具
参考资料:
canal官方文档
https://github.com/alibaba/canal/wiki
配置文件地址
https://github.com/macrozheng/mall-learning/tree/master/document/canal-config

推荐阅读

jar
Java验证码——kaptcha的使用配置及样式

本文介绍了如何使用kaptcha库来实现Java验证码的配置和样式设置，包括pom.xml的依赖配置和web.xml中servlet的配置。 ... [详细]

蜡笔小新 2023-12-13 13:58:25
web
elasticssearch+kibanna入门（撰写中）

elasticssearchkibanna入门（撰写中）看到一篇elasticssearchkibanna的文章，觉得很好， ... [详细]

蜡笔小新 2023-10-15 11:34:35
utf-8
Hadoop——Hive简介和环境配置

一、Hive的简介和配置1.简介Hive是构建在Hadoop之上的数据操作平台lHive是一个SQL解析引擎，它将SQL转译成MapReduce作业，并 ... [详细]

蜡笔小新 2023-10-14 16:22:56
utf-8
Python3中选择文件对话框的格式打开和保存图片

本文介绍了在Python3中如何使用选择文件对话框的格式打开和保存图片的方法。通过使用tkinter库中的filedialog模块的asksaveasfilename和askopenfilename函数，可以方便地选择要打开或保存的图片文件，并进行相关操作。具体的代码示例和操作步骤也被提供。 ... [详细]

蜡笔小新 2023-12-14 17:46:55
io
搭建Windows Server 2012 R2 IIS8.5+PHP（FastCGI）+MySQL环境的详细步骤

本文详细介绍了搭建Windows Server 2012 R2 IIS8.5+PHP（FastCGI）+MySQL环境的步骤，包括环境说明、相关软件下载的地址以及所需的插件下载地址。 ... [详细]

蜡笔小新 2023-12-14 17:03:58
uri
Java序列化对象传给PHP的方法及原理解析

本文介绍了Java序列化对象传给PHP的方法及原理，包括Java对象传递的方式、序列化的方式、PHP中的序列化用法介绍、Java是否能反序列化PHP的数据、Java序列化的原理以及解决Java序列化中的问题。同时还解释了序列化的概念和作用，以及代码执行序列化所需要的权限。最后指出，序列化会将对象实例的所有字段都进行序列化，使得数据能够被表示为实例的序列化数据，但只有能够解释该格式的代码才能够确定数据的内容。 ... [详细]

蜡笔小新 2023-12-14 15:25:15
io
baresip android编译、运行教程1语音通话

本文介绍了如何在安卓平台上编译和运行baresip android，包括下载相关的sdk和ndk，修改ndk路径和输出目录，以及创建一个c++的安卓工程并将目录考到cpp下。详细步骤可参考给出的链接和文档。 ... [详细]

蜡笔小新 2023-12-14 10:53:48
io
20211101CleverTap参与度和分析工具功能平台学习/实践

1.应用场景主要用于学习CleverTap的使用,该平台主要用于客户保留与参与平台.为客户提供价值.这里接触到的原因,是目前公司用到该平台的服务~2.学习操作 ... [详细]

蜡笔小新 2023-12-14 10:25:12
web
如何用UE4制作2D游戏文档——计算篇

篇首语：本文由编程笔记#小编为大家整理，主要介绍了如何用UE4制作2D游戏文档——计算篇相关的知识，希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2023-12-14 09:50:34
io
SOA架构理解

SOA架构理解理解SOA架构，了解ESB概念，明白SOA与微服务的区别和联系，了解SOA与热门技术的结合与应用。1、面向服务的架构SOASOA（ServiceOrien ... [详细]

蜡笔小新 2023-10-16 15:25:09
io
自己手动写一个RPC框架

一，简单一点的过程解说图（不太清晰，凑合看吧）Gitee仓库源码：https:gitee.comfanjiangfengwrite-rpc-framworkcommon模块创建商品 ... [详细]

蜡笔小新 2023-10-15 13:04:56
utf-8
python中抽象类和抽象方法_python抽象类+抽象方法实现接口(interface)

#python没有类似于java和C#的接口类(interface)，需要使用抽象类和抽象方法来实现接口功能#!usrbinenvpython#_*_coding ... [详细]

蜡笔小新 2023-10-14 22:37:24
io
YANG，NETCONF，RESTCONF，XML之间的关系

本文为转载，原连接：https:www.zhihu.comquestion40822826简单说一下吧做要解释这些要从netconf说起。netconf ... [详细]

蜡笔小新 2023-10-14 19:16:18
io
mapreduce原理_MapReduce原理及WordCount实践

参考链接：https:www.cnblogs.comlaowangcp8961946.html一、MapReduce流程1.1Mapreduce整体流程： ... [详细]

蜡笔小新 2023-10-14 17:48:33
io
包含utf8字符的 pickle 转 json的大坑处理过程

背景：希望将pickle转换为json，由于pickle里有utf8的字符，因此转换失败。转换代码如下：Convertap ... [详细]

蜡笔小新 2023-10-14 17:17:44

手机用户2602916275

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章