Canal作为消息中间件实时消费MySQL中新增数据

作者：觉悟 | 来源：互联网 | 2023-10-10 15:40

Canal的数据结构网上对Canal的介绍已经够多了，这里不再赘述，但是有一点必须要强调，就是Canal是怎么对数据进行的封装，只有明白了这点，才可以去消费其中的数据Canal的安

Canal的数据结构

网上对Canal的介绍已经够多了，这里不再赘述，但是有一点必须要强调，就是Canal 是怎么对数据进行的封装，只有明白了这点，才可以去消费其中的数据

技术分享图片

Canal的安装及配置

配置Mysql主服务器的my.cnf文件（位于/etc目录下，没有就新建）

#主服务器的id
server-id=1
#启用二进制日志
log-bin=mysql-bin
#设置不复制的数据库(选配)
binlog-ignore-db=mysql
#设置要复制的数据库(选配)
binlog-do-db=需要复制的主数据库名字（设置一个之前没有的数据库）
#设置logbin的格式
binlog_format=row

logbin格式有三种

　　statement 存储的是涉及到数据变化的sql语句，文件比较小，但是如果sql语句中有些特殊语句（比如随即值），就会导致数据不一致

　　row 记录的是数据改变后的数据，能保证数据严格一致，但是会使文件比较大

　　mixed 　会动态调整使用statement和row

这里应用场景是对数据进行监控，所以使用row

重启Mysql服务

service mysql restart

进入Mysql，检查binlog是否生效

mysql> show variables like ‘log_%‘;

技术分享图片

配置conf/canal.properties

基本所有配置都可以保持默认，但需要注意默认端口是11111，后续连接会用上

技术分享图片

配置实例配置conf/example/instance.properties

#//这个id不能跟mysql中配置的id相同！！！
canal.instance.mysql.slaveId=100
//mysql地址
canal.instance.master.address=hadoop102:3306
#连接数据库所需要的用户名和密码
canal.instance.dbUsername=root
canal.instance.dbPassword=123
canal.instance.connectionCharset = UTF-8
canal.instance.defaultDatabaseName =
# table regex
//要监听的数据库，用正则表达式，这里表示gmall数据库中的所有表
canal.instance.filter.regex=gmall\\..*
# table black regex
//黑名单
canal.instance.filter.black.regex=

启动服务

bin/startup.sh

bin/stop.sh

从Canal中消费数据到kafka

添加依赖

<dependencies>

<dependency>
<groupId>com.alibaba.ottergroupId>
<artifactId>canal.clientartifactId>
<version>1.1.2version>
dependency>

<dependency>
<groupId>org.apache.kafkagroupId>
<artifactId>kafka-clientsartifactId>
<version>0.11.0.0version>
dependency>
dependencies>

代码实现

import java.net.InetSocketAddress
import java.util
import com.alibaba.fastjson.JSONObject
import com.alibaba.otter.canal.client.{CanalConnector, CanalConnectors}
import com.alibaba.otter.canal.protocol.CanalEntry.{EntryType, EventType, RowChange}
import com.alibaba.otter.canal.protocol.{CanalEntry, Message}
import com.atguigu.gmall.common.Constant
import com.google.protobuf.ByteString
/**
* Author atguigu
* Date 2020/5/30 15:29
*/
object CanalClient {
// 真正的处理数据
def parseData(rowDataList: util.List[CanalEntry.RowData],
tableName: String,
eventType: CanalEntry.EventType): Unit = {
// 计算订单总额 ,每在order_info表中插入一条数据就发送给kafka
if(tableName == "order_info" && eventType == EventType.INSERT && rowDataList != null && rowDataList.size() > 0){
import scala.collection.JavaConversions._
for(rowData <- rowDataList){
val result: JSONObject = new JSONObject()
// 一个rowData表示一行数据, 所有列组成一个json对象, 写入到Kafka中
val columnList: util.List[CanalEntry.Column] = rowData.getAfterColumnsList
for(column <- columnList){ // column 列
val key: String = column.getName // 列名
val value: String = column.getValue // 列值
result.put(key, value)
}
// 把数据写入到kafka中. 用一个生产者
MykafkaUtil.send(Constant.ORDER_INFO_TOPIC, result.toJSONString)
}
}

}

def main(args: Array[String]): Unit = {
// 1. 连接到canal服务器
// 1.1 canal服务器的地址 canal服务器的端口号
val address: InetSocketAddress = new InetSocketAddress("hadoop102", 11111)
val connector: CanalConnector = {
CanalConnectors.newSingleConnector(address, destination="example", username="", password="")
}
// 1.2 连接到canal
connector.connect()
// 2. 订阅你要处理的具体表 gmall1128下所有的表
connector.subscribe("gmall.*")

// 3. 读取数据, 解析
while (true) {
// 一致监听mysql数据变化, 所以这个地方不挺
// 100表示最多一次拉取由于100条sql导致的数据的变化
val msg: Message = connector.get(100)
val entries: util.List[CanalEntry.Entry] = msg.getEntries
if (entries != null && entries.size() > 0) {
// 遍历拿到每个entry
import scala.collection.JavaConversions._
for (entry <- entries) {
// 处理的EntryType应该时刻RowData
if (entry != null && entry.hasEntryType && entry.getEntryType == EntryType.ROWDATA) {
// 获取storeValue. 每个entry一个
val storeValue: ByteString = entry.getStoreValue
// 每个storeVales一个RowChange
val rowChange: RowChange = RowChange.parseFrom(storeValue)
// 每个rowChange中多个RowData. 一个RowData就表示一行数据
val rowDataList: util.List[CanalEntry.RowData] = rowChange.getRowDatasList
//调用处理数据的方法，在这里对每行的数据进行真正的处理
parseData(rowDataList, entry.getHeader.getTableName, rowChange.getEventType)
}
}
} else {
println("没有拉倒数据, 2s之后继续拉....")
Thread.sleep(2000)
}
}
}
}

推荐阅读

js
ABAP开发发送邮件程序的配置和代码整理

本文介绍了通过ABAP开发往外网发邮件的需求，并提供了配置和代码整理的资料。其中包括了配置SAP邮件服务器的步骤和ABAP写发送邮件代码的过程。通过RZ10配置参数和icm/server_port_1的设定，可以实现向Sap User和外部邮件发送邮件的功能。希望对需要的开发人员有帮助。摘要长度：184字。 ... [详细]

蜡笔小新 2023-12-13 15:50:17
java
Hibernate基础映射

在说Hibernate映射前，我们先来了解下对象关系映射ORM。ORM的实现思想就是将关系数据库中表的数据映射成对象，以对象的形式展现。这样开发人员就可以把对数据库的操作转化为对 ... [详细]

蜡笔小新 2023-12-14 10:57:47
char
高质量SQL书写的30条建议

本文提供了30条关于优化SQL的建议，包括避免使用select *，使用具体字段，以及使用limit 1等。这些建议是基于实际开发经验总结出来的，旨在帮助读者优化SQL查询。 ... [详细]

蜡笔小新 2023-12-13 13:24:33
char
asp.net微信公众平台开发目录汇总陆续更新的相关内容

本文内容为asp.net微信公众平台开发的目录汇总，包括数据库设计、多层架构框架搭建和入口实现、微信消息封装及反射赋值、关注事件、用户记录、回复文本消息、图文消息、服务搭建（接入）、自定义菜单等。同时提供了示例代码和相关的后台管理功能。内容涵盖了多个方面，适合综合运用。 ... [详细]

蜡笔小新 2023-12-14 22:40:22
sum
HDU 2372 El Dorado（DP）的最长上升子序列长度求解方法

本文介绍了解决HDU 2372 El Dorado问题的一种动态规划方法，通过循环k的方式求解最长上升子序列的长度。具体实现过程包括初始化dp数组、读取数列、计算最长上升子序列长度等步骤。 ... [详细]

蜡笔小新 2023-12-14 15:08:18
sum
Alink回归预测的不完善问题及期待

本文讨论了Alink回归预测的不完善问题，指出目前主要针对Python做案例，对其他语言支持不足。同时介绍了pom.xml文件的基本结构和使用方法，以及Maven的相关知识。最后，对Alink回归预测的未来发展提出了期待。 ... [详细]

蜡笔小新 2023-12-14 14:25:33
spring
SpringBoot集成前端模版（thymeleaf）的配置步骤

本文介绍了在SpringBoot中集成thymeleaf前端模版的配置步骤，包括在application.properties配置文件中添加thymeleaf的配置信息，引入thymeleaf的jar包，以及创建PageController并添加index方法。 ... [详细]

蜡笔小新 2023-12-14 10:11:46
go
知识图谱——机器大脑中的知识库

本文介绍了知识图谱在机器大脑中的应用，以及搜索引擎在知识图谱方面的发展。以谷歌知识图谱为例，说明了知识图谱的智能化特点。通过搜索引擎用户可以获取更加智能化的答案，如搜索关键词"Marie Curie"，会得到居里夫人的详细信息以及与之相关的历史人物。知识图谱的出现引起了搜索引擎行业的变革，不仅美国的微软必应，中国的百度、搜狗等搜索引擎公司也纷纷推出了自己的知识图谱。 ... [详细]

蜡笔小新 2023-12-14 10:06:19
go
测试人的性格，点火让他着急，考验婚姻问题的善意玩人

本文讲述了作者通过点火测试男友的性格和承受能力，以考验婚姻问题。作者故意不安慰男友并再次点火，观察他的反应。这个行为是善意的玩人，旨在了解男友的性格和避免婚姻问题。 ... [详细]

蜡笔小新 2023-12-14 09:10:09
go
Linux进程控制块PCBtask_struct结构体结构及作用详解

本文详细介绍了Linux中进程控制块PCBtask_struct结构体的结构和作用，包括进程状态、进程号、待处理信号、进程地址空间、调度标志、锁深度、基本时间片、调度策略以及内存管理信息等方面的内容。阅读本文可以更加深入地了解Linux进程管理的原理和机制。 ... [详细]

蜡笔小新 2023-12-13 21:31:18
java
java 线程死锁模拟

1，关于死锁的理解死锁，我们可以简单的理解为是两个线程同时使用同一资源，两个线程又得不到相应的资源而造成永无相互等待的情况。 2，模拟死锁背景介绍：我们创建一个朋友 ... [详细]

蜡笔小新 2023-12-13 19:12:25
text
后台获取视图对应的字符串

1.帮助类后台获取视图对应的字符串publicclassViewHelper{将View输出为字符串(注：不会执行对应的ac ... [详细]

蜡笔小新 2023-12-13 18:03:01
text
《数据结构》学习笔记3——串匹配算法性能评估

本文主要讨论串匹配算法的性能评估，包括模式匹配、字符种类数量、算法复杂度等内容。通过借助C++中的头文件和库，可以实现对串的匹配操作。其中蛮力算法的复杂度为O(m*n)，通过随机取出长度为m的子串作为模式P，在文本T中进行匹配，统计平均复杂度。对于成功和失败的匹配分别进行测试，分析其平均复杂度。详情请参考相关学习资源。 ... [详细]

蜡笔小新 2023-12-13 16:16:05
char
动态规划算法的基本步骤及最长递增子序列问题详解

本文详细介绍了动态规划算法的基本步骤，包括划分阶段、选择状态、决策和状态转移方程，并以最长递增子序列问题为例进行了详细解析。动态规划算法的有效性依赖于问题本身所具有的最优子结构性质和子问题重叠性质。通过将子问题的解保存在一个表中，在以后尽可能多地利用这些子问题的解，从而提高算法的效率。 ... [详细]

蜡笔小新 2023-12-13 15:38:19
java
Java验证码——kaptcha的使用配置及样式

本文介绍了如何使用kaptcha库来实现Java验证码的配置和样式设置，包括pom.xml的依赖配置和web.xml中servlet的配置。 ... [详细]

蜡笔小新 2023-12-13 13:58:25

觉悟

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章