热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Canal作为消息中间件实时消费MySQL中新增数据

Canal的数据结构网上对Canal的介绍已经够多了,这里不再赘述,但是有一点必须要强调,就是Canal是怎么对数据进行的封装,只有明白了这点,才可以去消费其中的数据Canal的安

Canal的数据结构

网上对Canal的介绍已经够多了,这里不再赘述,但是有一点必须要强调,就是Canal 是怎么对数据进行的封装,只有明白了这点,才可以去消费其中的数据

技术分享图片

 


 Canal的安装及配置

配置Mysql主服务器的my.cnf文件(位于/etc目录下,没有就新建)


#主服务器的id
server
-id=1
#启用二进制日志
log
-bin=mysql-bin
#设置不复制的数据库(选配)
binlog
-ignore-db=mysql
#设置要复制的数据库(选配)
binlog
-do-db=需要复制的主数据库名字(设置一个之前没有的数据库)
#设置logbin的格式
binlog_format
=row

logbin格式有三种

  statement   存储的是涉及到数据变化的sql语句,文件比较小,但是如果sql语句中有些特殊语句(比如随即值),就会导致数据不一致

  row   记录的是数据改变后的数据,能保证数据严格一致,但是会使文件比较大

  mixed  会动态调整使用statement和row 

这里应用场景是对数据进行监控,所以使用row

 


重启Mysql服务


service mysql restart


进入Mysql,检查binlog是否生效


mysql> show variables like ‘log_%‘;

技术分享图片

 


 配置conf/canal.properties

基本所有配置都可以保持默认,但需要注意默认端口是11111,后续连接会用上

技术分享图片

 


 配置实例配置conf/example/instance.properties


#//这个id不能跟mysql中配置的id相同!!!
canal.instance.mysql.slaveId=100
//mysql地址
canal.instance.master.address
=hadoop102:3306
#连接数据库所需要的用户名和密码
canal.instance.dbUsername=root
canal.instance.dbPassword
=123
canal.instance.connectionCharset
= UTF-8
canal.instance.defaultDatabaseName
=
# table regex
//要监听的数据库,用正则表达式,这里表示gmall数据库中的所有表
canal.instance.
filter.regex=gmall\\..*
# table black regex
//黑名单
canal.instance.
filter.black.regex=


启动服务


bin/startup.sh

bin/stop.sh



从Canal中消费数据到kafka

添加依赖


<dependencies>

<dependency>
<groupId>com.alibaba.ottergroupId>
<artifactId>canal.clientartifactId>
<version>1.1.2version>
dependency>


<dependency>
<groupId>org.apache.kafkagroupId>
<artifactId>kafka-clientsartifactId>
<version>0.11.0.0version>
dependency>
dependencies>


代码实现


import java.net.InetSocketAddress
import java.util
import com.alibaba.fastjson.JSONObject
import com.alibaba.otter.canal.client.{CanalConnector, CanalConnectors}
import com.alibaba.otter.canal.protocol.CanalEntry.{EntryType, EventType, RowChange}
import com.alibaba.otter.canal.protocol.{CanalEntry, Message}
import com.atguigu.gmall.common.Constant
import com.google.protobuf.ByteString
/**
* Author atguigu
* Date 2020/5/30 15:29
*/
object CanalClient {
// 真正的处理数据
def parseData(rowDataList: util.List[CanalEntry.RowData],
tableName: String,
eventType: CanalEntry.EventType): Unit
= {
// 计算订单总额 ,每在order_info表中插入一条数据就发送给kafka
if(tableName == "order_info" && eventType == EventType.INSERT && rowDataList != null && rowDataList.size() > 0){
import scala.collection.JavaConversions._
for(rowData <- rowDataList){
val result: JSONObject
= new JSONObject()
// 一个rowData表示一行数据, 所有列组成一个json对象, 写入到Kafka中
val columnList: util.List[CanalEntry.Column] = rowData.getAfterColumnsList
for(column <- columnList){ // column 列
val key: String = column.getName // 列名
val value: String = column.getValue // 列值
result.put(key, value)
}
// 把数据写入到kafka中. 用一个生产者
MykafkaUtil.send(Constant.ORDER_INFO_TOPIC, result.toJSONString)
}
}

}

def main(args: Array[String]): Unit
= {
// 1. 连接到canal服务器
// 1.1 canal服务器的地址 canal服务器的端口号
val address: InetSocketAddress = new InetSocketAddress("hadoop102", 11111)
val connector: CanalConnector
= {
CanalConnectors.newSingleConnector(address, destination
="example", username="", password="")
}
// 1.2 连接到canal
connector.connect()
// 2. 订阅你要处理的具体表 gmall1128下所有的表
connector.subscribe("gmall.*")

// 3. 读取数据, 解析
while (true) {
// 一致监听mysql数据变化, 所以这个地方不挺
// 100表示最多一次拉取由于100条sql导致的数据的变化
val msg: Message = connector.get(100)
val entries: util.List[CanalEntry.Entry]
= msg.getEntries
if (entries != null && entries.size() > 0) {
// 遍历拿到每个entry
import scala.collection.JavaConversions._
for (entry <- entries) {
// 处理的EntryType应该时刻RowData
if (entry != null && entry.hasEntryType && entry.getEntryType == EntryType.ROWDATA) {
// 获取storeValue. 每个entry一个
val storeValue: ByteString = entry.getStoreValue
// 每个storeVales一个RowChange
val rowChange: RowChange = RowChange.parseFrom(storeValue)
// 每个rowChange中多个RowData. 一个RowData就表示一行数据
val rowDataList: util.List[CanalEntry.RowData] = rowChange.getRowDatasList
//调用处理数据的方法,在这里对每行的数据进行真正的处理
parseData(rowDataList, entry.getHeader.getTableName, rowChange.getEventType)
}
}
}
else {
println(
"没有拉倒数据, 2s之后继续拉....")
Thread.sleep(
2000)
}
}
}
}

 


推荐阅读
  • 本文介绍了在开发Android新闻App时,搭建本地服务器的步骤。通过使用XAMPP软件,可以一键式搭建起开发环境,包括Apache、MySQL、PHP、PERL。在本地服务器上新建数据库和表,并设置相应的属性。最后,给出了创建new表的SQL语句。这个教程适合初学者参考。 ... [详细]
  • 本文介绍了如何使用php限制数据库插入的条数并显示每次插入数据库之间的数据数目,以及避免重复提交的方法。同时还介绍了如何限制某一个数据库用户的并发连接数,以及设置数据库的连接数和连接超时时间的方法。最后提供了一些关于浏览器在线用户数和数据库连接数量比例的参考值。 ... [详细]
  • 在说Hibernate映射前,我们先来了解下对象关系映射ORM。ORM的实现思想就是将关系数据库中表的数据映射成对象,以对象的形式展现。这样开发人员就可以把对数据库的操作转化为对 ... [详细]
  • 本文详细介绍了SQL日志收缩的方法,包括截断日志和删除不需要的旧日志记录。通过备份日志和使用DBCC SHRINKFILE命令可以实现日志的收缩。同时,还介绍了截断日志的原理和注意事项,包括不能截断事务日志的活动部分和MinLSN的确定方法。通过本文的方法,可以有效减小逻辑日志的大小,提高数据库的性能。 ... [详细]
  • 基于layUI的图片上传前预览功能的2种实现方式
    本文介绍了基于layUI的图片上传前预览功能的两种实现方式:一种是使用blob+FileReader,另一种是使用layUI自带的参数。通过选择文件后点击文件名,在页面中间弹窗内预览图片。其中,layUI自带的参数实现了图片预览功能。该功能依赖于layUI的上传模块,并使用了blob和FileReader来读取本地文件并获取图像的base64编码。点击文件名时会执行See()函数。摘要长度为169字。 ... [详细]
  • HDU 2372 El Dorado(DP)的最长上升子序列长度求解方法
    本文介绍了解决HDU 2372 El Dorado问题的一种动态规划方法,通过循环k的方式求解最长上升子序列的长度。具体实现过程包括初始化dp数组、读取数列、计算最长上升子序列长度等步骤。 ... [详细]
  • 本文讨论了Alink回归预测的不完善问题,指出目前主要针对Python做案例,对其他语言支持不足。同时介绍了pom.xml文件的基本结构和使用方法,以及Maven的相关知识。最后,对Alink回归预测的未来发展提出了期待。 ... [详细]
  • 本文讨论了如何优化解决hdu 1003 java题目的动态规划方法,通过分析加法规则和最大和的性质,提出了一种优化的思路。具体方法是,当从1加到n为负时,即sum(1,n)sum(n,s),可以继续加法计算。同时,还考虑了两种特殊情况:都是负数的情况和有0的情况。最后,通过使用Scanner类来获取输入数据。 ... [详细]
  • 本文介绍了OC学习笔记中的@property和@synthesize,包括属性的定义和合成的使用方法。通过示例代码详细讲解了@property和@synthesize的作用和用法。 ... [详细]
  • 本文介绍了在SpringBoot中集成thymeleaf前端模版的配置步骤,包括在application.properties配置文件中添加thymeleaf的配置信息,引入thymeleaf的jar包,以及创建PageController并添加index方法。 ... [详细]
  • 本文详细介绍了MysqlDump和mysqldump进行全库备份的相关知识,包括备份命令的使用方法、my.cnf配置文件的设置、binlog日志的位置指定、增量恢复的方式以及适用于innodb引擎和myisam引擎的备份方法。对于需要进行数据库备份的用户来说,本文提供了一些有价值的参考内容。 ... [详细]
  • 本文由编程笔记小编整理,介绍了PHP中的MySQL函数库及其常用函数,包括mysql_connect、mysql_error、mysql_select_db、mysql_query、mysql_affected_row、mysql_close等。希望对读者有一定的参考价值。 ... [详细]
  • 1,关于死锁的理解死锁,我们可以简单的理解为是两个线程同时使用同一资源,两个线程又得不到相应的资源而造成永无相互等待的情况。 2,模拟死锁背景介绍:我们创建一个朋友 ... [详细]
  • 《数据结构》学习笔记3——串匹配算法性能评估
    本文主要讨论串匹配算法的性能评估,包括模式匹配、字符种类数量、算法复杂度等内容。通过借助C++中的头文件和库,可以实现对串的匹配操作。其中蛮力算法的复杂度为O(m*n),通过随机取出长度为m的子串作为模式P,在文本T中进行匹配,统计平均复杂度。对于成功和失败的匹配分别进行测试,分析其平均复杂度。详情请参考相关学习资源。 ... [详细]
  • 本文介绍了通过ABAP开发往外网发邮件的需求,并提供了配置和代码整理的资料。其中包括了配置SAP邮件服务器的步骤和ABAP写发送邮件代码的过程。通过RZ10配置参数和icm/server_port_1的设定,可以实现向Sap User和外部邮件发送邮件的功能。希望对需要的开发人员有帮助。摘要长度:184字。 ... [详细]
author-avatar
觉悟
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有