当前位置: 开发笔记 > 后端 > 正文

4种高可用RocketMQ集群搭建方案

作者：我们的北京宫 | 来源：互联网 | 2023-08-19 17:12

背景笔者所在的业务线，最初化分为三个服务，由于业务初期业务复杂度相对简单，三个业务服务都能很好的独立完成业务功能。随着产品迭代

背景

笔者所在的业务线&＃xff0c;最初化分为三个服务&＃xff0c;由于业务初期业务复杂度相对简单&＃xff0c;三个业务服务都能很好的独立完成业务功能。

随着产品迭代&＃xff0c;业务功能越来越多后慢慢也要面对高并发、业务解耦、分布式事务等问题&＃xff0c;所以经过团队内部讨论&＃xff0c;引入 RocketMQ 消息中间件来更好的处理业务。

由于公司内部业务线部署相互独立&＃xff0c;我们业务线对引入 RocketMQ 的需求也比较急切&＃xff0c;所以打算自己搭建一套高可用的 RocketMQ 集群&＃xff0c;同时对于自建的 RocketMQ 集群需要如下特性&＃xff1a;

高可用
高并发
可伸缩
海量消息

命名服务&＃xff08;NameServer&＃xff09;

首先第一步要让 NameServer 高可用&＃xff0c;前期规划了三台机器部署 NamseServer 这样可以充分保证可用性&＃xff0c;即使两台机器挂掉也能保证集群的正常使用&＃xff0c;只要有一个 NamseServer 还在运行&＃xff0c;就能保证 RocketMQ 系统的稳定性。

NameServer 的设计是相互的独立的&＃xff0c;任何一台 NameServer 都可以的独立运行&＃xff0c;跟其他机器没有任何通信。
每台 NameServer 都会有完整的集群路由信息&＃xff0c;包括所有的 Broker 节点的信息&＃xff0c;我们的数据信息等等。所以只要任何一台 NamseServer 存活下来&＃xff0c;就可以保存 RocketMQ 信息的正常运行&＃xff0c;不会出现故障。

Broker 集群部署架构

开始部署 RocketMQ 之前&＃xff0c;我们也做过一些功课&＃xff0c;对现在 RocketMQ 支持的集群方案做了一些整理&＃xff0c;目前 RocketMQ 支持的集群部署方案有以下4种&＃xff1a;

多Master模式&＃xff1a;一个集群无Slave&＃xff0c;全是Master&＃xff0c;例如2个Master或者3个Master
多Master多Slave模式-异步复制&＃xff1a;每个Master配置一个Slave&＃xff0c;有多对Master-Slave&＃xff0c;HA采用异步复制方式&＃xff0c;主备有短暂消息延迟&＃xff08;毫秒级&＃xff09;
多Master多Slave模式-同步双写&＃xff1a;每个Master配置一个Slave&＃xff0c;有多对Master-Slave&＃xff0c;HA采用同步双写方式&＃xff0c;即只有主备都写成功&＃xff0c;才向应用返回成功
Dledger部署&＃xff1a;每个Master配置二个 Slave 组成 Dledger Group&＃xff0c;可以有多个 Dledger Group&＃xff0c;由 Dledger 实现 Master 选举

多 Master 模式

一个 RocketMQ 集群中所有的节点都是 Master 节点&＃xff0c;每个 Master 节点没有 Slave 节点。

这种模式的优缺点如下&＃xff1a;

优点&＃xff1a;配置简单&＃xff0c;单个Master宕机或重启维护对应用无影响&＃xff0c;在磁盘配置为RAID10时&＃xff0c;即使机器宕机不可恢复情况下&＃xff0c;由于RAID10磁盘非常可靠&＃xff0c;消息也不会丢&＃xff08;异步刷盘丢失少量消息&＃xff0c;同步刷盘一条不丢&＃xff09;&＃xff0c;性能最高&＃xff1b;
缺点&＃xff1a;单台机器宕机期间&＃xff0c;这台机器上未被消费的消息在机器恢复之前不可订阅&＃xff0c;消息实时性会受到影响。

多 Master 多 Salve - 异步复制模式

每个Master配置一个Slave&＃xff0c;有多对Master-Slave&＃xff0c;HA采用异步复制方式&＃xff0c;主备有短暂消息延迟&＃xff08;毫秒级&＃xff09;

这种模式的优缺点如下&＃xff1a;

优点&＃xff1a;即使磁盘损坏&＃xff0c;消息丢失的非常少&＃xff0c;且消息实时性不会受影响&＃xff0c;同时Master宕机后&＃xff0c;消费者仍然可以从Slave消费&＃xff0c;而且此过程对应用透明&＃xff0c;不需要人工干预&＃xff0c;性能同多Master模式几乎一样&＃xff1b;
缺点&＃xff1a;Master宕机&＃xff0c;磁盘损坏情况下会丢失少量消息。

多 Master 多 Salve - 同步双写模式

每个Master配置一个Slave&＃xff0c;有多对Master-Slave&＃xff0c;HA采用同步双写方式&＃xff0c;即只有主备都写成功&＃xff0c;才向应用返回成功

这种模式的优缺点如下&＃xff1a;

优点&＃xff1a;数据与服务都无单点故障&＃xff0c;Master宕机情况下&＃xff0c;消息无延迟&＃xff0c;服务可用性与数据可用性都非常高&＃xff1b;
缺点&＃xff1a;性能比异步复制模式略低&＃xff08;大约低10%左右&＃xff09;&＃xff0c;发送单个消息的RT会略高&＃xff0c;且目前版本在主节点宕机后&＃xff0c;备机不能自动切换为主机。

Dledger 模式

RocketMQ 4.5 以前的版本大多都是采用 Master-Slave 架构来部署&＃xff0c;能在一定程度上保证数据的不丢失&＃xff0c;也能保证一定的可用性。

但是那种方式的缺陷很明显&＃xff0c;最大的问题就是当 Master Broker 挂了之后 &＃xff0c;没办法让 Slave Broker 自动切换为新的 Master Broker&＃xff0c;需要手动更改配置将 Slave Broker 设置为 Master Broker&＃xff0c;以及重启机器&＃xff0c;这个非常麻烦。

在手式运维的期间&＃xff0c;可能会导致系统的不可用。

使用 Dledger 技术要求至少由三个 Broker 组成 &＃xff0c;一个 Master 和两个 Slave&＃xff0c;这样三个 Broker 就可以组成一个 Group &＃xff0c;也就是三个 Broker 可以分组来运行。一但 Master 宕机&＃xff0c;Dledger 就可以从剩下的两个 Broker 中选举一个 Master 继续对外提供服务。

整体架构&＃xff1a;高可用、高并发、可伸缩、海量消息

经过上面4种集群方案的比较&＃xff0c;最终确定使用 Dledger 方式最终的逻辑部署图如下&＃xff1a;

上图的虚线框表示一个 Dledger Group。

高可用

三个 NameServer 极端情况下&＃xff0c;确保集群的可用性&＃xff0c;任何两个 NameServer 挂掉也不会影响信息的整体使用。

在上图中每个 Master Broker 都有两个 Slave Broker&＃xff0c;这样可以保证可用性&＃xff0c;如在同一个 Dledger Group 中 Master Broker 宕机后&＃xff0c;Dledger 会去行投票将剩下的节点晋升为 Master Broker。

高并发

假设某个Topic的每秒十万消息的写入&＃xff0c; 可以增加 Master Broker 然后十万消息的写入会分别分配到不同的 Master Broker &＃xff0c;如有5台 Master Broker 那每个 Broker 就会承载2万的消息写入。

可伸缩

如果消息数量增大&＃xff0c;需要存储更多的数量和最高的并发&＃xff0c;完全可以增加 Broker &＃xff0c;这样可以线性扩展集群。

海量消息

数据都是分布式存储的&＃xff0c;每个Topic的数据都会分布在不同的 Broker 中&＃xff0c;如果需要存储更多的数据&＃xff0c;只需要增加 Master Broker 就可以了。

推荐阅读

队列
云原生应用最佳开发实践之十二原则（12factor）

目录简介一、基准代码二、依赖三、配置四、后端配置五、构建、发布、运行六、进程七、端口绑定八、并发九、易处理十、开发与线上环境等价十一、日志十二、进程管理当 ... [详细]

蜡笔小新 2023-12-09 09:35:02
server
t-io 2.0.0发布-法网天眼第一版的回顾和更新说明

本文回顾了t-io 1.x版本的工程结构和性能数据，并介绍了t-io在码云上的成绩和用户反馈。同时，还提到了@openSeLi同学发布的t-io 30W长连接并发压力测试报告。最后，详细介绍了t-io 2.0.0版本的更新内容，包括更简洁的使用方式和内置的httpsession功能。 ... [详细]

蜡笔小新 2023-12-14 10:17:48
server
大量研发销售产品设计市场岗位！

关于我们EMQ是一家全球领先的开源物联网基础设施软件供应商，服务新产业周期的IoT&5G、边缘计算与云计算市场，交付全球领先的开源物联网消息服务器和流处理数据 ... [详细]

蜡笔小新 2023-12-13 21:02:32
队列
一句话解决高并发的核心原则

本文介绍了解决高并发的核心原则，即将用户访问请求尽量往前推，避免访问CDN、静态服务器、动态服务器、数据库和存储，从而实现高性能、高并发、高可扩展的网站架构。同时提到了Google的成功案例，以及适用于千万级别PV站和亿级PV网站的架构层次。 ... [详细]

蜡笔小新 2023-12-12 10:56:24
api
OpenStack及其构成简介

本文介绍了OpenStack的逻辑概念以及其构成简介，包括了软件开源项目、基础设施资源管理平台、三大核心组件等内容。同时还介绍了Horizon(UI模块)等相关信息。 ... [详细]

蜡笔小新 2023-12-12 06:47:38
队列
云原生边缘计算之KubeEdge简介及功能特点

本文介绍了云原生边缘计算中的KubeEdge系统，该系统是一个开源系统，用于将容器化应用程序编排功能扩展到Edge的主机。它基于Kubernetes构建，并为网络应用程序提供基础架构支持。同时，KubeEdge具有离线模式、基于Kubernetes的节点、群集、应用程序和设备管理、资源优化等特点。此外，KubeEdge还支持跨平台工作，在私有、公共和混合云中都可以运行。同时，KubeEdge还提供数据管理和数据分析管道引擎的支持。最后，本文还介绍了KubeEdge系统生成证书的方法。 ... [详细]

蜡笔小新 2023-12-14 16:49:01
api
如何通过全新应用内评价获取更多优质用户反馈？

Google Play推出全新的应用内评价API，帮助开发者获取更多优质用户反馈。用户每天在Google Play上发表数百万条评论，这有助于开发者了解用户喜好和改进需求。开发者可以选择在适当的时间请求用户撰写评论，以获得全面而有用的反馈。全新应用内评价功能让用户无需返回应用详情页面即可发表评论，提升用户体验。 ... [详细]

蜡笔小新 2023-12-13 17:23:03
server
如何在服务器主机上实现文件共享的方法和工具

本文介绍了在服务器主机上实现文件共享的方法和工具，包括Linux主机和Windows主机的文件传输方式，Web运维和FTP/SFTP客户端运维两种方式，以及使用WinSCP工具将文件上传至Linux云服务器的操作方法。此外，还介绍了在迁移过程中需要安装迁移Agent并输入目的端服务器所在华为云的AK/SK，以及主机迁移服务会收集的源端服务器信息。 ... [详细]

蜡笔小新 2023-12-13 13:23:48
api
flowable工作流流程变量_信也科技工作流平台的技术实践

1背景随着公司业务发展及内部业务流程诉求的增长,目前信息化系统不能够很好满足期望,主要体现如下：目前OA流程引擎无法满足企业特定业务流程需求，且移动端体 ... [详细]

蜡笔小新 2023-12-13 10:17:15
cookie
单点登录原理及实现方案详解

本文详细介绍了单点登录的原理及实现方案，其中包括共享Session的方式，以及基于Redis的Session共享方案。同时，还分享了作者在应用环境中所遇到的问题和经验，希望对读者有所帮助。 ... [详细]

蜡笔小新 2023-12-12 19:23:28
php
企业数据应用挑战及元数据管理的重要性

本文主要介绍了企业在日常经营管理过程中面临的数据应用挑战，包括数据找不到、数据读不懂、数据不可信等问题。针对这些挑战，通过元数据管理可以实现数据的可见、可懂、可用，帮助业务快速获取所需数据。文章提出了“灵魂”三问——元数据是什么、有什么用、又该怎么管，强调了元数据管理在企业数据治理中的基础和前提作用。 ... [详细]

蜡笔小新 2023-12-12 15:39:22
队列
Oracle优化新常态的五大禁止及其性能隐患

本文介绍了Oracle优化新常态中的五大禁止措施，包括禁止外键、禁止视图、禁止触发器、禁止存储过程和禁止JOB，并分析了这些禁止措施可能带来的性能隐患。文章还讨论了这些禁止措施在C/S架构和B/S架构中的不同应用情况，并提出了解决方案。 ... [详细]

蜡笔小新 2023-12-12 12:55:55
正则
统一知识图谱学习和建议：更好地理解用户偏好

本文介绍了一种将知识图谱纳入推荐系统的方法，以提高推荐的准确性和可解释性。与现有方法不同的是，本方法考虑了知识图谱的不完整性，并在知识图谱中传输关系信息，以更好地理解用户的偏好。通过大量实验，验证了本方法在推荐任务和知识图谱完成任务上的优势。 ... [详细]

蜡笔小新 2023-12-11 11:11:02
spring
Sleuth+zipkin链路追踪SpringCloud微服务的解决方案

在庞大的微服务群中，随着业务扩展，微服务个数增多，系统调用链路复杂化。Sleuth+zipkin是解决SpringCloud微服务定位和追踪的方案。通过TraceId将不同服务调用的日志串联起来，实现请求链路跟踪。通过Feign调用和Request传递TraceId，将整个调用链路的服务日志归组合并，提供定位和追踪的功能。 ... [详细]

蜡笔小新 2023-12-09 19:14:50
server
SQL Server 内存中OLTP内部机制概述（一）

内存中OLTP（项目名为“Hekaton”）是一个新的完全集成到SQLServer中的数据库引擎组件。它专为访问内存常驻数据的OLTP工作负荷而进行优化。内存中OLTP有助于OLT ... [详细]

蜡笔小新 2023-12-09 10:10:23