Kafka学习笔记（3）Kafaka中的存储机制

作者：lobtao | 来源：互联网 | 2023-10-11 18:12

参考：https:blog.csdn.netjewesarticledetails42970799工作流程Kafka中消息是以topic进行分类的，生

参考&＃xff1a;
https://blog.csdn.net/jewes/article/details/42970799

工作流程

在这里插入图片描述

Kafka 中消息是以 topic 进行分类的&＃xff0c;生产者生产消息&＃xff0c;消费者消费消息&＃xff0c;都是面向 topic的。

**topic 是逻辑上的概念&＃xff0c;而 partition 是物理上的概念&＃xff0c;每个 partition 对应于一个 log 文件&＃xff0c;该 log 文件中存储的就是 producer 生产的数据。**Producer 生产的数据会被不断追加到该log 文件末端&＃xff0c;且每条数据都有自己的 offset。消费者组中的每个消费者&＃xff0c;都会实时记录自己
消费到了哪个 offset&＃xff0c;以便出错恢复时&＃xff0c;从上次的位置继续消费。

kafka中的副本数量包含leader和flower&＃xff0c;并且副本数不能超过机器数&＃xff0c;超过机器数就不能保证每一个副本在不同机器上
在这里插入图片描述

存储和查找过程

kafka的数据是以.log文件为结尾的。由于生产者生产的消息会不断追加到 log 文件末尾&＃xff0c;为防止 log 文件过大导致数据定位
效率低下&＃xff0c;Kafka 采取了分片和索引机制&＃xff0c;将每个 partition 分为多个 segment。每个 segment对应两个文件——“.index”文件和“.log”文件。
在这里插入图片描述

这些文件位于一个文件夹下&＃xff0c;该文件夹的命名规则为&＃xff1a;topic 名称&＃43;分区序号。例如&＃xff0c;first 这个 topic 有三个分区&＃xff0c;则其对应的文件夹为 first-
0,first-1,first-2。数据存储分为两个部分&＃xff0c;数据分段和为数据文件建立索引。&＃xff08;.log文件和.index文件&＃xff09;

数据分段(.log文件)

Kafka解决查询效率的手段之一是将数据文件分段&＃xff0c;比如有100条Message&＃xff0c;它们的offset是从0到99。假设将数据文件分成5段&＃xff0c;第一段为0-19&＃xff0c;第二段为20-39&＃xff0c;以此类推&＃xff0c;每段放在一个单独的数据文件&＃xff08;.log&＃xff09;里面&＃xff0c;数据文件以该段中最小的offset命名。这样在查找指定offset的Message的时候&＃xff0c;用二分查找就可以定位到该Message在哪个段中。

建立索引(.index文件)

数据文件分段使得可以在一个较小的数据文件中查找对应offset的Message了&＃xff0c;但是这依然需要顺序扫描才能找到对应offset的Message。为了进一步提高查找的效率&＃xff0c;Kafka为每个分段后的数据文件建立了索引文件&＃xff0c;文件名与数据文件的名字是一样的&＃xff0c;只是文件扩展名为.index。
索引文件中包含若干个索引条目&＃xff0c;每个条目表示数据文件中一条Message的索引。索引包含两个部分&＃xff08;均为4个字节的数字&＃xff09;&＃xff0c;分别为相对offset和position。

相对offset&＃xff1a;因为数据文件分段以后&＃xff0c;每个数据文件的起始offset不为0&＃xff0c;相对offset表示这条Message相对于其所属数据文件中最小的offset的大小。举例&＃xff0c;分段后的一个数据文件的offset是从20开始&＃xff0c;那么offset为25的Message在index文件中的相对offset就是25-20 &＃61; 5。存储相对offset可以减小索引文件占用的空间。
position&＃xff0c;表示该条Message在数据文件中的绝对位置。只要打开文件并移动文件指针到这个position就可以读取对应的Message了。

index文件中并没有为数据文件中的每条Message建立索引&＃xff0c;而是采用了稀疏存储的方式&＃xff0c;每隔一定字节的数据建立一条索引。这样避免了索引文件占用过多的空间&＃xff0c;从而可以将索引文件保留在内存中。但缺点是没有建立索引的Message也不能一次定位到其在数据文件的位置&＃xff0c;从而需要做一次顺序扫描&＃xff0c;但是这次顺序扫描的范围就很小了。

小结

Message是按照topic来组织&＃xff0c;每个topic可以分成多个的partition&＃xff0c;比如&＃xff1a;有5个partition的名为为page_visits的topic的目录结构为&＃xff1a;
在这里插入图片描述

partition是分段的&＃xff0c;每个段叫LogSegment&＃xff0c;包括了一个数据文件和一个索引文件&＃xff0c;下图是某个partition目录下的文件&＃xff1a;

在这里插入图片描述
可以看到&＃xff0c;这个partition有4个LogSegmen

一张图来展示是如何查找Message的
在这里插入图片描述

比如&＃xff1a;要查找绝对offset为7的Message&＃xff1a;

首先是用二分查找确定它是在哪个LogSegment中&＃xff0c;自然是在第一个Segment中。
打开这个Segment的index文件&＃xff0c;也是用二分查找找到offset小于或者等于指定offset的索引条目中最大的那个offset。自然offset为6的那个索引是我们要找的&＃xff0c;通过索引文件我们知道offset为6的Message在数据文件中的位置为9807。
打开数据文件&＃xff0c;从位置为9807的那个地方开始顺序扫描直到找到offset为7的那条Message。
这套机制是建立在offset是有序的。索引文件被映射到内存中&＃xff0c;所以查找的速度还是很快的。

一句话&＃xff0c;Kafka的Message存储采用了分区(partition)&＃xff0c;分段(LogSegment)和稀疏索引这几个手段来达到了高效性。

分区策略

需要将 producer 发送的数据封装成一个 ProducerRecord 对象。

在这里插入图片描述

指明 partition 的情况下&＃xff0c;直接将指明的值直接作为 partiton 值&＃xff1b;
没有指明 partition 值但有 key 的情况下&＃xff0c;将 key 的 hash 值与 topic 的 partition 数进行取余得到 partition 值&＃xff1b;
既没有 partition 值又没有 key 值的情况下&＃xff0c;第一次调用时随机生成一个整数&＃xff08;后面每次调用在这个整数上自增&＃xff09;&＃xff0c;将这个值与 topic 可用的 partition 总数取余得到 partition 值&＃xff0c;也就是常说的 round-robin 算法

数据可靠性保证

为保证 producer 发送的数据&＃xff0c;能可靠的发送到指定的 topic&＃xff0c;topic 的每个 partition 收到producer 发送的数据后&＃xff0c;都需要向 producer 发送 ack&＃xff08;acknowledgement 确认收到&＃xff09;&＃xff0c;如果producer 收到 ack&＃xff0c;就会进行下一轮的发送&＃xff0c;否则重新发送数据。

在这里插入图片描述

副本数据同步策略

在这里插入图片描述

Kafka 选择了第二种方案&＃xff0c;原因如下&＃xff1a;

1.同样为了容忍 n 台节点的故障&＃xff0c;第一种方案需要 2n&＃43;1 个副本&＃xff0c;而第二种方案只需要 n&＃43;1个副本&＃xff0c;而 Kafka 的每个分区都有大量的数据&＃xff0c;第一种方案会造成大量数据的冗余。这里可能有一点歧义&＃xff0c;解释举例如下&＃xff1a;

例如&＃xff0c;第一种方案&＃xff0c;假设有5个机器宕机了&＃xff0c;那么有5个副本无法使用&＃xff0c;但必须保证半数以上的副本完成同步&＃xff0c;才能发送ack&＃xff0c;所以这时候就总共需要11台机器&＃xff0c;11个副本才能容忍5台机器宕机才能正常使用。反之&＃xff0c;11台机器&＃xff0c;11个副本&＃xff0c;最多也就允许5个副本&＃xff0c;5个机器宕机。

例如&＃xff0c;第二种方案&＃xff0c;假设有5个机器宕机了&＃xff0c;那么有5个副本无法使用&＃xff0c;但是只要全部副本同步就可以完成同步&＃xff0c;发送ack&＃xff0c;所以&＃xff0c;这时候就需要6台机器&＃xff0c;6个副本才能容忍5台机器宕机。反之&＃xff0c;6台机器&＃xff0c;6个副本&＃xff0c;最多也就允许5个副本&＃xff0c;5个机器宕机。

对比以上两种&＃xff0c;相同容错率的情况下&＃xff0c;第二种方案明显使用更少的机器&＃xff0c;第一种会使用更多的机器&＃xff0c;造成冗余。

2.虽然第二种方案的网络延迟会比较高&＃xff0c;但网络延迟对 Kafka 的影响较小。

ISR

采用第二种方案之后&＃xff0c;设想以下情景&＃xff1a;leader 收到数据&＃xff0c;所有 follower 都开始同步数据&＃xff0c;但有一个 follower&＃xff0c;因为某种故障&＃xff0c;迟迟不能与 leader 进行同步&＃xff0c;那 leader 就要一直等下去&＃xff0c;直到它完成同步&＃xff0c;才能发送 ack。这个问题怎么解决呢&＃xff1f;

Leader 维护了一个动态的 in-sync replica set (ISR)&＃xff0c;意为和 leader 保持同步的 follower 集合。当 ISR 中的 follower 完成数据的同步之后&＃xff0c;leader 就会给 follower 发送 ack。如果 follower长时间未向leader 同步数据 &＃xff0c; 则该 follower 将被踢出 ISR &＃xff0c; 该时间阈值由replica.lag.time.max.ms 参数设定。Leader 发生故障之后&＃xff0c;就会从 ISR 中选举新的 leader。

ack 应答机制

对于某些不太重要的数据&＃xff0c;对数据的可靠性要求不是很高&＃xff0c;能够容忍数据的少量丢失&＃xff0c;所以没必要等 ISR 中的 follower 全部接收成功。

所以 Kafka 为用户提供了三种可靠性级别&＃xff0c;用户根据对可靠性和延迟的要求进行权衡&＃xff0c;选择以下的配置

acks 参数配置&＃xff1a;

acks&＃xff1a;

0&＃xff1a;producer 不等待 broker 的 ack&＃xff0c;这一操作提供了一个最低的延迟&＃xff0c;broker 一接收到还没有写入磁盘就已经返回&＃xff0c;当 broker 故障时有可能丢失数据&＃xff1b;

1&＃xff1a;producer 等待 broker 的 ack&＃xff0c;partition 的 leader 落盘成功后返回 ack&＃xff0c;如果在 follower同步成功之前 leader 故障&＃xff0c;那么将会丢失数据&＃xff1b;

在这里插入图片描述

-1&＃xff08;all&＃xff09;&＃xff1a;producer 等待 broker 的 ack&＃xff0c;partition 的 leader 和 follower 全部落盘成功后才返回 ack。但是如果在 follower 同步完成后&＃xff0c;broker 发送 ack 之前&＃xff0c;leader 发生故障&＃xff0c;那么会收不到producer的ack&＃xff0c;ISR中的flower开始重新选举leader&＃xff0c;然后producer就重新发送数据&＃xff0c;造成数据重复。

在这里插入图片描述

故障处理细节

在这里插入图片描述
LEO&＃xff1a;指的是每个副本最大的 offset&＃xff1b;
HW&＃xff1a;指的是消费者能见到的最大的 offset&＃xff0c;ISR 队列中最小的 LEO。

&＃xff08;1&＃xff09;follower 故障

follower 发生故障后会被临时踢出 ISR&＃xff0c;待该 follower 恢复后&＃xff0c;follower 会读取本地磁盘记录的上次的 HW&＃xff0c;并将 log 文件高于 HW 的部分截取掉&＃xff0c;从 HW 开始向 leader 进行同步。等该 follower 的 LEO 大于等于该 Partition 的 HW&＃xff0c;即 follower 追上 leader 之后&＃xff0c;就可以重
新加入 ISR 了。

&＃xff08;2&＃xff09;leader 故障

leader 发生故障之后&＃xff0c;会从 ISR 中选出一个新的 leader&＃xff0c;之后&＃xff0c;为保证多个副本之间的数据一致性&＃xff0c;其余的 follower 会先将各自的 log 文件高于 HW 的部分截掉&＃xff0c;然后从新的 leader同步数据。

这只能保证副本之间的数据一致性&＃xff0c;并不能保证数据不丢失或者不重复

Exactly Once 语义

将服务器的 ACK 级别设置为-1&＃xff0c;可以保证 Producer 到 Server 之间不会丢失数据&＃xff0c;即 At Least Once 语义。相对的&＃xff0c;将服务器 ACK 级别设置为 0&＃xff0c;可以保证生产者每条消息只会被发送一次&＃xff0c;即 At Most Once 语义。

At Least Once 可以保证数据不丢失&＃xff0c;但是不能保证数据不重复&＃xff1b;相对的&＃xff0c;At Most Once可以保证数据不重复&＃xff0c;但是不能保证数据不丢失。但是&＃xff0c;对于一些非常重要的信息&＃xff0c;比如说交易数据&＃xff0c;下游数据消费者要求数据既不重复也不丢失&＃xff0c;即 Exactly Once 语义。在 0.11 版
本以前的 Kafka&＃xff0c;对此是无能为力的&＃xff0c;只能保证数据不丢失&＃xff0c;再在下游消费者对数据做全局去重。对于多个下游应用的情况&＃xff0c;每个都需要单独做全局去重&＃xff0c;这就对性能造成了很大影响。

0.11 版本的 Kafka&＃xff0c;引入了一项重大特性&＃xff1a;幂等性。所谓的幂等性就是指 Producer 不论向 Server 发送多少次重复数据&＃xff0c;Server 端都只会持久化一条。幂等性结合 At Least Once 语义&＃xff0c;就构成了 Kafka 的 Exactly Once 语义。即&＃xff1a;

At Least Once &＃43; 幂等性 &＃61; Exactly Once

要启用幂等性&＃xff0c;只需要将 Producer 的参数中 enable.idompotence 设置为 true 即可。Kafka的幂等性实现其实就是将原来下游需要做的去重放在了数据上游。开启幂等性的 Producer 在初始化的时候会被分配一个 PID&＃xff0c;发往同一 Partition 的消息会附带 Sequence Number。而
Broker 端会对做缓存&＃xff0c;当具有相同主键的消息提交时&＃xff0c;Broker 只会持久化一条。
但是 PID 重启就会变化&＃xff0c;同时不同的 Partition 也具有不同主键&＃xff0c;所以幂等性无法保证跨分区跨会话的 Exactly Once。
比如&＃xff0c;leader和flower也都写入了hello这一条数据&＃xff0c;返回ack的时候&＃xff0c;producer挂了&＃xff0c;没收到ack&＃xff0c;再次建立producer会话的时候&＃xff0c;又重新发送hello&＃xff0c;数据重复

推荐阅读

hash
你知道Kafka和Redis的各自优缺点吗？一文带你优化选择，不走弯路

你知道Kafka和Redis的各自优缺点吗？一文带你优化选择，不走弯路 ... [详细]

蜡笔小新 2023-10-15 17:24:27
hash
图解redis的持久化存储机制RDB和AOF的原理和优缺点

本文通过图解的方式介绍了redis的持久化存储机制RDB和AOF的原理和优缺点。RDB是将redis内存中的数据保存为快照文件，恢复速度较快但不支持拉链式快照。AOF是将操作日志保存到磁盘，实时存储数据但恢复速度较慢。文章详细分析了两种机制的优缺点，帮助读者更好地理解redis的持久化存储策略。 ... [详细]

蜡笔小新 2023-12-13 20:24:11
hash
计算机存储系统的层次结构及其优势

本文介绍了计算机存储系统的层次结构，包括高速缓存、主存储器和辅助存储器三个层次。通过分层存储数据可以提高程序的执行效率。计算机存储系统的层次结构将各种不同存储容量、存取速度和价格的存储器有机组合成整体，形成可寻址存储空间比主存储器空间大得多的存储整体。由于辅助存储器容量大、价格低，使得整体存储系统的平均价格降低。同时，高速缓存的存取速度可以和CPU的工作速度相匹配，进一步提高程序执行效率。 ... [详细]

蜡笔小新 2023-12-13 17:32:41
hash
操作系统的定义和功能

本文介绍了操作系统的定义和功能，包括操作系统的本质、用户界面以及系统调用的分类。同时还介绍了进程和线程的区别，包括进程和线程的定义和作用。 ... [详细]

蜡笔小新 2023-12-11 14:17:13
hash
Nginx使用AWStats日志分析的步骤及注意事项

本文介绍了在Centos7操作系统上使用Nginx和AWStats进行日志分析的步骤和注意事项。通过AWStats可以统计网站的访问量、IP地址、操作系统、浏览器等信息，并提供精确到每月、每日、每小时的数据。在部署AWStats之前需要确认服务器上已经安装了Perl环境，并进行DNS解析。 ... [详细]

蜡笔小新 2023-12-14 19:42:01
hash
Linux服务器密码过期策略、登录次数限制、私钥登录等配置方法

本文介绍了在Linux服务器上进行密码过期策略、登录次数限制、私钥登录等配置的方法。通过修改配置文件中的参数，可以设置密码的有效期、最小间隔时间、最小长度，并在密码过期前进行提示。同时还介绍了如何进行公钥登录和修改默认账户用户名的操作。详细步骤和注意事项可参考本文内容。 ... [详细]

蜡笔小新 2023-12-14 17:57:01
install
搭建Windows Server 2012 R2 IIS8.5+PHP（FastCGI）+MySQL环境的详细步骤

本文详细介绍了搭建Windows Server 2012 R2 IIS8.5+PHP（FastCGI）+MySQL环境的步骤，包括环境说明、相关软件下载的地址以及所需的插件下载地址。 ... [详细]

蜡笔小新 2023-12-14 17:03:58
md5
Java工具类库Hutool介绍及功能概述

本文介绍了Java工具类库Hutool，该工具包封装了对文件、流、加密解密、转码、正则、线程、XML等JDK方法的封装，并提供了各种Util工具类。同时，还介绍了Hutool的组件，包括动态代理、布隆过滤、缓存、定时任务等功能。该工具包可以简化Java代码，提高开发效率。 ... [详细]

蜡笔小新 2023-12-14 14:29:36
md5
如何限制php数据库链接数和连接超时时间？

本文介绍了如何使用php限制数据库插入的条数并显示每次插入数据库之间的数据数目，以及避免重复提交的方法。同时还介绍了如何限制某一个数据库用户的并发连接数，以及设置数据库的连接数和连接超时时间的方法。最后提供了一些关于浏览器在线用户数和数据库连接数量比例的参考值。 ... [详细]

蜡笔小新 2023-12-14 14:06:10
bash
Hyperledger Fabric外部链码构建与运行的开发笔记

本文介绍了Hyperledger Fabric外部链码构建与运行的相关知识，包括在Hyperledger Fabric 2.0版本之前链码构建和运行的困难性，外部构建模式的实现原理以及外部构建和运行API的使用方法。通过本文的介绍，读者可以了解到如何利用外部构建和运行的方式来实现链码的构建和运行，并且不再受限于特定的语言和部署环境。 ... [详细]

蜡笔小新 2023-12-13 21:47:39
buffer
Android工程师面试准备及设计模式使用场景

本文介绍了Android工程师面试准备的经验，包括面试流程和重点准备内容。同时，还介绍了建造者模式的使用场景，以及在Android开发中的具体应用。 ... [详细]

蜡笔小新 2023-12-11 18:25:26
hash
Android开发优化之软引用与弱引用的应用

本文介绍了在Android开发中使用软引用和弱引用的应用。如果一个对象只具有软引用，那么只有在内存不够的情况下才会被回收，可以用来实现内存敏感的高速缓存；而如果一个对象只具有弱引用，不管内存是否足够，都会被垃圾回收器回收。软引用和弱引用还可以与引用队列联合使用，当被引用的对象被回收时，会将引用加入到关联的引用队列中。软引用和弱引用的根本区别在于生命周期的长短，弱引用的对象可能随时被回收，而软引用的对象只有在内存不够时才会被回收。 ... [详细]

蜡笔小新 2023-12-10 16:33:12
hash
MySQL数据库锁机制及其应用（数据库锁的概念）

本文介绍了MySQL数据库锁机制及其应用。数据库锁是计算机协调多个进程或线程并发访问某一资源的机制，在数据库中，数据是一种供许多用户共享的资源，如何保证数据并发访问的一致性和有效性是数据库必须解决的问题。MySQL的锁机制相对简单，不同的存储引擎支持不同的锁机制，主要包括表级锁、行级锁和页面锁。本文详细介绍了MySQL表级锁的锁模式和特点，以及行级锁和页面锁的特点和应用场景。同时还讨论了锁冲突对数据库并发访问性能的影响。 ... [详细]

蜡笔小新 2023-12-10 15:54:07
hash
LVS 实现负载均衡的原理

LVS实现负载均衡的原理LVS负载均衡负载均衡集群是LoadBalance集群。是一种将网络上的访问流量分布于各个节点，以降低服务器压力，更好的向客户端 ... [详细]

蜡笔小新 2023-12-10 12:10:22
install
我们如何在kafkaconect分发模式下手动定义主题分区和复制

我正在使用sql-serverkafka-connect和debezium监视sqlserver数据库，但是当我发布并运行我的wo ... [详细]

蜡笔小新 2023-10-16 12:54:59

lobtao

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章