当前位置: 开发笔记 > 编程语言 > 正文

大白话带你认识Kafka，面试不怕不怕了~

作者：huai | 来源：互联网 | 2023-09-23 02:22

一、Kafka基础消息系统的作用应该大部份小伙伴都清楚

一、Kafka基础

消息系统的作用

应该大部份小伙伴都清楚&＃xff0c;用机油装箱举个例子

所以消息系统就是如上图我们所说的仓库&＃xff0c;能在中间过程作为缓存&＃xff0c;并且实现解耦合的作用。

引入一个场景&＃xff0c;我们知道中国移动&＃xff0c;中国联通&＃xff0c;中国电信的日志处理&＃xff0c;是交给外包去做大数据分析的&＃xff0c;假设现在它们的日志都交给了你做的系统去做用户画像分析。

按照刚刚前面提到的消息系统的作用&＃xff0c;我们知道了消息系统其实就是一个模拟缓存&＃xff0c;且仅仅是起到了缓存的作用而并不是真正的缓存&＃xff0c;数据仍然是存储在磁盘上面而不是内存。

1.Topic 主题

kafka学习了数据库里面的设计&＃xff0c;在里面设计了topic&＃xff08;主题&＃xff09;&＃xff0c;这个东西类似于关系型数据库的表

此时我需要获取中国移动的数据&＃xff0c;那就直接监听TopicA即可

2.Partition 分区

kafka还有一个概念叫Partition&＃xff08;分区&＃xff09;&＃xff0c;分区具体在服务器上面表现起初就是一个目录&＃xff0c;一个主题下面有多个分区&＃xff0c;这些分区会存储到不同的服务器上面&＃xff0c;或者说&＃xff0c;其实就是在不同的主机上建了不同的目录。这些分区主要的信息就存在了.log文件里面。跟数据库里面的分区差不多&＃xff0c;是为了提高性能。

至于为什么提高了性能&＃xff0c;很简单&＃xff0c;多个分区多个线程&＃xff0c;多个线程并行处理肯定会比单线程好得多

Topic和partition像是HBASE里的table和region的概念&＃xff0c;table只是一个逻辑上的概念&＃xff0c;真正存储数据的是region&＃xff0c;这些region会分布式地存储在各个服务器上面&＃xff0c;对应于kafka&＃xff0c;也是一样&＃xff0c;Topic也是逻辑概念&＃xff0c;而partition就是分布式存储单元。这个设计是保证了海量数据处理的基础。我们可以对比一下&＃xff0c;如果HDFS没有block的设计&＃xff0c;一个100T的文件也只能单独放在一个服务器上面&＃xff0c;那就直接占满整个服务器了&＃xff0c;引入block后&＃xff0c;大文件可以分散存储在不同的服务器上。

注意&＃xff1a;

1.分区会有单点故障问题&＃xff0c;所以我们会为每个分区设置副本数

2.分区的编号是从0开始的

3.Producer - 生产者

往消息系统里面发送数据的就是生产者

4.Consumer - 消费者

从kafka里读取数据的就是消费者

5.Message - 消息

kafka里面的我们处理的数据叫做消息

二、kafka的集群架构

创建一个TopicA的主题&＃xff0c;3个分区分别存储在不同的服务器&＃xff0c;也就是broker下面。Topic是一个逻辑上的概念&＃xff0c;并不能直接在图中把Topic的相关单元画出

需要注意&＃xff1a;kafka在0.8版本以前是没有副本机制的&＃xff0c;所以在面对服务器宕机的突发情况时会丢失数据&＃xff0c;所以尽量避免使用这个版本之前的kafka

Replica - 副本

kafka中的partition为了保证数据安全&＃xff0c;所以每个partition可以设置多个副本。

此时我们对分区0,1,2分别设置3个副本&＃xff08;其实设置两个副本是比较合适的&＃xff09;

而且其实每个副本都是有角色之分的&＃xff0c;它们会选取一个副本作为leader&＃xff0c;而其余的作为follower&＃xff0c;我们的生产者在发送数据的时候&＃xff0c;是直接发送到leader partition里面&＃xff0c;然后follower partition会去leader那里自行同步数据&＃xff0c;消费者消费数据的时候&＃xff0c;也是从leader那去消费数据的。

Consumer Group - 消费者组

我们在消费数据时会在代码里面指定一个group.id,这个id代表的是消费组的名字&＃xff0c;而且这个group.id就算不设置&＃xff0c;系统也会默认设置

conf.setProperty(group.id,tellYourDream)

我们所熟知的一些消息系统一般来说会这样设计&＃xff0c;就是只要有一个消费者去消费了消息系统里面的数据&＃xff0c;那么其余所有的消费者都不能再去消费这个数据。

可是 Kafka 并不是这样&＃xff0c;比如现在 ConsumerA 去消费了一个 TopicA 里面的数据&＃xff1a;

consumerA: group.id &＃61; a consumerB: group.id &＃61; a consumerC: group.id &＃61; b consumerD: group.id &＃61; b

再让 ConsumerB 也去消费 TopicA 的数据&＃xff0c;它是消费不到了&＃xff0c;但是我们在 ConsumerC 中重新指定一个另外的 group.id&＃xff0c;ConsumerC 是可以消费到 TopicA 的数据的。

而 ConsumerD 也是消费不到的&＃xff0c;所以在 Kafka 中&＃xff0c;不同组可有唯一的一个消费者去消费同一主题的数据。

所以消费者组就是让多个消费者并行消费信息而存在的&＃xff0c;而且它们不会消费到同一个消息。

如下&＃xff0c;ConsumerA&＃xff0c;B&＃xff0c;C 是不会互相干扰的&＃xff1a;

consumer group:a consumerA consumerB consumerC

如图&＃xff0c;因为前面提到过了消费者会直接和 Leader 建立联系&＃xff0c;所以它们分别消费了三个 Leader&＃xff0c;所以一个分区不会让消费者组里面的多个消费者去消费&＃xff0c;但是在消费者不饱和的情况下&＃xff0c;一个消费者是可以去消费多个分区的数据的。

Controller

熟知一个规律&＃xff1a;在大数据分布式文件系统里面&＃xff0c;95%的都是主从式的架构&＃xff0c;个别是对等式的架构&＃xff0c;比如ElasticSearch。

kafka也是主从式的架构&＃xff0c;主节点就叫controller&＃xff0c;其余的为从节点&＃xff0c;controller是需要和zookeeper进行配合管理整个kafka集群。

kafka和zookeeper如何配合工作

kafka严重依赖于zookeeper集群&＃xff08;所以之前的zookeeper文章还是有点用的&＃xff09;。所有的broker在启动的时候都会往zookeeper进行注册&＃xff0c;目的就是选举出一个controller&＃xff0c;这个选举过程非常简单粗暴&＃xff0c;就是一个谁先谁当的过程&＃xff0c;不涉及什么算法问题。

那成为controller之后要做啥呢&＃xff0c;它会监听zookeeper里面的多个目录&＃xff0c;例如有一个目录/brokers/&＃xff0c;其他从节点往这个目录上**注册&＃xff08;就是往这个目录上创建属于自己的子目录而已&＃xff09;**自己&＃xff0c;这时命名规则一般是它们的id编号&＃xff0c;比如/brokers/0,1,2

注册时各个节点必定会暴露自己的主机名&＃xff0c;端口号等等的信息&＃xff0c;此时controller就要去读取注册上来的从节点的数据&＃xff08;通过监听机制&＃xff09;&＃xff0c;生成集群的元数据信息&＃xff0c;之后把这些信息都分发给其他的服务器&＃xff0c;让其他服务器能感知到集群中其它成员的存在。

此时模拟一个场景&＃xff0c;我们创建一个主题&＃xff08;其实就是在zookeeper上/topics/topicA这样创建一个目录而已&＃xff09;&＃xff0c;kafka会把分区方案生成在这个目录中&＃xff0c;此时controller就监听到了这一改变&＃xff0c;它会去同步这个目录的元信息&＃xff0c;然后同样下放给它的从节点&＃xff0c;通过这个方法让整个集群都得知这个分区方案&＃xff0c;此时从节点就各自创建好目录等待创建分区副本即可。这也是整个集群的管理机制。

加餐时间

1.Kafka性能好在什么地方&＃xff1f;

① 顺序写

操作系统每次从磁盘读写数据的时候&＃xff0c;需要先寻址&＃xff0c;也就是先要找到数据在磁盘上的物理位置&＃xff0c;然后再进行数据读写&＃xff0c;如果是机械硬盘&＃xff0c;寻址就需要较长的时间。kafka的设计中&＃xff0c;数据其实是存储在磁盘上面&＃xff0c;一般来说&＃xff0c;会把数据存储在内存上面性能才会好。但是kafka用的是顺序写&＃xff0c;追加数据是追加到末尾&＃xff0c;磁盘顺序写的性能极高&＃xff0c;在磁盘个数一定&＃xff0c;转数达到一定的情况下&＃xff0c;基本和内存速度一致

随机写的话是在文件的某个位置修改数据&＃xff0c;性能会较低。

② 零拷贝

先来看看非零拷贝的情况

可以看到数据的拷贝从内存拷贝到kafka服务进程那块&＃xff0c;又拷贝到socket缓存那块&＃xff0c;整个过程耗费的时间比较高&＃xff0c;kafka利用了Linux的sendFile技术&＃xff08;NIO&＃xff09;&＃xff0c;省去了进程切换和一次数据拷贝&＃xff0c;让性能变得更好。

2.日志分段存储

Kafka 规定了一个分区内的 .log 文件最大为 1G&＃xff0c;做这个限制目的是为了方便把 .log 加载到内存去操作&＃xff1a;

00000000000000000000.index 00000000000000000000.log 00000000000000000000.timeindex 00000000000005367851.index 00000000000005367851.log 00000000000005367851.timeindex 00000000000009936472.index 00000000000009936472.log 00000000000009936472.timeindex

这个 9936472 之类的数字&＃xff0c;就是代表了这个日志段文件里包含的起始 Offset&＃xff0c;也就说明这个分区里至少都写入了接近 1000 万条数据了。

Kafka Broker 有一个参数&＃xff0c;log.segment.bytes&＃xff0c;限定了每个日志段文件的大小&＃xff0c;最大就是 1GB。

一个日志段文件满了&＃xff0c;就自动开一个新的日志段文件来写入&＃xff0c;避免单个文件过大&＃xff0c;影响文件的读写性能&＃xff0c;这个过程叫做 log rolling&＃xff0c;正在被写入的那个日志段文件&＃xff0c;叫做 active log segment。

如果大家有了解 HDFS 就会发现 NameNode 的 edits log 也会做出限制&＃xff0c;所以这些框架都是会考虑到这些问题。

3.Kafka的网络设计

kafka的网络设计和Kafka的调优有关&＃xff0c;这也是为什么它能支持高并发的原因

首先客户端发送请求全部会先发送给一个Acceptor&＃xff0c;broker里面会存在3个线程&＃xff08;默认是3个&＃xff09;&＃xff0c;这3个线程都是叫做processor&＃xff0c;Acceptor不会对客户端的请求做任何的处理&＃xff0c;直接封装成一个个socketChannel发送给这些processor形成一个队列&＃xff0c;发送的方式是轮询&＃xff0c;就是先给第一个processor发送&＃xff0c;然后再给第二个&＃xff0c;第三个&＃xff0c;然后又回到第一个。消费者线程去消费这些socketChannel时&＃xff0c;会获取一个个request请求&＃xff0c;这些request请求中就会伴随着数据。

线程池里面默认有8个线程&＃xff0c;这些线程是用来处理request的&＃xff0c;解析请求&＃xff0c;如果request是写请求&＃xff0c;就写到磁盘里。读的话返回结果。processor会从response中读取响应数据&＃xff0c;然后再返回给客户端。这就是Kafka的网络三层架构。

所以如果我们需要对kafka进行增强调优&＃xff0c;增加processor并增加线程池里面的处理线程&＃xff0c;就可以达到效果。request和response那一块部分其实就是起到了一个缓存的效果&＃xff0c;是考虑到processor们生成请求太快&＃xff0c;线程数不够不能及时处理的问题。

所以这就是一个加强版的reactor网络线程模型。

【JVM系列】1.Java虚拟机内存模型
太可怕了&＃xff01;上海交大毕业的网易前员工曝身患重病后&＃xff0c;被残酷裁员&＃xff01;
又到了一年一度的双十一&＃xff0c;程序猿的你都买些啥
交付程序不给钱&＃xff0c;程序员一怒之下开源客户项目代码
让 Java 应用运行更快&＃xff1a;性能调优工具及实践
简历就该这么写
Maven的爱恨情仇

喜欢就点个"在看"呗&＃xff0c;留言、转发朋友圈

推荐阅读

select
图解redis的持久化存储机制RDB和AOF的原理和优缺点

本文通过图解的方式介绍了redis的持久化存储机制RDB和AOF的原理和优缺点。RDB是将redis内存中的数据保存为快照文件，恢复速度较快但不支持拉链式快照。AOF是将操作日志保存到磁盘，实时存储数据但恢复速度较慢。文章详细分析了两种机制的优缺点，帮助读者更好地理解redis的持久化存储策略。 ... [详细]

蜡笔小新 2023-12-13 20:24:11
client
初学者遇到的dubbo设计架构问题及解决方法总结

本文总结了初学者在使用dubbo设计架构过程中遇到的问题，并提供了相应的解决方法。问题包括传输字节流限制、分布式事务、序列化、多点部署、zk端口冲突、服务失败请求3次机制以及启动时检查。通过解决这些问题，初学者能够更好地理解和应用dubbo设计架构。 ... [详细]

蜡笔小新 2023-12-09 10:07:18
client
Oracle优化新常态的五大禁止及其性能隐患

本文介绍了Oracle优化新常态中的五大禁止措施，包括禁止外键、禁止视图、禁止触发器、禁止存储过程和禁止JOB，并分析了这些禁止措施可能带来的性能隐患。文章还讨论了这些禁止措施在C/S架构和B/S架构中的不同应用情况，并提出了解决方案。 ... [详细]

蜡笔小新 2023-12-12 12:55:55
client
一句话解决高并发的核心原则

本文介绍了解决高并发的核心原则，即将用户访问请求尽量往前推，避免访问CDN、静态服务器、动态服务器、数据库和存储，从而实现高性能、高并发、高可扩展的网站架构。同时提到了Google的成功案例，以及适用于千万级别PV站和亿级PV网站的架构层次。 ... [详细]

蜡笔小新 2023-12-12 10:56:24
client
网卡工作原理及网络知识分享

本文介绍了网卡的工作原理，包括CSMA/CD、ARP欺骗等网络知识。网卡是负责整台计算机的网络通信，没有它，计算机将成为信息孤岛。文章通过一个对话的形式，生动形象地讲述了网卡的工作原理，并介绍了集线器Hub时代的网络构成。对于想学习网络知识的读者来说，本文是一篇不错的参考资料。 ... [详细]

蜡笔小新 2023-12-11 12:01:41
get
InnoDB存储引擎——内存

上图是InnoDB存储引擎的结构。1、缓冲池InnoDB存储引擎是基于磁盘存储的，并将其中的记录按照页的方式进行管理。因此可以看作是基于磁盘的数据库系统。在数据库系统中，由于CPU速度 ... [详细]

蜡笔小新 2023-12-10 19:47:18
get
Centos下安装memcached+memcached教程

本文介绍了在Centos下安装memcached和使用memcached的教程，详细解释了memcached的工作原理，包括缓存数据和对象、减少数据库读取次数、提高网站速度等。同时，还对memcached的快速和高效率进行了解释，与传统的文件型数据库相比，memcached作为一个内存型数据库，具有更高的读取速度。 ... [详细]

蜡笔小新 2023-12-10 17:10:24
get
解决Sharepoint 2013运行状况分析出现的“一个或多个服务器未响应”问题的方法

本文介绍了解决Sharepoint 2013运行状况分析中出现的“一个或多个服务器未响应”问题的方法。对于有高要求的客户来说，系统检测问题的存在是不可接受的。文章详细描述了解决该问题的步骤，包括删除服务器、处理分布式缓存留下的记录以及使用代码等方法。同时还提供了相关关键词和错误提示信息，以帮助读者更好地理解和解决该问题。 ... [详细]

蜡笔小新 2023-12-10 13:37:58
select
2021最新总结网易/腾讯/CVTE/字节面经分享（附答案解析）

本文分享作者在2021年面试网易、腾讯、CVTE和字节等大型互联网企业的经历和问题，包括稳定性设计、数据库优化、分布式锁的设计等内容。同时提供了大厂最新面试真题笔记，并附带答案解析。 ... [详细]

蜡笔小新 2023-12-09 19:11:31
select
ElasticSerach初探第一篇认识ES+环境搭建+简单MySQL数据同步+SpringBoot整合ES

一、认识ElasticSearch是一个基于Lucene的开源搜索引擎，通过简单的RESTfulAPI来隐藏Lucene的复杂性。全文搜索，分析系统&# ... [详细]

蜡笔小新 2023-12-09 10:36:06
uri
云原生应用最佳开发实践之十二原则（12factor）

目录简介一、基准代码二、依赖三、配置四、后端配置五、构建、发布、运行六、进程七、端口绑定八、并发九、易处理十、开发与线上环境等价十一、日志十二、进程管理当 ... [详细]

蜡笔小新 2023-12-09 09:35:02
byte
ejava,刘聪dejava

本文目录一览：1、什么是Java？2、java ... [详细]

蜡笔小新 2023-12-09 09:28:18
join
14亿人的大项目，腾讯云数据库拿下！

全国人 ... [详细]

蜡笔小新 2023-10-17 17:56:19
join
ZooKeeper 学习

前言相信大家对ZooKeeper应该不算陌生。但是你真的了解ZooKeeper是个什么东西吗？如果别人面试官让你给他讲讲ZooKeeper是个什么东西， ... [详细]

蜡笔小新 2023-10-17 17:07:40
php
Windows系统查询已开通的端口号和对外开放端口号

查询端口号开放情况：查看该端口被那个PID所占用;方法一：有针对性的查看端口，使用命令:netstat–ano|findstr“”netstat-a对外开放端口号参考ht ... [详细]

蜡笔小新 2023-10-16 23:52:31

huai

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章