当前位置: 开发笔记 > 编程语言 > 正文

kafka实战,自我深度剖析

作者：明霞学 | 来源：互联网 | 2023-06-06 18:52

来源：http:r6d.cnbdjdiKafka简介Kafka概述：Kafka由linked-in开源。kafka-高产出的分布式消息系统(Ahigh-thro

资料来源： http://r6d.cn/bdjdi

Kafka概述Kafka概述： Kafka是由链接插件开放源代码的。

kafka-高生产的分布式消息系统(a high-throughputdistributedmessagingsystem )。

Kafka是基于高吞吐量、分布式、分发订阅的消息系统，可以利用Kafka技术在廉价的PC服务器上构建大规模的消息系统。

Kafka的特性：高吞吐量、低延迟： Kafka每秒可以处理十万条消息，延迟最少为几毫秒，每个主题可以分为多个分区，consumer group对分区进行captition

可扩展性： kafka群集支持热扩展；

持久性、可靠性：消息持久化到本地磁盘，支持数据备份以防止数据丢失。

容错：允许群集中的节点失败(如果副本数为n，则允许n-1节点失败)；

高并发：支持数千个客户端同时读写；

支持实时在线处理和离线处理：可以使用Storm这样的实时流媒体系统实时处理消息，同时也可以使用Hadoop这样的批处理系统进行离线处理。

Kafka应用场景：图： Kafka应用场景Kafka与其他组件相比，具有消息持久化、高吞吐量、分布式、多客户端支持、实时等特性，可用于常规消息收集、网站

日志收集：一家公司可以在Kafka上收集各种服务的日志，通过Kafka可以作为集成接口服务向各种consumer开放，如Hadoop、Hbase、Solr等

消息系统：解耦、生产者和消费者、缓存消息等

用户活动跟踪： Kafka常用于记录web用户和app用户的活动，如web浏览、搜索和点击。这些活动信息由各项服务发布到Kafka的topic，读者订阅这些topic进行实时监控分析，或者加载到Hadoop或数据仓库进行脱机分析和挖掘。

运营指标： Kafka也常用于记录运营监控数据。包括收集各种分布式APP应用程序的数据，并为各种操作(如报警和报告)提供集中反馈

流：例如spark streaming和storm；

事件源；

kafka在FusionInsight中的位置：

图： Kafka在FusionInsight中的位置Kafka用作支持在线和脱机消息处理的分布式消息系统，并提供了Java API以供其他组件与坞站连接。

afka体系结构和功能Kafka体系结构：图： Kafka体系结构图的基本概念：

Broker:Kafka群集包含一个或多个称为Broker的服务实例。是Kafka中具体处理数据的单元。 Kafka支持Broker水平扩展。一般来说，Broker数据越多，集群的吞吐量就越强。

topic :发布到Kafka群集的所有邮件都有一个称为topic的类别。

Partition:Kafka将Topic分为一个或多个Partition，每个Partition在物理上与一个文件夹相对应，该文件下存储该Partition的所有邮件。

producer :负责向Kafka中介发布信息。

Consumer :信息消费者，从Kafka中介读取信息的客户端。

客户组：每个客户都属于特定的客户组。您可以为每个Consumer指定组名称。

ZooKeeper:kafka与Zookeeper级联，由Zookeeper管理级联配置，并选择Leader。

Kafka Topics :照片； Kafka Topics为发布到Kafka的每封邮件都有一个类别。此类别称为Topic，也可以理解为存储消息的队列。例如，天气可以作为Topic，将每天的温度信息保存在“天气”这一列中。数据总数是先进先出。后面的数据将添加到后面。

Kafka分区：照片： Kafka分区每个主题由一个或多个分区组成。每个分区都是有序、不变的消息队列。引入了Partition机制，保证了Kafka的高吞吐量能力。

每个分区都存储一个日志文件，其中记录了所有消息文件。一个主题的多个分区分布在不同的Kafka节点上。这样，包括Producer和Consumer在内的多个客户端就可以同时访问不同的节点，并对同一主题读取消息。

图：分区主题分区数可以在创建时设置。

分区数据决定了每个客户组并发消费者的最大数据。

Consumer group A有两个消费者读取四个分区

数据；Consumer group B有四个消费者来读取4个partition中数据。

Kafka Partition offset:

图：Kafka Partition offset

任何发布到此Partition的消息都会被直接追加到log文件的尾部。

每条消息在文件中的位置称为offset（偏移量），offset是一个long型数字，它唯一标记一条消息。消费者通过（offset、partition、topic）跟踪记录。

Kafka不支持消息的随机读取。

Kafak Partition Replicas（副本）:

图：副本机制

副本以分区为单位。每个分区都有各自的主副本。

可以通过配置文件，配置副本的个数。

一个Kafka集群中，各个节点可能互为Leader和Follower。

主副本叫做Leader，从副本叫做Follower，处于同步状态的副本叫做In-Sync Replicas（ISR）。

如果Leader失效，那么将会有其他的Follower来接管成为新的Leader。如果由于Follower自身的原因，比如网络原因导致同步落后太多，那么当Leader失效后，就不会将这个Follower选为leader。

由于Leader的Server承载了全部的请求压力，因此从集群的整体考虑，Kafka会将Leader均衡的分散在每个实例上，来保持整体稳定。

Follower通过拉取的方式从Leader中同步数据。消费者和生产这都是从Leader中读取数据，不与Follower交互。

主副本和从副本的数据同步：

图：主副本和从副本的数据同步

从Partition的Leader复制数据到Follower，需要一个线程，实际上，复制数据的操作，是Follower主动从Leader上批量拉取数据，这就极大的提高了Kafka的吞吐量。Follower复制数据的线程叫做ReplicaFetcher Thread，而Kafka的Producer和Consumer只与Leader进行交互，不会与Follower进行交互。

图片

Kafka中每个Broker启动的时候，都会创建一个副本管理服务ReplicaManager，该服务负责维护ReplicaFether Thread与其他Broker链路连接关系。该服务中存在的Follower Partition对应的Leader Partition会分布在不同的Broker上，这些Broker创建相同数量的ReplicaFether Thread，同步对应Partition数据。

Kafka中Partition间复制数据，是由Follower主动从Leader拉消息的。Follower每次读取消息都会更新HW状态，用于记录当前最新消息的标识。每当Follower的Partition发生变化而影响Leader所在的Broker时，ReplicaManager就会新建或者销毁相对应的ReplicaFether Thread。

推荐阅读

java
ejava,刘聪dejava

本文目录一览：1、什么是Java？2、java ... [详细]

蜡笔小新 2023-12-09 09:28:18
java
Python高级之网络编程及TCP/IP协议簇的OSI七层模型介绍

本文介绍了Python高级网络编程及TCP/IP协议簇的OSI七层模型。首先简单介绍了七层模型的各层及其封装解封装过程。然后讨论了程序开发中涉及到的网络通信内容，主要包括TCP协议、UDP协议和IPV4协议。最后还介绍了socket编程、聊天socket实现、远程执行命令、上传文件、socketserver及其源码分析等相关内容。 ... [详细]

蜡笔小新 2023-12-14 18:16:27
java
90后程序员的职业发展之路：从年薪3w到30w的经验分享

本文是一位90后程序员分享的职业发展经验，从年薪3w到30w的薪资增长过程。文章回顾了自己的青春时光，包括与朋友一起玩DOTA的回忆，并附上了一段纪念DOTA青春的视频链接。作者还提到了一些与程序员相关的名词和团队，如Pis、蛛丝马迹、B神、LGD、EHOME等。通过分享自己的经验，作者希望能够给其他程序员提供一些职业发展的思路和启示。 ... [详细]

蜡笔小新 2023-12-14 15:22:09
js
如何限制php数据库链接数和连接超时时间？

本文介绍了如何使用php限制数据库插入的条数并显示每次插入数据库之间的数据数目，以及避免重复提交的方法。同时还介绍了如何限制某一个数据库用户的并发连接数，以及设置数据库的连接数和连接超时时间的方法。最后提供了一些关于浏览器在线用户数和数据库连接数量比例的参考值。 ... [详细]

蜡笔小新 2023-12-14 14:06:10
java
如何使用Java获取服务器硬件信息和磁盘负载率

本文介绍了使用Java编程语言获取服务器硬件信息和磁盘负载率的方法。首先在远程服务器上搭建一个支持服务端语言的HTTP服务，并获取服务器的磁盘信息，并将结果输出。然后在本地使用JS编写一个AJAX脚本，远程请求服务端的程序，得到结果并展示给用户。其中还介绍了如何提取硬盘序列号的方法。 ... [详细]

蜡笔小新 2023-12-14 13:56:20
java
Web学习历程记录（七）——Tomcat基本概念和配置

本文介绍了Web学习历程记录中关于Tomcat的基本概念和配置。首先解释了Web静态Web资源和动态Web资源的概念，以及C/S架构和B/S架构的区别。然后介绍了常见的Web服务器，包括Weblogic、WebSphere和Tomcat。接着详细讲解了Tomcat的虚拟主机、web应用和虚拟路径映射的概念和配置过程。最后简要介绍了http协议的作用。本文内容详实，适合初学者了解Tomcat的基础知识。 ... [详细]

蜡笔小新 2023-12-13 17:08:24
java
如何在服务器主机上实现文件共享的方法和工具

本文介绍了在服务器主机上实现文件共享的方法和工具，包括Linux主机和Windows主机的文件传输方式，Web运维和FTP/SFTP客户端运维两种方式，以及使用WinSCP工具将文件上传至Linux云服务器的操作方法。此外，还介绍了在迁移过程中需要安装迁移Agent并输入目的端服务器所在华为云的AK/SK，以及主机迁移服务会收集的源端服务器信息。 ... [详细]

蜡笔小新 2023-12-13 13:23:48
java
Python连接服务器失败：使用aiohttp模拟服务器出现错误问题及解决方法

本文介绍了在使用Python中的aiohttp模块模拟服务器时出现的连接失败问题，并提供了相应的解决方法。文章中详细说明了出错的代码以及相关的软件版本和环境信息，同时也提到了相关的警告信息和函数的替代方案。通过阅读本文，读者可以了解到如何解决Python连接服务器失败的问题，并对aiohttp模块有更深入的了解。 ... [详细]

蜡笔小新 2023-12-13 12:37:59
java
Oracle优化新常态的五大禁止及其性能隐患

本文介绍了Oracle优化新常态中的五大禁止措施，包括禁止外键、禁止视图、禁止触发器、禁止存储过程和禁止JOB，并分析了这些禁止措施可能带来的性能隐患。文章还讨论了这些禁止措施在C/S架构和B/S架构中的不同应用情况，并提出了解决方案。 ... [详细]

蜡笔小新 2023-12-12 12:55:55
go
mac php错误日志配置方法及错误级别修改

本文介绍了在mac环境下配置php错误日志的方法，包括修改php.ini文件和httpd.conf文件的操作步骤。同时还介绍了如何修改错误级别，以及相应的错误级别参考链接。 ... [详细]

蜡笔小新 2023-12-12 11:59:08
js
一句话解决高并发的核心原则

本文介绍了解决高并发的核心原则，即将用户访问请求尽量往前推，避免访问CDN、静态服务器、动态服务器、数据库和存储，从而实现高性能、高并发、高可扩展的网站架构。同时提到了Google的成功案例，以及适用于千万级别PV站和亿级PV网站的架构层次。 ... [详细]

蜡笔小新 2023-12-12 10:56:24
js
网络请求模块选择——axios框架的基本使用和封装

本文介绍了选择网络请求模块axios的原因，以及axios框架的基本使用和封装方法。包括发送并发请求的演示，全局配置的设置，创建axios实例的方法，拦截器的使用，以及如何封装和请求响应劫持等内容。 ... [详细]

蜡笔小新 2023-12-12 10:16:43
js
基于Socket的多个客户端之间的聊天功能实现方法

本文介绍了基于Socket的多个客户端之间实现聊天功能的方法，包括服务器端的实现和客户端的实现。服务器端通过每个用户的输出流向特定用户发送消息，而客户端通过输入流接收消息。同时，还介绍了相关的实体类和Socket的基本概念。 ... [详细]

蜡笔小新 2023-12-11 15:55:40
java
Unity3D引擎的体系结构和功能详解

本文详细介绍了Unity3D引擎的体系结构和功能。Unity3D是一个屡获殊荣的工具，用于创建交互式3D应用程序。它由游戏引擎和编辑器组成，支持C#、Boo和JavaScript脚本编程。该引擎涵盖了声音、图形、物理和网络功能等主题。Unity编辑器具有多语言脚本编辑器和预制装配系统等特点。本文还介绍了Unity的许可证情况。Unity基本功能有限的免费，适用于PC、MAC和Web开发。其他平台或完整的功能集需要购买许可证。 ... [详细]

蜡笔小新 2023-12-10 11:01:31
metadata
ASP.global_asax不存在于命名空间ASP中的问题

本文讨论了在ASP中创建RazorFunctions.cshtml文件时出现的问题，即ASP.global_asax不存在于命名空间ASP中。文章提供了解决该问题的代码示例，并详细解释了代码中涉及的关键概念，如HttpContext、Request和RouteData等。通过阅读本文，读者可以了解如何解决该问题并理解相关的ASP概念。 ... [详细]

蜡笔小新 2023-12-09 19:22:03

明霞学

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章