Flume和Logstash对比

作者：jelly62_736 | 来源：互联网 | 2023-09-12 09:40

Flume和Logstash对比更多干货分布式实战（干货）springcloud实战（干货）mybatis实战ÿ

Flume和Logstash 对比

一、概述

在某个Logstash的场景下&＃xff0c;我产生了为什么不能用Flume代替Logstash的疑问&＃xff0c;因此查阅了不少材料在这里总结&＃xff0c;大部分都是前人的工作经验下&＃xff0c;加了一些我自己的思考在里面&＃xff0c;希望对大家有帮助。

大数据的数据采集工作是大数据技术中非常重要、基础的部分&＃xff0c;数据不会平白无故地跑到你的数据平台软件中&＃xff0c;你得用什么东西把它从现有的设备&＃xff08;比如服务器&＃xff0c;路由器、交换机、防火墙、数据库等&＃xff09;采集过来&＃xff0c;再传输到你的平台中&＃xff0c;然后才会有后面更加复杂高难度的处理技术。

目前&＃xff0c;Flume和Logstash是比较主流的数据采集工具&＃xff08;主要用于日志采集&＃xff09;&＃xff0c;但是很多人还不太明白两者的区别&＃xff0c;特别是对用户来说&＃xff0c;具体场景使用合适的采集工具&＃xff0c;可以大大提高效率和可靠性&＃xff0c;并降低资源成本。

我们先来看Logstash&＃xff0c;然后看Flume

二、一个通用的数据采集模型

普适环境的数据采集其中&＃xff0c;数据采集和存储是必要的环节&＃xff0c;其他并不一定需要。是不是很简单&＃xff1f;本来编程其实就是模块化的东西&＃xff0c;没有那么难。但是这毕竟只是一个粗略的通用模型&＃xff0c;不同开源社区或者商业厂家开发的时候都会有自己的考虑和目的。我们在本文要讨论的Flume和Logstash原则上都属于数据采集这个范畴&＃xff0c;尽管两者在技术上或多或少都自带了一些缓冲、过滤等等功能。

三、Logstash

Logstash是ELK组件中的一个。所谓ELK就是指&＃xff0c;ElasticSearch、Logstash、Kibana这三个组件。那么为什么这三个组件要合在一起说呢&＃xff1f;第一&＃xff0c;这三个组件往往是配合使用的&＃xff08;ES负责数据的存储和索引&＃xff0c;Logstash负责数据采集和过滤转换&＃xff0c;Kibana则负责图形界面处理&＃xff09;&＃xff1b;第二&＃xff0c;这三个组件又先后被收购于Elastic.co公司名下。是不是很巧合&＃xff1f;这里说个题外话&＃xff0c;原ELK Stack在5.0版本加入Beats&＃xff08;一种代理&＃xff09;套件后改称为Elastic Stack&＃xff0c;这两个词是一个意思&＃xff0c;只不过因为增加了Beats代理工具&＃xff0c;改了个名字。

Logstash诞生于2009年8有2日&＃xff0c;其作者是世界著名的虚拟主机托管商DreamHost的运维工程师乔丹西塞&＃xff08;Jordan Sissel&＃xff09;。Logstash的开发很早&＃xff0c;对比一下&＃xff0c;Scribed诞生于2008年&＃xff0c;Flume诞生于2010年&＃xff0c;Graylog2诞生于2010年&＃xff0c;Fluentd诞生于2011年。2013年&＃xff0c;Logstash被ElasticSearch公司收购。这里顺便提一句&＃xff0c;Logstash是乔丹的作品&＃xff0c;所以带着独特的个人性格&＃xff0c;这一点不像Facebook的Scribe&＃xff0c;Apache的Flume开源基金项目。

Logstash的设计非常规范&＃xff0c;有三个组件&＃xff0c;其分工如下&＃xff1a;

1、Shipper 负责日志收集。职责是监控本地日志文件的变化&＃xff0c;并输出到 Redis 缓存起来&＃xff1b;
2、Broker 可以看作是日志集线器&＃xff0c;可以连接多个 Shipper 和多个 Indexer&＃xff1b;
3、Indexer 负责日志存储。在这个架构中会从 Redis 接收日志&＃xff0c;写入到本地文件。

这里要说明&＃xff0c;因为架构比较灵活&＃xff0c;如果不想用 Logstash 的存储&＃xff0c;也可以对接到 Elasticsearch&＃xff0c;这也就是前面所说的 ELK 的套路了。

如果继续细分&＃xff0c;Logstash也可以这么解剖来看

Logstash三个工作阶段貌似到这里。。。好像就讲完了。。。读者朋友们不要骂我&＃xff0c;因为Logstash就是这么简约&＃xff0c;全部将代码集成&＃xff0c;程序员不需要关心里面是如何运转的。

Logstash最值得一提的是&＃xff0c;在Filter plugin部分具有比较完备的功能&＃xff0c;比如grok&＃xff0c;能通过正则解析和结构化任何文本&＃xff0c;Grok 目前是Logstash最好的方式对非结构化日志数据解析成结构化和可查询化。此外&＃xff0c;Logstash还可以重命名、删除、替换和修改事件字段&＃xff0c;当然也包括完全丢弃事件&＃xff0c;如debug事件。还有很多的复杂功能供程序员自己选择&＃xff0c;你会发现这些功能Flume是绝对没有&＃xff08;以它的轻量级线程也是不可能做到的&＃xff09;。当然&＃xff0c;在input和output两个插件部分也具有非常多类似的可选择性功能&＃xff0c;程序员可以自由选择&＃xff0c;这一点跟Flume是比较相似的。

四、Flume

Logstash因为集成化设计&＃xff0c;所以理解起来其实不难。现在我们讲讲Flume&＃xff0c;这块内容就有点多了。

1、Flume OG

最早Flume是由Cloudrea开发的日志收集系统&＃xff0c;初始的发行版本叫做Flume OG&＃xff08;就是original generation的意思&＃xff09;&＃xff0c;作为开源工具&＃xff0c;一经公布&＃xff0c;其实是很受关注的一套工具&＃xff0c;但是后面随着功能的拓展&＃xff0c;暴露出代码工程臃肿、核心组件设计不合理、核心配置不标准等各种缺点。尤其是在Flume OG的最后一个发行版本0.94.0中&＃xff0c;日志传输不稳定的现象特别严重。我们来看看Flume OG到底有什么问题。

Flume OG架构图直到现在&＃xff0c;你在网络上搜索Flume相关资料的时候还会经常出现Flume OG的结构图&＃xff0c;这对新人来说是很不友好的&＃xff0c;很容易引起误导&＃xff0c;请读者朋友们一定要注意&＃xff01;我们可以看到Flume OG有三种角色的节点&＃xff1a;代理节点&＃xff08;agent&＃xff09;、收集节点&＃xff08;collector&＃xff09;、主节点&＃xff08;master&＃xff09;。

流程理解起来也并不困难&＃xff1a;agent 从各个数据源收集日志数据&＃xff0c;将收集到的数据集中到 collector&＃xff0c;然后由收集节点汇总存入 hdfs。master 负责管理 agent&＃xff0c;collector 的活动。agent、collector 都称为 node&＃xff0c;node 的角色根据配置的不同分为 logical node&＃xff08;逻辑节点&＃xff09;、physical node&＃xff08;物理节点&＃xff09;。对logical nodes和physical nodes的区分、配置、使用一直以来都是使用者最头疼的地方。

Flume OG中节点的构成 agent、collector 由 source、sink 组成&＃xff0c;代表在当前节点数据是从 source 传送到 sink。

就算是外行人&＃xff0c;看到这里也觉得很头大&＃xff0c;这尼玛是谁设计出来的破玩意&＃xff1f;

各种问题的暴露&＃xff0c;迫使开发者痛下决心&＃xff0c;抛弃原有的设计理念&＃xff0c;彻底重写Flume。于是在2011 年 10 月 22 号&＃xff0c;Cloudera 完成了 Flume-728&＃xff0c;对 Flume 进行了里程碑式的改动&＃xff1a;重构核心组件、核心配置以及代码架构&＃xff0c;重构后的版本统称为 Flume NG&＃xff08;next generation下一代的意思&＃xff09;&＃xff1b;改动的另一原因是将 Flume 纳入 apache 旗下&＃xff0c;Cloudera Flume 改名为 Apache Flume&＃xff0c;所以现在Flume已经是Apache ETL工具集中的一员。

这里说个题外话&＃xff0c;大家都知道&＃xff0c;通常情况下大公司&＃xff0c;特别是大型IT公司是比较排斥使用一些不稳定的新技术的&＃xff0c;也不喜欢频繁变换技术&＃xff0c;这很简单&＃xff0c;因为变化很容易导致意外。举个例子&＃xff0c;Linux发展了二十多年了&＃xff0c;大部分公司都在使用RedHat、CentOS和Ubuntu这类旨在提供稳定、兼容好的版本&＃xff0c;如果你看到一家公司用的是Linux新内核&＃xff0c;那多半是一家新公司&＃xff0c;需要用一些新技术在竞争中处于上风。

1、Flume NG

好&＃xff0c;了解了一些历史背景&＃xff0c;现在我们可以放上Flume NG的结构图了

Flume NG结构图卧槽&＃xff0c;是不是很简单&＃xff1f;&＃xff01;对比一下OG的结构&＃xff0c;外行人都会惊叹&＃xff1a;so easy&＃xff01;

这次开发者吸取了OG的血淋林教训&＃xff0c;将最核心的几块部分做了改动&＃xff1a;

1、NG 只有一种角色的节点&＃xff1a;代理节点&＃xff08;agent&＃xff09;&＃xff0c;而不是像OG那么多角色&＃xff1b;
2、没有collector&＃xff0c;master节点。这是核心组件最核心的变化&＃xff1b;
3、去除了physical nodes、logical nodes的概念和相关内容&＃xff1b;
4、agent 节点的组成也发生了变化&＃xff0c;NG agent由source、sink、channel组成。

那么这么做有什么好处呢&＃xff1f;简单概括有这么三点&＃xff1a;

1、NG 简化核心组件&＃xff0c;移除了 OG 版本代码工程臃肿、核心组件设计不合理、核心配置不标准等缺点&＃xff0c;使得数据流的配置变得更简单合理&＃xff0c;这是比较直观的一个改进点&＃xff1b;
2、NG 脱离了 Flume 稳定性对 zookeeper 的依赖。在早期的OG版本中&＃xff0c;Flume 的使用稳定性依赖 zookeeper。它需要 zookeeper 对其多类节点&＃xff08;agent、collector、master&＃xff09;的工作进行管理&＃xff0c;尤其是在集群中配置多个 master 的情况下。当然&＃xff0c;OG 也可以用内存的方式管理各类节点的配置信息&＃xff0c;但是需要用户能够忍受在机器出现故障时配置信息出现丢失。所以说 OG 的稳定行使用是依赖 zookeeper 的。
3、NG 版本对用户要求大大降低&＃xff1a;安装过程除了java无需配置复杂的Flume相关属性&＃xff0c;也无需搭建zookeeper集群&＃xff0c;安装过程几乎零工作量。

有人很不解&＃xff0c;怎么突然冒出来一个Zookeeper这个概念&＃xff0c;这是个啥玩意&＃xff1f;简单的说&＃xff0c;Zookeeper 是针对大型分布式系统的可靠协调系统&＃xff0c;适用于有多类角色集群管理。你可以把它理解为整个Hadoop的总管家&＃xff0c;负责整个系统所有组件之间的协调工作管理。这个组件平时很不起眼&＃xff0c;但非常重要。好比一支篮球队&＃xff0c;五个队员个个都是巨星&＃xff0c;所以我们平时都习惯关注这五个人&＃xff0c;但是整个球队的获胜缺不了教练的协调组织、战术安排&＃xff0c;Zookeeper就好比是整个Hadoop系统的教练。比喻虽然有些生硬&＃xff0c;只是想说明Zookeeper的重要性&＃xff0c;也侧面说明NG在摆脱了Zookeeper的依赖后变得更加轻便&＃xff0c;灵活。

说个题外话&＃xff0c;OG版本的使用文档有90多页&＃xff0c;而NG只用 20 多页的内容就完成了新版 Flume 的使用说明。可见在科学研究领域&＃xff0c;人类总是在追求真理&＃xff0c;而真理总是可以用最简单的语言描述出来。

到这里差不多Flume就讲的差不多了&＃xff0c;因为这个线程工具从原理上讲真的很简单&＃xff0c;三段式的结构&＃xff1a;源&＃xff08;Source输入&＃xff09;——存储&＃xff08;Channel管道&＃xff09;——出口&＃xff08;Sink目标输出&＃xff09;。但也因为涉及到这三个结构&＃xff0c;所以做配置就比较复杂&＃xff0c;这里举个例子&＃xff0c;我们看看Flume在一些场景下是如何搭建布置的。

Flume集群部署

这里要纠正几个很多初学Flume朋友们的误区。首先&＃xff0c;Flume已经可以支持一个Agent中有多个不同类型的channel和sink&＃xff0c;我们可以选择把Source的数据复制&＃xff0c;分发给不同的目的端口&＃xff0c;比如&＃xff1a;

Flume的多重复用

其次&＃xff0c;Flume还自带了分区和拦截器功能&＃xff0c;因此不是像很多实验者认为的没有过滤功能&＃xff08;当然我承认Flume的过滤功能比较弱&＃xff09;。

读者可能会隐约感觉到&＃xff0c;Flume在集群中最擅长的事情就是做路由了&＃xff0c;因为每一个Flume Agent相连就构成了一条链路&＃xff0c;这也是众多采集工具中Flume非常出色的亮点。但是也正因为如此&＃xff0c;如果有一个Flume Agent出了问题&＃xff0c;那么整个链路也会出现问题&＃xff0c;所以在集群中需要设计分层架构等来实现冗余备份。但这么一来&＃xff0c;配置又会变得很麻烦。

五、对比

把Logstash和Flume都讲完了&＃xff0c;我们最后可以对比总结一下了。

首先从结构对比&＃xff0c;我们会惊人的发现&＃xff0c;两者是多么的相似&＃xff01;Logstash的Shipper、Broker、Indexer分别和Flume的Source、Channel、Sink各自对应&＃xff01;只不过是Logstash集成了&＃xff0c;Broker可以不需要&＃xff0c;而Flume需要单独配置&＃xff0c;且缺一不可&＃xff0c;但这再一次说明了计算机的设计思想都是通用的&＃xff01;只是实现方式会不同而已。

从程序员的角度来说&＃xff0c;上文也提到过了&＃xff0c;Flume是真的很繁琐&＃xff0c;你需要分别作source、channel、sink的手工配置&＃xff0c;而且涉及到复杂的数据采集环境&＃xff0c;你可能还要做多个配置&＃xff0c;这在上面提过了&＃xff0c;反过来说Logstash的配置就非常简洁清晰&＃xff0c;三个部分的属性都定义好了&＃xff0c;程序员自己去选择就行&＃xff0c;就算没有&＃xff0c;也可以自行开发插件&＃xff0c;非常方便。当然了&＃xff0c;Flume的插件也很多&＃xff0c;但Channel就只有内存和文件这两种&＃xff08;其实现在不止了&＃xff0c;但常用的也就两种&＃xff09;。读者可以看得出来&＃xff0c;两者其实配置都是非常灵活的&＃xff0c;只不过看场景取舍罢了。

其实从作者和历史背景来看&＃xff0c;两者最初的设计目的就不太一样。Flume本身最初设计的目的是为了把数据传入HDFS中&＃xff08;并不是为了采集日志而设计&＃xff0c;这和Logstash有根本的区别&＃xff09;&＃xff0c;所以理所应当侧重于数据的传输&＃xff0c;程序员要非常清楚整个数据的路由&＃xff0c;并且比Logstash还多了一个可靠性策略&＃xff0c;上文中的channel就是用于持久化目的&＃xff0c;数据除非确认传输到下一位置了&＃xff0c;否则不会删除&＃xff0c;这一步是通过事务来控制的&＃xff0c;这样的设计使得可靠性非常好。相反&＃xff0c;Logstash则明显侧重对数据的预处理&＃xff0c;因为日志的字段需要大量的预处理&＃xff0c;为解析做铺垫。

回过来看我当初为什么先讲Logstash然后讲Flume&＃xff1f;这里面有几个考虑&＃xff0c;其一&＃xff1a;Logstash其实更有点像通用的模型&＃xff0c;所以对新人来说理解起来更简单&＃xff0c;而Flume这样轻量级的线程&＃xff0c;可能有一定的计算机编程基础理解起来更好&＃xff1b;其二&＃xff1a;目前大部分的情况下&＃xff0c;Logstash用的更加多&＃xff0c;这个数据我自己没有统计过&＃xff0c;但是根据经验判断&＃xff0c;Logstash可以和ELK其他组件配合使用&＃xff0c;开发、应用都会简单很多&＃xff0c;技术成熟&＃xff0c;使用场景广泛。相反Flume组件就需要和其他很多工具配合使用&＃xff0c;场景的针对性会比较强&＃xff0c;更不用提Flume的配置过于繁琐复杂了。

最后总结下来&＃xff0c;我们可以这么理解他们的区别&＃xff1a;Logstash就像是买来的台式机&＃xff0c;主板、电源、硬盘&＃xff0c;机箱&＃xff08;Logstash&＃xff09;把里面的东西全部装好了&＃xff0c;你可以直接用&＃xff0c;当然也可以自己组装修改&＃xff1b;Flume就像提供给你一套完整的主板&＃xff0c;电源、硬盘&＃xff0c;Flume没有打包&＃xff0c;只是像说明书一样指导你如何组装&＃xff0c;才能运行的起来。

推荐阅读

uri
java电商,java电商项目面试题

本文目录一览：1、为什么很多商家选择Java商城系统？ ... [详细]

蜡笔小新 2024-10-20 19:16:10
uri
基于Java、PHP和Python的汽车销售管理系统计算机科学毕业设计研究

本研究聚焦于利用Java、PHP和Python开发的汽车销售管理系统，旨在为计算机科学专业学生的毕业设计提供参考。项目采用BS架构，结合多种编程语言的优势，实现高效的数据管理和用户交互。该系统不仅涵盖了汽车销售的核心功能，还通过集成先进的技术栈，提升了系统的稳定性和扩展性。 ... [详细]

蜡笔小新 2024-10-26 21:14:58
uri
Spring cloud微服务架构前后端分离博客系统，Vue+boot源码分享

Spring cloud微服务架构前后端分离博客系统，Vue+boot源码分享 ... [详细]

蜡笔小新 2024-10-17 12:18:56
uri
全栈工程师在当今技术领域的角色与价值探析

当前，众多初创企业对全栈工程师的需求日益增长，但市场中却存在大量所谓的“伪全栈工程师”，尤其是那些仅掌握了Node.js技能的前端开发人员。本文旨在深入探讨全栈工程师在现代技术生态中的真实角色与价值，澄清对这一角色的误解，并强调真正的全栈工程师应具备全面的技术栈和综合解决问题的能力。 ... [详细]

蜡笔小新 2024-10-31 10:28:12
import
PyQt5 QTextEdit：深入解析Python中多功能GUI库的应用与实现

本文详细探讨了 PyQt5 中 QTextEdit 组件在 Python 多功能 GUI 库中的应用与实现。PyQt5 是 Qt 框架的 Python 绑定，提供了超过 620 个类和 6000 个函数及方法，广泛应用于跨平台应用程序开发。QTextEdit 作为其中的重要组件，支持丰富的文本编辑功能，如富文本格式、文本高亮和自定义样式等。PyQt5 的流行性不仅在于其强大的功能，还在于其易用性和灵活性，使其成为开发复杂用户界面的理想选择。 ... [详细]

蜡笔小新 2024-10-28 23:56:36
runtime
为何Serverless将成为未来十年的主导技术领域？

为何Serverless将成为未来十年的主导技术领域？ ... [详细]

蜡笔小新 2024-10-28 09:23:05
netty
阿里巴巴Java后端开发面试：TCP、Netty、HashMap、并发锁与红黑树深度解析

阿里巴巴Java后端开发面试：TCP、Netty、HashMap、并发锁与红黑树深度解析 ... [详细]

蜡笔小新 2024-10-26 14:26:06
request
Spring 中获取 Request 的多种方式及其线程安全性的深入解析

本文深入探讨了在Spring MVC框架下获取HTTP请求对象的多种方法，详细分析了每种方法的实现原理及其线程安全性，为开发者提供了全面的技术参考。 ... [详细]

蜡笔小新 2024-10-26 08:48:10
request
Python爬虫技术深度解析：从B站海量数据中挖掘热门UP主的成功秘诀

本文深入解析了 Python 爬虫技术在 B 站数据挖掘中的应用，通过分析海量用户行为和内容数据，揭示了热门 UP 主成功的背后因素。Python 作为一种强大的编程语言，其面向对象和解释执行的特点使其成为数据抓取和处理的理想选择。文章详细介绍了如何利用 Python 爬虫技术获取 B 站的数据，并通过数据分析方法，探讨了热门 UP 主的创作策略和互动模式，为内容创作者提供了有价值的参考。 ... [详细]

蜡笔小新 2024-10-25 10:41:59
request
全面解析：Python数据分析精华资源汇总（附带企业级实践案例）

最近几年，数据分析可真是太火了。阿里、字节等互联网巨头基于大数据打造的商业模式获得巨大成功，使得“数据思维”、“数据能力”迅速成为衡量职场人能力的核心指 ... [详细]

蜡笔小新 2024-10-23 18:40:35
import
编程心得：精选5.20告白代码，助你赢得佳人芳心，单身人士速来取经！

编程心得：精选5.20告白代码，助你赢得佳人芳心，单身人士速来取经！ ... [详细]

蜡笔小新 2024-10-22 21:54:29
client
Spring Cloud 中 @EnableDiscoveryClient 与 @EnableEurekaClient 注解的功能差异及应用场景分析

Spring Cloud 中 @EnableDiscoveryClient 与 @EnableEurekaClient 注解的功能差异及应用场景分析 ... [详细]

蜡笔小新 2024-10-22 12:06:36
client
招聘 | 完美世界信息安全部期待你的加入~

招聘 | 完美世界信息安全部期待你的加入~ ... [详细]

蜡笔小新 2024-10-20 11:53:58
client
初级开发人员应探索的10项（免费）数据结构和算法课程

算法和数据结构是计算机科学中最基础和最重要的两个主题，在软件开发中无处不在。我坚信，对这两个主题的充分了解对于成为一名更好的程序员也很关键， ... [详细]

蜡笔小新 2024-10-18 21:11:44
client
黑马php2019如何(2023年最新分享)

导读：很多朋友问到关于黑马php2019如何的相关问题，本文编程笔记就来为大家做个详细解答，供大家参考，希望对大家有所帮助！一起来看看吧！本文目录一览： ... [详细]

蜡笔小新 2024-10-17 11:32:48

jelly62_736

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章