Flume笔记一基础

作者：手机用户2502907603 | 来源：互联网 | 2023-08-21 15:12

FlumeFlume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定

Flume

Flume是Cloudera提供的一个高可用的&＃xff0c;高可靠的&＃xff0c;分布式的海量日志采集、聚合和传输的系统&＃xff0c; Flume支持在日志系统中定制各类数据发送方&＃xff0c;用于收集数据&＃xff1b;同时&＃xff0c;Flume提供对数据进行简单处理&＃xff0c;并写到各种数据接受方&＃xff08;可定制&＃xff09;的能力。

架构
在这里插入图片描述

运行机制&＃xff1a;

Flume 的核心是把数据从数据源(source)收集过来&＃xff0c;在将收集到的数据送到指定的目的地(sink)。为了保证输送的过程一定成功&＃xff0c;在送到目的地(sink)之前&＃xff0c;会先缓存数据(channel),待数据真正到达目的地(sink)后&＃xff0c;ﬂume 在删除自己缓存的数据。

核心的角色是 agent&＃xff0c; agent 本身是一个 Java 进程&＃xff0c; 一般运行在日志收集节点。 ﬂume 采集系统就是由一个个 agent 所连接起来形成。

agent的三个组件&＃xff1a;

Source&＃xff1a;
Source 是负责接收数据到 Flume Agent 的组件。Source 组件可以处理各种类型、各种格式的日志数据&＃xff0c;包括 avro、thrift、exec、jms、spooling directory、netcat、sequence generator、syslog、http、legacy。

Channel&＃xff1a;
Channel 是位于 Source 和 Sink 之间的缓冲区。因此&＃xff0c;Channel 允许 Source 和 Sink 运作在不同的速率上。Channel 是线程安全的&＃xff0c;可以同时处理几个 Source 的写入操作和几个Sink 的读取操作。
Flume 自带两种 Channel&＃xff1a;Memory Channel 和 File Channel 以及 Kafka Channel。
Memory Channel 是内存中的队列。Memory Channel 在不需要关心数据丢失的情景下适用。如果需要关心数据丢失&＃xff0c;那么 Memory Channel 就不应该使用&＃xff0c;因为程序死亡、机器宕机或者重启都会导致数据丢失。
File Channel 将所有事件写到磁盘。因此在程序关闭或机器宕机的情况下不会丢失数据。

Sink&＃xff1a;
Sink 不断地轮询 Channel 中的事件且批量地移除它们&＃xff0c;并将这些事件批量写入到存储或索引系统、或者被发送到另一个 Flume Agent。
Sink 组件目的地包括 hdfs、logger、avro、thrift、ipc、file、HBase、solr、自定义。

Event
传输单元&＃xff0c;Flume 数据传输的基本单元&＃xff0c;以 Event 的形式将数据从源头送至目的地。Event 由 Header 和 Body 两部分组成&＃xff0c;Header 用来存放该 event 的一些属性&＃xff0c;为 K-V 结构&＃xff0c;Body 用来存放该条数据&＃xff0c;形式为字节数组。

在这里插入图片描述

安装&＃xff1a;

1.解压
2.修改flume-env.sh
添加java环境变量
3.验证
flume-ng version

案例&＃xff1a;

nc

netcat 源

1.flume配置文件

# Name the components on this agent a1.sources &＃61; r1 a1.sinks &＃61; k1 a1.channels &＃61; c1 # 对当前agent的命名组件 a1&＃xff1a;当前agent的名字如果在同一节点有多个agent # 需要区别开 source&＃xff0c;sink&＃xff0c;channel后边加s说明可能会有多个组件# Describe/configure the source a1.sources.r1.type &＃61; netcat a1.sources.r1.bind &＃61; localhost a1.sources.r1.port &＃61; 44444 # 描述和配置当前的source 监听的节点和端口# Describe the sink a1.sinks.k1.type &＃61; logger # sink的类型是log# Use a channel which buffers events in memory a1.channels.c1.type &＃61; memory a1.channels.c1.capacity &＃61; 1000 a1.channels.c1.transactionCapacity &＃61; 100 # c1类型是内存级别缓冲大小阈值单位&＃xff1a;事件一次传输的事件量# Bind the source and sink to the channel a1.sources.r1.channels &＃61; c1 a1.sinks.k1.channel &＃61; c1 # 绑定source和sink到channel sink只能绑定一个channel 所以后面没有s

flume启动命令&＃xff1a;

flume-ng agent --conf-file 配置文件 --name a1 -Dflume.root.logger&＃61;INFO,console #agent:启动一个agent #Dflume.root.logger&＃61;INFO,console 打印到控制台不常用

flume启动后相当于开启了一个服务端
在这里插入图片描述
在另一个会话页面&＃xff1a;

nc localhost 44444

相当于开启了一个客户端
此时在客户端输入就会在服务端以log形式打印到控制台
在这里插入图片描述

案例2

利用exec源监控某个文件

Exec Source在启动时运行给定的Unix命令&＃xff0c;并期望进程在标准输出上产生连续的数据&＃xff08;除非属性logStdErr设置为true&＃xff0c;否则stderr将被丢弃&＃xff09;。如果进程由于任何原因退出&＃xff0c;source也会退出&＃xff0c;并且不会生成更多数据。

a1.sources &＃61; r1 a1.sinks &＃61; k1 a1.channels &＃61; c1a1.sources.r1.type &＃61; exec a1.sources.r1.command &＃61; tail -f a1.sinks.k1.type &＃61; loggera1.channels.c1.type &＃61; memory a1.channels.c1.capacity &＃61; 1000 a1.channels.c1.transactionCapacity &＃61; 100a1.sources.r1.channels &＃61; c1 a1.sinks.k1.channel &＃61; c1

追加内容到要监控的文件

cat 2.txt >> flume.log

在这里插入图片描述

案例3&＃xff1a;

flume-hdfs

flume要想将数据输出到hdfs&＃xff0c;需要有hadoop相关jar包
在这里插入图片描述
flume官方手册

http://flume.apache.org/releases/content/1.7.0/FlumeUserGuide.html

滚动文件&＃xff1a;rollsize 设为 hdfs块大小 128mb

滚动文件夹&＃xff1a;用处&＃xff1a;一天滚动一个文件夹

可以配合hive分区按天分区load数据就会很方便

a2.sources &＃61; r2 a2.sinks &＃61; k2 a2.channels &＃61; c2a2.sources.r2.type &＃61; exec a2.sources.r2.command &＃61; tail -F /opt/test.log a2.sources.r2.shell &＃61; /bin/bash -c #解析方式a2.sinks.k2.type &＃61; hdfs a2.sinks.k2.hdfs.path &＃61; hdfs://192.168.56.20:9000/flume/%Y%m%d/%Ha2.sinks.k2.hdfs.round &＃61; true # 按照时间滚动文件夹 a2.sinks.k2.hdfs.roundValue &＃61; 1 # 多长时间创建一个新文件夹 a2.sinks.k2.hdfs.roundUnit &＃61; hour # 重新定义时间单位a2.sinks.k2.hdfs.useLocalTimeStamp &＃61; true # 使用本地时间戳a2.sinks.k2.hdfs.batchSize &＃61; 1000 # 积攒多少个Event flush到hdfs一次 a2.sinks.k2.hdfs.fileType &＃61; DataStream # 设置文件类型 a2.sinks.k2.hdfs.rollIntreval &＃61; 60 # 多久生成一个新文件 s a2.sinks.k2.hdfs.rollSize &＃61; 134217700 # 文件滚动与Event数量无关设置大小比一个hdfs块128MB稍小 a2.sinks.k2.hdfs.rollCount &＃61; 0 # 文件滚动与Event数量无关a2.channels.c2.type &＃61; memory a2.channels.c2.capacity &＃61; 1000 a2.channels.c2.transactionCapacity &＃61; 100a2.sources.r2.channels &＃61; c2 a2.sinks.k2.channel &＃61; c2

案例4&＃xff1a;

监控多个文件

spooldir source

通过此源&＃xff0c;您可以通过将要摄取的文件放入磁盘上的“Spooling”目录中来摄取数据。该源将监视指定目录中的新文件&＃xff0c;并从出现的新文件中解析事件。事件解析逻辑是可插入的。将给定文件完全读入通道后&＃xff0c;将其重命名以指示完成&＃xff08;或选择删除&＃xff09;。

与Exec源不同&＃xff0c;此源是可靠的&＃xff0c;即使Flume重新启动或终止&＃xff0c;它也不会丢失数据。为了获得这种可靠性&＃xff0c;必须仅将不可变的唯一命名的文件放入Spooling目录中。Flume尝试检测这些问题情况&＃xff0c;如果违反这些条件&＃xff0c;将返回失败&＃xff1a;

如果将文件放入Spooling目录后写入文件&＃xff0c;Flume将在其日志文件中打印错误并停止处理。
如果以后再使用文件名&＃xff0c;Flume将在其日志文件中打印错误并停止处理。
为避免上述问题&＃xff0c;将唯一的标识符&＃xff08;例如时间戳&＃xff09;添加到日志文件名称&＃xff08;当它们移到Spooling目录中时&＃xff09;可能会很有用。

尽管有此来源的可靠性保证&＃xff0c;但是在某些情况下&＃xff0c;如果发生某些下游故障&＃xff0c;则事件可能会重复。这与Flume其他组件提供的保证是一致的。

a2.sources &＃61; r2 a2.sinks &＃61; k2 a2.channels &＃61; c2a2.sources.r2.type &＃61; spooldir a2.sources.r2.spoolDir &＃61; /opt/module/flume/upload a2.sinks.k2.type &＃61; hdfs a2.sinks.k2.hdfs.path &＃61; hdfs://192.168.56.20:9000/flume/%Y%m%d/%Ha2.sinks.k2.hdfs.round &＃61; true # 按照时间滚动文件夹 a2.sinks.k2.hdfs.roundValue &＃61; 1 # 多长时间创建一个新文件夹 a2.sinks.k2.hdfs.roundUnit &＃61; hour # 重新定义时间单位a2.sinks.k2.hdfs.useLocalTimeStamp &＃61; true # 使用本地时间戳a2.sinks.k2.hdfs.batchSize &＃61; 1000 # 积攒多少个Event flush到hdfs一次 a2.sinks.k2.hdfs.fileType &＃61; DataStream # 设置文件类型 a2.sinks.k2.hdfs.rollIntreval &＃61; 60 # 多久生成一个新文件 s a2.sinks.k2.hdfs.rollSize &＃61; 134217700 # 文件滚动与Event数量无关设置大小比一个hdfs块128MB稍小 a2.sinks.k2.hdfs.rollCount &＃61; 0 # 文件滚动与Event数量无关a2.channels.c2.type &＃61; memory a2.channels.c2.capacity &＃61; 1000 a2.channels.c2.transactionCapacity &＃61; 100a2.sources.r2.channels &＃61; c2 a2.sinks.k2.channel &＃61; c2

先上传后改名为已读

但是不能动态监控变化的文件

案例5&＃xff1a;

监控动态多文件

1.7版本 Talldir实现断点续传

在通过Flume收集日志的业务场景中&＃xff0c;一般都会遇到下面的情况&＃xff0c;在日志收集服务器的某个目录下&＃xff0c;会按照一段时间生成一个日志文件&＃xff0c;并且日志会不断的追加到这个文件中&＃xff0c;比如&＃xff0c;每小时一个命名规则为log_20151015_10.log的日志文件&＃xff0c;所有10点产生的日志都会追加到这个文件中&＃xff0c;到了11点&＃xff0c;就会生成另一个log_20151015_11.log的文件。

这种场景如果通过flume&＃xff08;1.6&＃xff09;收集&＃xff0c;当前提供的Spooling Directory Source和Exec Source均不能满足动态实时收集的需求&＃xff0c;在当前正在开发的flume1.7版本中&＃xff0c;提供了一个非常好用的TaildirSource&＃xff0c;使用这个source&＃xff0c;可以监控一个目录&＃xff0c;并且使用正则表达式匹配该目录中的文件名进行实时收集。

a1.sources.r1.type &＃61; TAILDIRa1.sources.r1.filegroups &＃61; f1a1.sources.r1.filegroups.f1 &＃61; 第一个路径a1.sources.r1.positionFile &＃61; 路径

在这里插入图片描述
位置文件&＃xff1a;
实现断点续传 json格式 inode&＃xff08;linux文件系统文件标识&＃xff09;记录了被监控文件位置信息

推荐阅读

kafka
Flume 开源分布式日志收集系统

为什么80%的码农都做不了架构师？Flume--开源分布式日志收集系统Flume是Cloudera提供的一个高可用的、高可靠的开源分布式海量日志收集系统 ... [详细]

蜡笔小新 2023-10-11 13:45:25
kafka
Android中高级面试必知必会，积累总结

本文介绍了Android中高级面试的必知必会内容，并总结了相关经验。文章指出，如今的Android市场对开发人员的要求更高，需要更专业的人才。同时，文章还给出了针对Android岗位的职责和要求，并提供了简历突出的建议。 ... [详细]

蜡笔小新 2023-12-14 14:53:02
client
Web学习历程记录（七）——Tomcat基本概念和配置

本文介绍了Web学习历程记录中关于Tomcat的基本概念和配置。首先解释了Web静态Web资源和动态Web资源的概念，以及C/S架构和B/S架构的区别。然后介绍了常见的Web服务器，包括Weblogic、WebSphere和Tomcat。接着详细讲解了Tomcat的虚拟主机、web应用和虚拟路径映射的概念和配置过程。最后简要介绍了http协议的作用。本文内容详实，适合初学者了解Tomcat的基础知识。 ... [详细]

蜡笔小新 2023-12-13 17:08:24
main
深入理解Kafka服务端请求队列中请求的处理

本文深入分析了Kafka服务端请求队列中请求的处理过程，详细介绍了请求的封装和放入请求队列的过程，以及处理请求的线程池的创建和容量设置。通过场景分析、图示说明和源码分析，帮助读者更好地理解Kafka服务端的工作原理。 ... [详细]

蜡笔小新 2023-12-12 16:14:59
go
一次上线事故，30岁+的程序员踩坑经验之谈

本文主要介绍了一位30岁+的程序员在一次上线事故中踩坑的经验之谈。文章提到了在双十一活动期间，作为一个在线医疗项目，他们进行了优惠折扣活动的升级改造。然而，在上线前的最后一天，由于大量数据请求，导致部分接口出现问题。作者通过部署两台opentsdb来解决问题，但读数据的opentsdb仍然经常假死。作者只能查询最近24小时的数据。这次事故给他带来了很多教训和经验。 ... [详细]

蜡笔小新 2023-12-10 17:25:31
go
2019我的金三银四

先讲一下自己的情况吧，二本学生，17年毕业，目前在一家跨境电商从事Java技术开发工作（不是阿里，没那么厉害），技术栈目前偏向于容器云、持续集成持续交付这一块，也就是SpringBoot、Kuber ... [详细]

蜡笔小新 2023-10-16 10:41:46
go
博客_2018年博客总结

本文由编程笔记#小编为大家整理，主要介绍了2018年博客总结相关的知识，希望对你有一定的参考价值。前言 ... [详细]

蜡笔小新 2023-10-16 09:15:04
go
Java开发实战讲解！字节跳动三场技术面+HR面

二、回顾整理阿里面试题基本就这样了，还有一些零星的问题想不起来了，答案也整理出来了。自我介绍JVM如何加载一个类的过程，双亲委派模型中有 ... [详细]

蜡笔小新 2023-10-15 19:48:25
go
Java开发面试问题，2021网易Java高级面试题及答案，实战案例

前言大厂面试真题向来都是各大求职者的最佳练兵场，而今天小编带来的便是“HUAWEI”面经！这是一次真实的面试经历，虽然不是我自己亲身经历 ... [详细]

蜡笔小新 2023-10-15 11:38:31
go
new无法执行@Autowired注解，多线程注意事项和如何判断子线程是否全部执行完成

前言最近一段时间在整公司项目里一个功能的优化，用到了多线程处理。期间也是踩了不少的坑，在这里想说下我遇到的问题和注意事项。以及怎样知道启动的那些多线程都 ... [详细]

蜡笔小新 2023-10-15 05:36:26
go
如何使用最流行框架Tensorflow进行时序预测和时间序列分析

一、看深度学习框架排名第一的TensorFlow如何进行时序预测摘要：2017年深度学习框架关注度排名tensorflow以绝对的优势占领榜首，本文通过一个小例子介绍了Tensor ... [详细]

蜡笔小新 2023-10-11 19:24:42
go
大数据的明天将驶向何方？

http:www.infoq.comcnarticleswhere-will-big-data--tomorrow-sail-to大数据的明天将驶向何方？作者 36Kr 发布于20 ... [详细]

蜡笔小新 2023-10-11 15:36:45
go
搞懂 ELK 并不是一件特别难的事

点击下方“民工哥技术之路”，选择“设为星标”回复“1024”获取独家整理的学习资料！本篇文章主要介绍ELK的一些框架组成，原理和实践&#x ... [详细]

蜡笔小新 2023-10-11 15:13:24
go
CDH4简介

原文地址：CDH4简介作者：HadoopChinaWebelievethatduring2012,enterprisedistributionsofHa ... [详细]

蜡笔小新 2023-10-11 12:53:33
go
web日志类型有哪些

本篇内容介绍了“web日志类型有哪些”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处 ... [详细]

蜡笔小新 2023-10-10 20:37:17

手机用户2502907603

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章