当前位置: 开发笔记 > 编程语言 > 正文

flume学习含安装

作者：温柔842_259 | 来源：互联网 | 2023-09-11 16:10

1.Flume是什么：Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume基于流式

1.Flume是什么&＃xff1a;Flume是Cloudera提供的一个高可用的&＃xff0c;高可靠的&＃xff0c;分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构&＃xff0c;灵活简单。

在这里插入图片描述

Flume组成架构

在这里插入图片描述

下面我们来详细介绍一下Flume架构中的组件。

1&＃xff09; Agent&＃xff1a;

是一个jvm程序&＃xff0c;它以事件的形式将数据从源头送至目的地&＃xff0c;`是Flume数据传输的基本单元`

Agent 主要有三个部分组成&＃xff1a;Source、Channel、Sinl

2&＃xff09; Source&＃xff1a;

Source是负责接收数据到Flume Agent的组建。Source组建可以处理各种类型、各种格式的日志数据&＃xff0c;包括avro、thirft、exec、jms、spooling directory、netcat、sequence generator、syslog、http、legacy。

3&＃xff09; Channel&＃xff1a;

Channel是位于Source和Sink之间的缓冲器

因此&＃xff0c;Channel允许SOurce和Sink运作在不同的速率上。Channel是线程安全的&＃xff0c;可以同时处理几个Source的写入操作和几个Sink的读取操作

Flume自带两种Channel&＃xff1a;Memory Channel 和FIle Channel。

Memory Channel&＃xff1a;是内存中的队列。Memory Channel在不需要关系数据丢失的情况下适合用。如果需要关系数据丢失&＃xff0c;那么Memory Channel就不应该使用&＃xff0c;因为程序死亡、机器宕机货值重启都会导致数据丢失。

File Channel 将所有事件写到磁盘。因此在程序关系货值机器宕机的情况下不会丢失数据。

4&＃xff09; Sink&＃xff1a;

Sink 不断地轮询Channel中的事件且批量地移除他们&＃xff0c;并将这些事件批量写入到存储或索引系统、或者被发送到另一个Flume Agent。

Sink是完全事务性的。在从Channel批量删除数据之间&＃xff0c;每个Sink用Channel启动一个事务。批量事件一旦成功写出到存储系统或下一个Flume Agent&＃xff0c;Sink就利用Channel提交事务。事务一旦被提交&＃xff0c;该Channel从自己的内部缓冲区删除事件。

Sink组建目的地包括&＃xff1a;hdfs、logger、avro、thrift、ipc、file、null、Hbase、solr、自定义。

Event拓扑结构

Flume的拓扑结构如图

Flume Agent连接

在这里插入图片描述

单source&＃xff0c;多channel、sink

在这里插入图片描述

Flume负载均衡

在这里插入图片描述

Flume Agent聚合

在这里插入图片描述

Flume Agent内部原理

在这里插入图片描述

Flume安装

1) 官网

2) 文档查看地址

3) 下载地址

安装部署

1&＃xff09;将apache-flume-1.9.0-bin.tar.gz上传到linux的/usr/local/目录下

2&＃xff09;解压apache-flume-1.9.0-bin.tar.gz到/usr/local/目录下

$ tar -zxf apache-flume-1.9.0-bin.tar.gz -C /usr/local/

3&＃xff09;修改apache-flume-1.9.0-bin的名称为flume

$ mv apache-flume-1.9.0-bin flume

4&＃xff09;将flume/conf下的flume-env.sh.template文件修改为flume-env.sh&＃xff0c;并配置flume-env.sh文件

$ mv flume-env.sh.template flume-env.sh $ vi flume-env.sh export JAVA_HOME&＃61;/home/hduser/software/jdk1.8.0_221

案例&＃xff1a;

1&＃xff09;

首先&＃xff0c;Flume监控本机44444端口&＃xff0c;然后通过telnet工具向本机44444端口发送消息&＃xff0c;最后Flume将监听的数据实时显示在控制台

需求分析&＃xff1a;

3&＃xff09;实现步骤&＃xff1a;

安装telnet工具
检查是否已经安装telnet

rpm -qa | grep telnet

如果什么都没有&＃xff0c;就是没有安装接着下一步吧。
安装telnet及telnet-server&＃xff0c;注意&＃xff0c;需要root权限来安装。&＃xff08;好像需要先按照server&＃xff09;

yum install telnet-server -y yum install telnet -y

因为装好telnet服务之后&＃xff0c;默认是不开启服务的&＃xff0c;下面我们需要修改文件来开启服务。

注意&＃xff1a;centos7的telnet配置文件是&＃xff1a;/etc/xinetd.conf。centos7以前的是/etc/xinetd.d/telnet

vim /etc/xinetd.d/telnet

修改 disable &＃61; yes 为 disable &＃61; no

需要激活xinetd服务

systemctl start xinetd.service

让xinetd开机自启

systemctl enable xinetd.service

启动telnet服务

systemctl restart telnet.socket

设置让telnet服务开机自启

systemctl enable telnet.socket

测试telnet是否成功开启

telnet localhost

判断44444端口是否被占用

sudo netstat -tunlp | grep 44444 功能描述&＃xff1a;netstat命令是一个监控TCP/IP网络的非常有用的工具&＃xff0c;它可以显示路由表、实际的网络连接以及每一个网络接口设备的状态信息。基本语法&＃xff1a;netstat [选项] 选项参数&＃xff1a;-t或--tcp&＃xff1a;显示TCP传输协议的连线状况&＃xff1b; -u或--udp&＃xff1a;显示UDP传输协议的连线状况&＃xff1b;-n或--numeric&＃xff1a;直接使用ip地址&＃xff0c;而不通过域名服务器&＃xff1b; -l或--listening&＃xff1a;显示监控中的服务器的Socket&＃xff1b; -p或--programs&＃xff1a;显示正在使用Socket的程序识别码和程序名称&＃xff1b;

创建Flume Agent配置文件flume-telnet-logger.conf

在flume目录下创建job文件夹并进入job文件夹

mkdir jobconf cd jobconf/

在job文件夹下创建Flume Agent配置文件flume-telnet-logger.conf

touch flume-telnet-logger.conf

在flume-telnet-logger.conf文件中添加如下内容。

vim flume-telnet-logger.conf

添加内容如下&＃xff1a;

# Name the components on this agent a1.sources &＃61; r1 a1.sinks &＃61; k1 a1.channels &＃61; c1# Describe/configure the source a1.sources.r1.type &＃61; netcat a1.sources.r1.bind &＃61; localhost a1.sources.r1.port &＃61; 44444# Describe the sink a1.sinks.k1.type &＃61; logger# Use a channel which buffers events in memory a1.channels.c1.type &＃61; memory a1.channels.c1.capacity &＃61; 1000 a1.channels.c1.transactionCapacity &＃61; 100# Bind the source and sink to the channel a1.sources.r1.channels &＃61; c1 a1.sinks.k1.channel &＃61; c1

运行

先开启flume监听端口

bin/flume-ng agent --conf conf/ --name a1 --conf-file jobconf/flume-telnet-logger.conf -Dflume.root.logger&＃61;INFO,console

参数说明&＃xff1a;
–conf conf/ &＃xff1a;表示配置文件存储在conf/目录
–name a1 &＃xff1a;表示给agent起名为a1
–conf-file job/flume-telnet.conf &＃xff1a;flume本次启动读取的配置文件是在job文件夹下的flume-telnet.conf文件。
-Dflume.root.logger&＃61;&＃61;INFO,console &＃xff1a;-D表示flume运行时动态修改flume.root.logger参数属性值&＃xff0c;并将控制台日志打印级别设置为INFO级别。日志级别包括:log、info、warn、error。

使用telnet工具向本机的44444端口发送内容

telnet localhost 44444

在Flume监听页面观察接收数据情况

案例 2&＃xff09;实时读取本地文件到HDFS案例

1&＃xff0e;Flume要想将数据输出到HDFS&＃xff0c;必须持有Hadoop相关jar包

将

commons-configuration-1.6.jar、 hadoop-auth-2.7.2.jar、 hadoop-common-2.7.2.jar、 hadoop-hdfs-2.7.2.jar、 commons-io-2.4.jar、 htrace-core-3.1.0-incubating.jar

拷贝到/opt/module/flume/lib文件夹下。

2&＃xff0e;创建flume-file-hdfs.conf文件

创建文件

touch flume-file-hdfs.conf

注&＃xff1a;要想读取Linux系统中的文件&＃xff0c;就得按照Linux命令的规则执行命令。由于Hive日志在Linux系统中所以读取文件的类型选择&＃xff1a;exec即execute执行的意思。表示执行Linux命令来读取文件。

vim flume-file-hdfs.conf

添加如下内容

# Name the components on this agent a2.sources &＃61; r2 a2.sinks &＃61; k2 a2.channels &＃61; c2# Describe/configure the source a2.sources.r2.type &＃61; exec a2.sources.r2.command &＃61; tail -F /udr/local/hive/logs/hive.log a2.sources.r2.shell &＃61; /bin/bash -c# Describe the sink a2.sinks.k2.type &＃61; hdfs a2.sinks.k2.hdfs.path &＃61; hdfs://chun1:9000/flume/%Y%m%d/%H #上传文件的前缀 a2.sinks.k2.hdfs.filePrefix &＃61; logs- #是否按照时间滚动文件夹 a2.sinks.k2.hdfs.round &＃61; true #多少时间单位创建一个新的文件夹 a2.sinks.k2.hdfs.roundValue &＃61; 1 #重新定义时间单位 a2.sinks.k2.hdfs.roundUnit &＃61; hour #是否使用本地时间戳 a2.sinks.k2.hdfs.useLocalTimeStamp &＃61; true #积攒多少个Event才flush到HDFS一次 a2.sinks.k2.hdfs.batchSize &＃61; 1000 #设置文件类型&＃xff0c;可支持压缩 a2.sinks.k2.hdfs.fileType &＃61; DataStream #多久生成一个新的文件 a2.sinks.k2.hdfs.rollInterval &＃61; 600 #设置每个文件的滚动大小 a2.sinks.k2.hdfs.rollSize &＃61; 134217700 #文件的滚动与Event数量无关 a2.sinks.k2.hdfs.rollCount &＃61; 0 #最小冗余数 a2.sinks.k2.hdfs.minBlockReplicas &＃61; 1# Use a channel which buffers events in memory a2.channels.c2.type &＃61; memory a2.channels.c2.capacity &＃61; 1000 a2.channels.c2.transactionCapacity &＃61; 100# Bind the source and sink to the channel a2.sources.r2.channels &＃61; c2 a2.sinks.k2.channel &＃61; c2

3&＃xff0e;执行监控配置

bin/flume-ng agent --conf conf/ --name a2 --conf-file job/flume-file-hdfs.conf

4&＃xff0e;开启Hadoop和Hive并操作Hive产生日志

sbin/start-dfs.sh sbin/start-yarn.sh bin/hive hive >

5&＃xff0e;在HDFS上查看文件。

案例3&＃xff09; 实时读取目录文件到HDFS案例

使用Flume监听整个目录的文件

3&＃xff09;实现步骤&＃xff1a;
1&＃xff0e;创建配置文件flume-dir-hdfs.conf
创建一个文件

touch flume-dir-hdfs.conf

打开文件

vim flume-dir-hdfs.conf

添加如下内容

a3.sources &＃61; r3 a3.sinks &＃61; k3 a3.channels &＃61; c3# Describe/configure the source a3.sources.r3.type &＃61; spooldir a3.sources.r3.spoolDir &＃61; /usr/local/flume-1.9.0/jobconf/upload a3.sources.r3.fileSuffix &＃61; .COMPLETED a3.sources.r3.fileHeader &＃61; true #忽略所有以.tmp结尾的文件&＃xff0c;不上传 a3.sources.r3.ignorePattern &＃61; ([^ ]*\.tmp)# Describe the sink a3.sinks.k3.type &＃61; hdfs a3.sinks.k3.hdfs.path &＃61; hdfs://hadoop102:9000/flume/upload/%Y%m%d/%H #上传文件的前缀 a3.sinks.k3.hdfs.filePrefix &＃61; upload- #是否按照时间滚动文件夹 a3.sinks.k3.hdfs.round &＃61; true #多少时间单位创建一个新的文件夹 a3.sinks.k3.hdfs.roundValue &＃61; 1 #重新定义时间单位 a3.sinks.k3.hdfs.roundUnit &＃61; minute #是否使用本地时间戳 a3.sinks.k3.hdfs.useLocalTimeStamp &＃61; true #积攒多少个Event才flush到HDFS一次 a3.sinks.k3.hdfs.batchSize &＃61; 100 #设置文件类型&＃xff0c;可支持压缩 a3.sinks.k3.hdfs.fileType &＃61; DataStream #多久生成一个新的文件 a3.sinks.k3.hdfs.rollInterval &＃61; 600 #设置每个文件的滚动大小大概是128M a3.sinks.k3.hdfs.rollSize &＃61; 134217700 #文件的滚动与Event数量无关 a3.sinks.k3.hdfs.rollCount &＃61; 0 #最小冗余数 a3.sinks.k3.hdfs.minBlockReplicas &＃61; 1# Use a channel which buffers events in memory a3.channels.c3.type &＃61; memory a3.channels.c3.capacity &＃61; 1000 a3.channels.c3.transactionCapacity &＃61; 100# Bind the source and sink to the channel a3.sources.r3.channels &＃61; c3 a3.sinks.k3.channel &＃61; c3

2. 启动监控文件夹命令

bin/flume-ng agent --conf conf/ --name a3 --conf-file job/flume-dir-hdfs.conf

说明&＃xff1a; 在使用Spooling Directory Source时
1)不要在监控目录中创建并持续修改文件
2)上传完成的文件会以.COMPLETED结尾
3)被监控文件夹每500毫秒扫描一次文件变动

3. 向upload文件夹中添加文件

在/opt/module/flume目录下创建upload文件夹

mkdir upload

向upload文件夹中添加文件

touch atguigu.txt touch atguigu.tmp touch atguigu.log

4. 查看HDFS上的数据

推荐阅读

get
我是这样学习Linux下C语言编程的-把程序输出信息加到系统日志里去

我是这样学习Linux下C语言编程的-把程序输出信息加到系统日志里去关键词：Linux系统日志syslog服务程序syslogd ... [详细]

蜡笔小新 2023-10-12 12:24:58
config
第四讲Apache+LAMP服务器基本配置

第四讲ApacheLAMP服务器基本配置Apache的编译安装从Apache的官方网站下载源码包：http:httpd.apache.orgdownload.cgi今 ... [详细]

蜡笔小新 2023-10-17 19:59:49
web
Skywalking系列博客1安装单机版 Skywalking的快速安装方法

本文介绍了如何快速安装单机版的Skywalking，包括下载、环境需求和端口检查等步骤。同时提供了百度盘下载地址和查询端口是否被占用的命令。 ... [详细]

蜡笔小新 2023-12-14 19:05:47
php
解决Mac上无法使用localhost连接mysql的问题

本文介绍了在Mac上搭建php环境后无法使用localhost连接mysql的问题，并通过将localhost替换为127.0.0.1或本机IP解决了该问题。文章解释了localhost和127.0.0.1的区别，指出了使用socket方式连接导致连接失败的原因。此外，还提供了相关链接供读者深入了解。 ... [详细]

蜡笔小新 2023-12-13 17:48:58
client
Linux下Kafka单机安装配置方法（实操成功）

本文介绍了在Linux下安装和配置Kafka的方法，包括安装JDK、下载和解压Kafka、配置Kafka的参数，以及配置Kafka的日志目录、服务器IP和日志存放路径等。同时还提供了单机配置部署的方法和zookeeper地址和端口的配置。通过实操成功的案例，帮助读者快速完成Kafka的安装和配置。 ... [详细]

蜡笔小新 2023-12-12 18:14:32
php
mac php错误日志配置方法及错误级别修改

本文介绍了在mac环境下配置php错误日志的方法，包括修改php.ini文件和httpd.conf文件的操作步骤。同时还介绍了如何修改错误级别，以及相应的错误级别参考链接。 ... [详细]

蜡笔小新 2023-12-12 11:59:08
list
面试经验分享：华为面试四轮电话面试、一轮笔试、一轮主管视频面试、一轮hr视频面试

最近有朋友去华为面试，面试经历包括四轮电话面试、一轮笔试、一轮主管视频面试、一轮hr视频面试。80%的人都在第一轮电话面试中失败，因为缺乏基础知识。面试问题涉及 ... [详细]

蜡笔小新 2023-12-09 10:22:03
php
负载均衡_Nginx反向代理动静分离负载均衡及rewrite隐藏路径详解（Nginx Apache MySQL Redis）–第二部分

nginx反向代理、动静分离、负载均衡及rewrite隐藏路径详解 ... [详细]

蜡笔小新 2023-10-17 21:34:48
list
linux resin日志,linux resin 基本站点配置

进入配置文件目录：[rootlinuxidcresin-4.0.]#cdusrlocalresinconf查看都有哪些配置文件：[rootlinuxid ... [详细]

蜡笔小新 2023-10-17 17:36:18
ip
LVS-DR直接路由实现负载均衡示例

nsitionalENhttp:www.w3.orgTRxhtml1DTDxhtml1-transitional.dtd ... [详细]

蜡笔小新 2023-10-17 10:27:04
config
Java程序员必会的40个Linux命令！

你知道的越多，不知道的就越多，业余的像一棵小草！你来，我们一起精进！你不来，我和你的竞争对手一起 ... [详细]

蜡笔小新 2023-10-17 09:11:59
list
Apache + Tomcat集群 + 负载均衡

PartI:取经处: http:www.ramkitech.com201210tomcat-clustering ... [详细]

蜡笔小新 2023-10-16 10:56:50
filter
Java工具类库Hutool介绍及功能概述

本文介绍了Java工具类库Hutool，该工具包封装了对文件、流、加密解密、转码、正则、线程、XML等JDK方法的封装，并提供了各种Util工具类。同时，还介绍了Hutool的组件，包括动态代理、布隆过滤、缓存、定时任务等功能。该工具包可以简化Java代码，提高开发效率。 ... [详细]

蜡笔小新 2023-12-14 14:29:36
list
mysql升级（从5.6.15升级到5.7.15的步骤）

本文介绍了将mysql从5.6.15升级到5.7.15的详细步骤，包括关闭访问、备份旧库、备份权限、配置文件备份、关闭旧数据库、安装二进制、替换配置文件以及启动新数据库等操作。 ... [详细]

蜡笔小新 2023-12-12 14:45:04
cookie
Apache Shiro 身份验证绕过漏洞 (CVE202011989) 详细解析及防范措施

本文详细解析了Apache Shiro 身份验证绕过漏洞 (CVE202011989) 的原理和影响，并提供了相应的防范措施。Apache Shiro 是一个强大且易用的Java安全框架，常用于执行身份验证、授权、密码和会话管理。在Apache Shiro 1.5.3之前的版本中，与Spring控制器一起使用时，存在特制请求可能导致身份验证绕过的漏洞。本文还介绍了该漏洞的具体细节，并给出了防范该漏洞的建议措施。 ... [详细]

蜡笔小新 2023-12-09 19:58:36

温柔842_259

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章

flume学习含安装

1.Flume是什么&＃xff1a;Flume是Cloudera提供的一个高可用的&＃xff0c;高可靠的&＃xff0c;分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构&＃xff0c;灵活简单。

Flume组成架构

下面我们来详细介绍一下Flume架构中的组件。

1&＃xff09; Agent&＃xff1a;

是一个jvm程序&＃xff0c;它以事件的形式将数据从源头送至目的地&＃xff0c;是Flume数据传输的基本单元

Agent 主要有三个部分组成&＃xff1a;Source、Channel、Sinl

2&＃xff09; Source&＃xff1a;

Source是负责接收数据到Flume Agent的组建。Source组建可以处理各种类型、各种格式的日志数据&＃xff0c;包括avro、thirft、exec、jms、spooling directory、netcat、sequence generator、syslog、http、legacy。

3&＃xff09; Channel&＃xff1a;

Channel是位于Source和Sink之间的缓冲器

因此&＃xff0c;Channel允许SOurce和Sink运作在不同的速率上。Channel是线程安全的&＃xff0c;可以同时处理几个Source的写入操作和几个Sink的读取操作

Flume自带两种Channel&＃xff1a;Memory Channel 和FIle Channel。

Memory Channel&＃xff1a;是内存中的队列。Memory Channel在不需要关系数据丢失的情况下适合用。如果需要关系数据丢失&＃xff0c;那么Memory Channel就不应该使用&＃xff0c;因为程序死亡、机器宕机货值重启都会导致数据丢失。

File Channel 将所有事件写到磁盘。因此在程序关系货值机器宕机的情况下不会丢失数据。

4&＃xff09; Sink&＃xff1a;

Sink 不断地轮询Channel中的事件且批量地移除他们&＃xff0c;并将这些事件批量写入到存储或索引系统、或者被发送到另一个Flume Agent。

Sink组建目的地包括&＃xff1a;hdfs、logger、avro、thrift、ipc、file、null、Hbase、solr、自定义。

Event拓扑结构

Flume的拓扑结构如图

Flume Agent连接

单source&＃xff0c;多channel、sink

Flume负载均衡

Flume Agent聚合

Flume Agent内部原理

Flume安装

1) 官网

2) 文档查看地址

3) 下载地址

1&＃xff09;将apache-flume-1.9.0-bin.tar.gz上传到linux的/usr/local/目录下

2&＃xff09;解压apache-flume-1.9.0-bin.tar.gz到/usr/local/目录下

3&＃xff09;修改apache-flume-1.9.0-bin的名称为flume

4&＃xff09;将flume/conf下的flume-env.sh.template文件修改为flume-env.sh&＃xff0c;并配置flume-env.sh文件

案例&＃xff1a;

1&＃xff09;

首先&＃xff0c;Flume监控本机44444端口&＃xff0c;然后通过telnet工具向本机44444端口发送消息&＃xff0c;最后Flume将监听的数据实时显示在控制台

需求分析&＃xff1a;

3&＃xff09;实现步骤&＃xff1a;

注意&＃xff1a;centos7的telnet配置文件是&＃xff1a;/etc/xinetd.conf。centos7以前的是/etc/xinetd.d/telnet

修改 disable &＃61; yes 为 disable &＃61; no

需要激活xinetd服务

让xinetd开机自启

启动telnet服务

设置让telnet服务开机自启

测试telnet是否成功开启

判断44444端口是否被占用

创建Flume Agent配置文件flume-telnet-logger.conf

运行

先开启flume监听端口

使用telnet工具向本机的44444端口发送内容

案例 2&＃xff09;实时读取本地文件到HDFS案例

1&＃xff0e;Flume要想将数据输出到HDFS&＃xff0c;必须持有Hadoop相关jar包

2&＃xff0e;创建flume-file-hdfs.conf文件

3&＃xff0e;执行监控配置

4&＃xff0e;开启Hadoop和Hive并操作Hive产生日志

5&＃xff0e;在HDFS上查看文件。

案例3&＃xff09; 实时读取目录文件到HDFS案例

2. 启动监控文件夹命令

3. 向upload文件夹中添加文件

4. 查看HDFS上的数据

是一个jvm程序&＃xff0c;它以事件的形式将数据从源头送至目的地&＃xff0c;`是Flume数据传输的基本单元`